lor.sh is one of the many independent Mastodon servers you can use to participate in the fediverse.
lor.sh is yet another mastodon instance.

Administered by:

Server stats:

368
active users

Alexey Skobkin

Я тут немного гонял Gemma 3.

В @ollama с ней сейчас некоторые проблемы с памятью поэтому 27B версию нормально трогать не получается.

Ну, когда есть версия 27B как-то не очень хочется гонять 12B версию и поэтому я её почти не трогал и ждал когда починят менеджмент памяти.

Но тут я случайно вспомнил что Gemma 3 - мультимодалка. И решил попробовать посмотреть что там как с пониманием картинок.

До этого я уже баловался со всякими LLaVA, которая мне откровенно не понравилась, а также с LLaMA 3.2, которая была заметно лучше, но всё равно была не очень надежной.

А вот Gemma 3 меня прямо удивила.
Она мне тут и кошку в темноте нашла, и моток филамента объяснила даже уточнив, что тот лежит на коврике для мыши хотя этого коврика там лишь кусок в углу фото.

А тут она мне ещё и состав моей стойки расписала вплоть до того, что угадала аудио-интерфейс, что в него включён микрофон (его нет на фото) и что это домашняя студия.

Сильнее она удивила бы меня разве что если бы посчитала по торчащему в розетке ваттметру потребление и сделала вывод, что на сервере с фото она и работает, лол.

Короче, я впечатлён. Google молодцы.

#pic#log#LLM

Кстати, забыл написать, что в @ollama 0.6.3-rc0 описанную мной проблему если не починили, то сделали так, что я её ни разу не встретил за вечер экспериментов с Gemma 27B.

Так что если у вас была проблема, то возьмите свежий пре-релиз и попробуйте ещё раз.

CC @th3rdsergeevich

@skobkin @ollama Звучит вкусно, только пока мой биг-бокс 27В не берет по памяти, на попытке распознать картинку виснет. Правда, все это делал именно что в Ollama, я еще крупную модель не обкатывал в KoboldCpp, надо будет попробовать.

UPD: Вру, имел в виду 12B.

@th3rdsergeevich @ollama
Так я ж говорю, там в Ollama сейчас проблемы именно с Gemma по памяти.

Если всё ок, то модель даже если не помещается в VRAM должна хотя бы бегая постоянно между RAM и VRAM медленно работать. Но с Gemma что-то идёт не так и Ollama не может предсказать потребление и начинается ад вроде того что раннер просто крашится или начинает вместо VRAM использовать RAM не загружая память видеокарты как надо.

Так что пробуй 12B или ещё более мелкую версию. Сейчас все так страдают 🤷

P.S. А ещё у неё с русским неплохо. Причём вплоть до того, что может даже стих с рифмой написать. Этого от модели на русском я добился впервые - они обычно просто игнорируют рифму, видимо, размышляя английскими токенами и не проверяя результат.

@skobkin @ollama блин, я как послушал и посмотрел про амдшные AI Max процы с до 128 гигами памяти так не могу перестать облизываться (хотя оно будет стоит стока, что лучше сразу губу закатать)

@cycl0ne
Это которые Ryzen AI HX 370 и ко?

@skobkin не, HX - это Strix Point, а я про Strix Halo (Ryzen AI MAX+) там 40CU и до 128 гигов Unified memory

Ну и АМД как обычно проебалось в нейминге продуктов. как смотришь на модельный ряд "мобильных" процессоров - хочется за голову схватиться.

@cycl0ne
Ну это их родня, просто более крутая.
А как там это память работает? Просто NPU и GPU быстрый прямой доступ в RAM?

Я так понимаю, для AM5 подобных процессоров не имеет смысла ждать в том числе из-за специфики по памяти. Я б себе в сервер такое воткнул, конечно.

@skobkin по идее всяческие mini-pc на них обещают. Но да, быстрый прямой доступ к памяти.

@cycl0ne но память при этом будет медленная?
В смысле, обычный DDR?
@skobkin

@rayslava @skobkin медленная, но как понимаю, все же пошустрее обычного получается. 256bit LPDDR5Х, если я всё правильно понимаю.

@cycl0ne ага, ну то есть они пошли по той же схеме, по которой сейчас идёт apple.
Нормальный ход, в принципе. Надо будет посмотреть, что там будет с финансовой точки зрения.
@skobkin

@rayslava @cycl0ne
Ну лучше так, чем десятками жижабайт переливать туда-сюда.