Я тут немного гонял Gemma 3.
В @ollama с ней сейчас некоторые проблемы с памятью поэтому 27B версию нормально трогать не получается.
Ну, когда есть версия 27B как-то не очень хочется гонять 12B версию и поэтому я её почти не трогал и ждал когда починят менеджмент памяти.
Но тут я случайно вспомнил что Gemma 3 - мультимодалка. И решил попробовать посмотреть что там как с пониманием картинок.
До этого я уже баловался со всякими LLaVA, которая мне откровенно не понравилась, а также с LLaMA 3.2, которая была заметно лучше, но всё равно была не очень надежной.
А вот Gemma 3 меня прямо удивила.
Она мне тут и кошку в темноте нашла, и моток филамента объяснила даже уточнив, что тот лежит на коврике для мыши хотя этого коврика там лишь кусок в углу фото.
А тут она мне ещё и состав моей стойки расписала вплоть до того, что угадала аудио-интерфейс, что в него включён микрофон (его нет на фото) и что это домашняя студия.
Сильнее она удивила бы меня разве что если бы посчитала по торчащему в розетке ваттметру потребление и сделала вывод, что на сервере с фото она и работает, лол.
Короче, я впечатлён. Google молодцы.
Кстати, забыл написать, что в @ollama 0.6.3-rc0 описанную мной проблему если не починили, то сделали так, что я её ни разу не встретил за вечер экспериментов с Gemma 27B.
Так что если у вас была проблема, то возьмите свежий пре-релиз и попробуйте ещё раз.
@th3rdsergeevich @ollama
Так я ж говорю, там в Ollama сейчас проблемы именно с Gemma по памяти.
Если всё ок, то модель даже если не помещается в VRAM должна хотя бы бегая постоянно между RAM и VRAM медленно работать. Но с Gemma что-то идёт не так и Ollama не может предсказать потребление и начинается ад вроде того что раннер просто крашится или начинает вместо VRAM использовать RAM не загружая память видеокарты как надо.
Так что пробуй 12B или ещё более мелкую версию. Сейчас все так страдают
P.S. А ещё у неё с русским неплохо. Причём вплоть до того, что может даже стих с рифмой написать. Этого от модели на русском я добился впервые - они обычно просто игнорируют рифму, видимо, размышляя английскими токенами и не проверяя результат.
@cycl0ne
Это которые Ryzen AI HX 370 и ко?
@skobkin не, HX - это Strix Point, а я про Strix Halo (Ryzen AI MAX+) там 40CU и до 128 гигов Unified memory
Ну и АМД как обычно проебалось в нейминге продуктов. как смотришь на модельный ряд "мобильных" процессоров - хочется за голову схватиться.
@cycl0ne
Ну это их родня, просто более крутая.
А как там это память работает? Просто NPU и GPU быстрый прямой доступ в RAM?
Я так понимаю, для AM5 подобных процессоров не имеет смысла ждать в том числе из-за специфики по памяти. Я б себе в сервер такое воткнул, конечно.
@skobkin по идее всяческие mini-pc на них обещают. Но да, быстрый прямой доступ к памяти.