Пробовал HAILO 8. У него 26 TOPs, с камерой и видео работает хорошо, недавно его приспособили для Whisper, но с LLM он вообще не работает. Видимо, производители не могут это сделать, а сторонние разработчики не владеют описанием достаточно подробно.

Viktor-T 4 янв в 21:16

Расскажите, пожалуйста, как Вы его использовали? OpenCV? Конвертировали YOLO в .hef?

longtolik 5 янв в 10:36

Протестировал работу на примерах, которые в состве SDK. Работают отлично. Практического применения не нашел. Если говорить о проектах, то мне больше нравятся модули на Kendryte K-210. Например, MF0, у которого на плате 20x20 мм есть и процессор, и ускоритель на 1 TOPs, и интерфейс камеры.

HAILO 8 планировал применять для всех задач, которые требуют нейроопераций, но пока этого не видно.

Хотел его для LLM использовать, но в реальности на Raspberry Pi они работают и без него.

Имеются в виду небольшие 270m...1b модели. Потом начал делать свои модели, узкоспециализированные. что интересно, работают даже на Raspberry Pi Zero 2W. И ещё на Arduino Uno Q.

Но LLM - спорный вариант, что называется, "всё хорошо, но всё надо переделать". Такое ощущение, что скоро будут без нейросетей (и матриц) обходиться...

А HAILO пока подождёт, пока производитель или энтузиаст разработает нормальный интерфейс. Пока поставил на его место M.2 SSD.

Viktor-T 5 янв в 22:24

Спасибо за такой подробный ответ.

borey 4 янв в 14:38

В целом уже сейчас можно использовать для рабочих задач LLM на Apple Silicon M4. Самый бюджетный MacBook Air M4/16Gb тянет 14B модель (Cogito V1 14B) с контекстом окном 8К на ollama.

Bardakan 4 янв в 15:04

как она по скорости и качеству для кодинга, если подключить в какой-нибудь Cursor?

thethee 4 янв в 18:31

Никак примерно. Gpt-3.5 помните? Вот примерно на том же уровне. В качестве автокомплита можно, бойлерплейт напишет, но надо перепроверять. Все ещё ускоряет работу в плане нажатия клавиш, но отзывчивость не на gpu, а на npu/m2 будет не такой хорошей и может начать раздражать, особенно если привыкли уже к хорошему

borey 4 янв в 19:15

Для кодинга слабовато. Для повседневных задач, агентов - нормально.

funca 4 янв в 20:12

Это пока для исследователей и энтузиастов, кто готов мириться с лагами системы пока модель считает свои токены.

werymag 5 янв в 00:42

А как к курсору можно подключать локальные LLM? Или только через веб интерфейс?

funca 5 янв в 14:01

Курсор поддерживает OpenAI API совместимые модели - в настройках можно указать кастомный урл. Но этот апи должен быть доступен снаружи, т.к. модель дёргается серверами курсора, а не самим приложением. Поэтому с localhost не заработает. Локальную модель можно выставить наружу через туннель, предоставляющий публичный адрес (ngrok, cloudflare и т.п.)

vvzvlad 5 янв в 17:10

В kilocode можно. Работает ровно так же, как курсор

Keirichs 6 янв в 11:05

Для локали я бы посоветовал использовать opencode вместо cursor, там конфигурацию подробную можно составить для стенда.

swap2bin 5 янв в 01:57

на моём macbook air m2 тестил deepseek r1 на 8b параметров и это неплохой локальный гугл. Код тоже способен генерировать, но писать прям полноценный код не получится, и да npu там вроде не используется (ollama.cpp), чисто мощности GPU. Есть один проект под asahi Linux, которые зареверсили npu для маков, но это скорее экспериментальный проект и подключить туда какой то pytorch не получится, либо придётся самим модифицировать исходники, чтобы оно заработало. С другими npu ситуация ещё сложнее так, что сейчас используют только GPU, а npu только поставщик софта в ноутбук, а остальным доступ дают ограниченный, либо вообще не развитый и там почти нереально что то полезное запустить.

ugenk 5 янв в 13:29

Взяли MacMini M4 Pro 24Gb - и просто рады :) Большой выбор моделей, и ОЗУ много/

Bardakan 4 янв в 15:22

В итоге понятно, что ничего не понятно. Напихивают больше памяти, добавляют некие npu, apple "припаивает" память к процу, а по скорости все равно выигрывают nvidia видеокарты, причем даже не самые свежие.

Ryzen AI Max на одном кристалле объединяет CPU Ryzen, GPU Radeon и NPU со скоростью 50 TOPS, а также использует единый пул памяти. Благодаря этому, CPU, GPU и NPU могут обращаться к 128 ГБ системной RAM, распределяемой между ними. В AMD верят, что это идеальная стратегия организации памяти и оптимизации быстродействия потребительских ПК.

новейший ryzen ai max используется в gpd win 5. Вы на полном серьезе считаете, что в карманной приставке будет какая-то мощь, способная потянуть ИИ? Ну загрузите вы какую-нибудь большую модель в 128гб, а дальше что? Отдача 1-2 токена в секунду?

Shannon 4 янв в 19:37

а по скорости все равно выигрывают nvidia видеокарты, причем даже не самые свежие.
новейший ryzen ai max используется в gpd win 5. Вы на полном серьезе считаете, что в карманной приставке будет какая-то мощь, способная потянуть ИИ? Ну загрузите вы какую-нибудь большую модель в 128гб, а дальше что? Отдача 1-2 токена в секунду?

Размер устройства не имеет значения, имеет значение количество каналов памяти и тип памяти.

Скорость генерации LLM линейно зависит от скорости памяти, в GPU используют быструю GDDR6X и DDR7 и широкую шину памяти, получая скорость 1 Тб/c на 4090. В Ryzen AI Max+ 365, как и в NVIDIA DGX Spark, используется DDR5 и всего 4 канала памяти, скорость памяти 256 Гб/с. Для сравнения у 4060ti всего 288 Гб/с, что немногим больше.

Смотря на какой архитектуре модель: Dense или MoE. Новый Devstral 2 123B сделан как Dense, там будет 3 t/s, но многие переходят на MoE, поэтому там будет скорость намного выше.

Ryzen AI Max+ выдает 50 t/s на GPT-OSS-120B, это очень комфортная скорость для работы, и на 128Гб можно запустить более качественные модели, вроде GLM-4.5-Air или MiniMax-M2.1 230B, скорость будет в районе 25-30 t/s.

Подробнее про MoE модели: Запускаем GPT-OSS-120B на 6 Гб GPU и ускоряем до 30 t/s. Вам нужна RAM, а не VRAM. Параметр -cmoe для ускорения MoE LLM

Alexey2005 5 янв в 01:22

Собственно, основную проблему быстродействия локальных ИИ можно сформулировать так:

Скорость моделей лимитируется в первую очередь памятью, её надо много и она должна быть быстрой
Много быстрой памяти - это дорого, особенно сейчас, когда на волне нейро-хайпа все производственные линии законтрактованы толстосумами на 5 лет вперёд.

Так что увы - в ближайшие годы можно не ожидать устройства, способного гонять нормальные модели, за сумму менее $5000.

Bardakan 5 янв в 07:15

"много памяти" позволяет вам запустить модель побольше, которая будет медленнее. Как именно это должно ускорить работу модели?

vvzvlad 5 янв в 17:11

Таскать веса не надо будет с диска в память. Чем больше памяти, тем больше можно вынести в нее горячих частей модели, это ускоряет инференс.

Child-Lover 5 янв в 08:54

1 Тб/c

Так как мы на техническом ресурсе, 1 ТБ/с (терабайт, не терабит)

Wesha 5 янв в 15:41

В итоге понятно, что ничего не понятно. Напихивают больше памяти, добавляют некие npu, apple "припаивает" память к процу, а по скорости все равно выигрывают nvidia видеокарты, причем даже не самые свежие.

Вы не рефлексируйте, покупайте!

gen_dalf 4 янв в 16:51

Единственный выход это создание моделей для распределённой обработки. Горизонтальное масштабирование гораздо гибче и удобнее, чем вертикальное наращивание ресурсов, которое после определённого предела начинает стоить как самолёт.

Alexey2005 5 янв в 01:27

Современные трансформерные модели и так масштабируются и параллелятся практически идеально. Их без проблем можно распределить на любое количество GPU/CPU, а веса поделить между разными видами памяти (RAM/VRAM).

Проблема в том, что быстрая память - это дорогая память, и поэтому нет особой разницы, распаяны эти дорогие чипы на одной большой плате или на 10 маленьких, цена всё равно будет даже не кусаться, а буквально рвать в клочья. Причём по мере надувания ИИ-пузыря спрос на такую память только растёт, как и цена.

mixsture 5 янв в 16:09

Поправьте, если я неправ. Но они параллелятся только при крайне быстрых каналах между этими частями (из-за обилия связей между слоями), что выходит за рамки эконом сегмента. А вот, например, в mix-of-exprert архитектуре выглядит естественным "каждому эксперту свое железо" и при этом относительно слабый канал между ними. Как будто бы тут возможен подход RAID - массив из недорогих компонентов (особенно если число экспертов велико).
Более того, такой подход еще позволит приоритезировать экспертов - тех, которыми часто пользуемся - выносим на железо побыстрее; которыми редко - на железо послабее.

dkeiz 6 янв в 11:11

pcie x16 5.0 уже является ограничением для такого подхода для старших(умных) моделей. а глупые ответы можно и на телефоне в 8gb ram получить.
Если точнее в цифрах - как не старайся, а deepseek 671B работает либо аж не 4 mac ultra в 30 т/с, либо на стаке блэквеллов. И то и другое - дорого для дома. А из альтернатив - только если на процессорах начнут hbm распаивать.

HellQwer 5 янв в 17:46

А есть же контролёры ОЗУ на pci-e. Мож на ddr4 не так больно по цене будет. Ждём когда китайцы выпустят какую-нибудь вундервафлю на 16 каналов)))

vbg8tmtm 5 янв в 09:33

В продаже даже на Wildberries уже есть мини-комп Beelink GTR9 https://habr.com/ru/news/936488/. У него как раз 128 Гб памяти и процессор AMD Ryzen AI Max+ 395. Один комп способен запустить DeepSeek 70b. Эти компы можно объединить в кластер получив ещё большую производительность.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий