Комментарии 30
Скоро можно будет купить NPU M.2 в ноутбук дешевле внешней GPU сравнимой производительности?
Сам спросил, сам ответил:
M.2 AI Inference Acceleration card
Но вопросы по производительности в сравнении даже с бюджетными дискретками.
Пробовал HAILO 8. У него 26 TOPs, с камерой и видео работает хорошо, недавно его приспособили для Whisper, но с LLM он вообще не работает. Видимо, производители не могут это сделать, а сторонние разработчики не владеют описанием достаточно подробно.
Расскажите, пожалуйста, как Вы его использовали? OpenCV? Конвертировали YOLO в .hef?
Протестировал работу на примерах, которые в состве SDK. Работают отлично. Практического применения не нашел. Если говорить о проектах, то мне больше нравятся модули на Kendryte K-210. Например, MF0, у которого на плате 20x20 мм есть и процессор, и ускоритель на 1 TOPs, и интерфейс камеры.
HAILO 8 планировал применять для всех задач, которые требуют нейроопераций, но пока этого не видно.
Хотел его для LLM использовать, но в реальности на Raspberry Pi они работают и без него.
Имеются в виду небольшие 270m...1b модели. Потом начал делать свои модели, узкоспециализированные. что интересно, работают даже на Raspberry Pi Zero 2W. И ещё на Arduino Uno Q.
Но LLM - спорный вариант, что называется, "всё хорошо, но всё надо переделать". Такое ощущение, что скоро будут без нейросетей (и матриц) обходиться...
А HAILO пока подождёт, пока производитель или энтузиаст разработает нормальный интерфейс. Пока поставил на его место M.2 SSD.
В целом уже сейчас можно использовать для рабочих задач LLM на Apple Silicon M4. Самый бюджетный MacBook Air M4/16Gb тянет 14B модель (Cogito V1 14B) с контекстом окном 8К на ollama.
как она по скорости и качеству для кодинга, если подключить в какой-нибудь Cursor?
Никак примерно. Gpt-3.5 помните? Вот примерно на том же уровне. В качестве автокомплита можно, бойлерплейт напишет, но надо перепроверять. Все ещё ускоряет работу в плане нажатия клавиш, но отзывчивость не на gpu, а на npu/m2 будет не такой хорошей и может начать раздражать, особенно если привыкли уже к хорошему
Для кодинга слабовато. Для повседневных задач, агентов - нормально.
Это пока для исследователей и энтузиастов, кто готов мириться с лагами системы пока модель считает свои токены.
А как к курсору можно подключать локальные LLM? Или только через веб интерфейс?
Курсор поддерживает OpenAI API совместимые модели - в настройках можно указать кастомный урл. Но этот апи должен быть доступен снаружи, т.к. модель дёргается серверами курсора, а не самим приложением. Поэтому с localhost не заработает. Локальную модель можно выставить наружу через туннель, предоставляющий публичный адрес (ngrok, cloudflare и т.п.)
В kilocode можно. Работает ровно так же, как курсор
Для локали я бы посоветовал использовать opencode вместо cursor, там конфигурацию подробную можно составить для стенда.
на моём macbook air m2 тестил deepseek r1 на 8b параметров и это неплохой локальный гугл. Код тоже способен генерировать, но писать прям полноценный код не получится, и да npu там вроде не используется (ollama.cpp), чисто мощности GPU. Есть один проект под asahi Linux, которые зареверсили npu для маков, но это скорее экспериментальный проект и подключить туда какой то pytorch не получится, либо придётся самим модифицировать исходники, чтобы оно заработало. С другими npu ситуация ещё сложнее так, что сейчас используют только GPU, а npu только поставщик софта в ноутбук, а остальным доступ дают ограниченный, либо вообще не развитый и там почти нереально что то полезное запустить.
Взяли MacMini M4 Pro 24Gb - и просто рады :) Большой выбор моделей, и ОЗУ много/
В итоге понятно, что ничего не понятно. Напихивают больше памяти, добавляют некие npu, apple "припаивает" память к процу, а по скорости все равно выигрывают nvidia видеокарты, причем даже не самые свежие.
Ryzen AI Max на одном кристалле объединяет CPU Ryzen, GPU Radeon и NPU со скоростью 50 TOPS, а также использует единый пул памяти. Благодаря этому, CPU, GPU и NPU могут обращаться к 128 ГБ системной RAM, распределяемой между ними. В AMD верят, что это идеальная стратегия организации памяти и оптимизации быстродействия потребительских ПК.
новейший ryzen ai max используется в gpd win 5. Вы на полном серьезе считаете, что в карманной приставке будет какая-то мощь, способная потянуть ИИ? Ну загрузите вы какую-нибудь большую модель в 128гб, а дальше что? Отдача 1-2 токена в секунду?
а по скорости все равно выигрывают nvidia видеокарты, причем даже не самые свежие.
новейший ryzen ai max используется в gpd win 5. Вы на полном серьезе считаете, что в карманной приставке будет какая-то мощь, способная потянуть ИИ? Ну загрузите вы какую-нибудь большую модель в 128гб, а дальше что? Отдача 1-2 токена в секунду?
Размер устройства не имеет значения, имеет значение количество каналов памяти и тип памяти.
Скорость генерации LLM линейно зависит от скорости памяти, в GPU используют быструю GDDR6X и DDR7 и широкую шину памяти, получая скорость 1 Тб/c на 4090. В Ryzen AI Max+ 365, как и в NVIDIA DGX Spark, используется DDR5 и всего 4 канала памяти, скорость памяти 256 Гб/с. Для сравнения у 4060ti всего 288 Гб/с, что немногим больше.
Смотря на какой архитектуре модель: Dense или MoE. Новый Devstral 2 123B сделан как Dense, там будет 3 t/s, но многие переходят на MoE, поэтому там будет скорость намного выше.
Ryzen AI Max+ выдает 50 t/s на GPT-OSS-120B, это очень комфортная скорость для работы, и на 128Гб можно запустить более качественные модели, вроде GLM-4.5-Air или MiniMax-M2.1 230B, скорость будет в районе 25-30 t/s.
Подробнее про MoE модели: Запускаем GPT-OSS-120B на 6 Гб GPU и ускоряем до 30 t/s. Вам нужна RAM, а не VRAM. Параметр -cmoe для ускорения MoE LLM
Собственно, основную проблему быстродействия локальных ИИ можно сформулировать так:
Скорость моделей лимитируется в первую очередь памятью, её надо много и она должна быть быстрой
Много быстрой памяти - это дорого, особенно сейчас, когда на волне нейро-хайпа все производственные линии законтрактованы толстосумами на 5 лет вперёд.
Так что увы - в ближайшие годы можно не ожидать устройства, способного гонять нормальные модели, за сумму менее $5000.
1 Тб/c
Так как мы на техническом ресурсе, 1 ТБ/с (терабайт, не терабит)
В итоге понятно, что ничего не понятно. Напихивают больше памяти, добавляют некие npu, apple "припаивает" память к процу, а по скорости все равно выигрывают nvidia видеокарты, причем даже не самые свежие.
Вы не рефлексируйте, покупайте!
Единственный выход это создание моделей для распределённой обработки. Горизонтальное масштабирование гораздо гибче и удобнее, чем вертикальное наращивание ресурсов, которое после определённого предела начинает стоить как самолёт.
Современные трансформерные модели и так масштабируются и параллелятся практически идеально. Их без проблем можно распределить на любое количество GPU/CPU, а веса поделить между разными видами памяти (RAM/VRAM).
Проблема в том, что быстрая память - это дорогая память, и поэтому нет особой разницы, распаяны эти дорогие чипы на одной большой плате или на 10 маленьких, цена всё равно будет даже не кусаться, а буквально рвать в клочья. Причём по мере надувания ИИ-пузыря спрос на такую память только растёт, как и цена.
Поправьте, если я неправ. Но они параллелятся только при крайне быстрых каналах между этими частями (из-за обилия связей между слоями), что выходит за рамки эконом сегмента. А вот, например, в mix-of-exprert архитектуре выглядит естественным "каждому эксперту свое железо" и при этом относительно слабый канал между ними. Как будто бы тут возможен подход RAID - массив из недорогих компонентов (особенно если число экспертов велико).
Более того, такой подход еще позволит приоритезировать экспертов - тех, которыми часто пользуемся - выносим на железо побыстрее; которыми редко - на железо послабее.
pcie x16 5.0 уже является ограничением для такого подхода для старших(умных) моделей. а глупые ответы можно и на телефоне в 8gb ram получить.
Если точнее в цифрах - как не старайся, а deepseek 671B работает либо аж не 4 mac ultra в 30 т/с, либо на стаке блэквеллов. И то и другое - дорого для дома. А из альтернатив - только если на процессорах начнут hbm распаивать.
А есть же контролёры ОЗУ на pci-e. Мож на ddr4 не так больно по цене будет. Ждём когда китайцы выпустят какую-нибудь вундервафлю на 16 каналов)))
В продаже даже на Wildberries уже есть мини-комп Beelink GTR9 https://habr.com/ru/news/936488/. У него как раз 128 Гб памяти и процессор AMD Ryzen AI Max+ 395. Один комп способен запустить DeepSeek 70b. Эти компы можно объединить в кластер получив ещё большую производительность.
Ваш ноутбук пока не готов к LLM, но скоро это изменится