Обновить

Ваш ноутбук пока не готов к LLM, но скоро это изменится

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели14K
Всего голосов 28: ↑24 и ↓4+37
Комментарии30

Комментарии 30

Скоро можно будет купить NPU M.2 в ноутбук дешевле внешней GPU сравнимой производительности?

Сам спросил, сам ответил:

Geniatech AIM M2 раз два

AI CORE X и Hailo-8 M.2 2280

M.2 AI Inference Acceleration card

Но вопросы по производительности в сравнении даже с бюджетными дискретками.

Пробовал HAILO 8. У него 26 TOPs, с камерой и видео работает хорошо, недавно его приспособили для Whisper, но с LLM он вообще не работает. Видимо, производители не могут это сделать, а сторонние разработчики не владеют описанием достаточно подробно.

Расскажите, пожалуйста, как Вы его использовали? OpenCV? Конвертировали YOLO в .hef? 

Протестировал работу на примерах, которые в состве SDK. Работают отлично. Практического применения не нашел. Если говорить о проектах, то мне больше нравятся модули на Kendryte K-210. Например, MF0, у которого на плате 20x20 мм есть и процессор, и ускоритель на 1 TOPs, и интерфейс камеры.

HAILO 8 планировал применять для всех задач, которые требуют нейроопераций, но пока этого не видно.

Хотел его для LLM использовать, но в реальности на Raspberry Pi они работают и без него.

Имеются в виду небольшие 270m...1b модели. Потом начал делать свои модели, узкоспециализированные. что интересно, работают даже на Raspberry Pi Zero 2W. И ещё на Arduino Uno Q.

Но LLM - спорный вариант, что называется, "всё хорошо, но всё надо переделать". Такое ощущение, что скоро будут без нейросетей (и матриц) обходиться...

А HAILO пока подождёт, пока производитель или энтузиаст разработает нормальный интерфейс. Пока поставил на его место M.2 SSD.

Спасибо за такой подробный ответ.

В целом уже сейчас можно использовать для рабочих задач LLM на Apple Silicon M4. Самый бюджетный MacBook Air M4/16Gb тянет 14B модель (Cogito V1 14B) с контекстом окном 8К на ollama.

как она по скорости и качеству для кодинга, если подключить в какой-нибудь Cursor?

Никак примерно. Gpt-3.5 помните? Вот примерно на том же уровне. В качестве автокомплита можно, бойлерплейт напишет, но надо перепроверять. Все ещё ускоряет работу в плане нажатия клавиш, но отзывчивость не на gpu, а на npu/m2 будет не такой хорошей и может начать раздражать, особенно если привыкли уже к хорошему

Для кодинга слабовато. Для повседневных задач, агентов - нормально.

Это пока для исследователей и энтузиастов, кто готов мириться с лагами системы пока модель считает свои токены.

А как к курсору можно подключать локальные LLM? Или только через веб интерфейс?

Курсор поддерживает OpenAI API совместимые модели - в настройках можно указать кастомный урл. Но этот апи должен быть доступен снаружи, т.к. модель дёргается серверами курсора, а не самим приложением. Поэтому с localhost не заработает. Локальную модель можно выставить наружу через туннель, предоставляющий публичный адрес (ngrok, cloudflare и т.п.)

В kilocode можно. Работает ровно так же, как курсор

Для локали я бы посоветовал использовать opencode вместо cursor, там конфигурацию подробную можно составить для стенда.

на моём macbook air m2 тестил deepseek r1 на 8b параметров и это неплохой локальный гугл. Код тоже способен генерировать, но писать прям полноценный код не получится, и да npu там вроде не используется (ollama.cpp), чисто мощности GPU. Есть один проект под asahi Linux, которые зареверсили npu для маков, но это скорее экспериментальный проект и подключить туда какой то pytorch не получится, либо придётся самим модифицировать исходники, чтобы оно заработало. С другими npu ситуация ещё сложнее так, что сейчас используют только GPU, а npu только поставщик софта в ноутбук, а остальным доступ дают ограниченный, либо вообще не развитый и там почти нереально что то полезное запустить.

Взяли MacMini M4 Pro 24Gb - и просто рады :) Большой выбор моделей, и ОЗУ много/

В итоге понятно, что ничего не понятно. Напихивают больше памяти, добавляют некие npu, apple "припаивает" память к процу, а по скорости все равно выигрывают nvidia видеокарты, причем даже не самые свежие.

Ryzen AI Max на одном кристалле объединяет CPU Ryzen, GPU Radeon и NPU со скоростью 50 TOPS, а также использует единый пул памяти. Благодаря этому, CPU, GPU и NPU могут обращаться к 128 ГБ системной RAM, распределяемой между ними. В AMD верят, что это идеальная стратегия организации памяти и оптимизации быстродействия потребительских ПК.

новейший ryzen ai max используется в gpd win 5. Вы на полном серьезе считаете, что в карманной приставке будет какая-то мощь, способная потянуть ИИ? Ну загрузите вы какую-нибудь большую модель в 128гб, а дальше что? Отдача 1-2 токена в секунду?

а по скорости все равно выигрывают nvidia видеокарты, причем даже не самые свежие.
новейший ryzen ai max используется в gpd win 5. Вы на полном серьезе считаете, что в карманной приставке будет какая-то мощь, способная потянуть ИИ? Ну загрузите вы какую-нибудь большую модель в 128гб, а дальше что? Отдача 1-2 токена в секунду?

Размер устройства не имеет значения, имеет значение количество каналов памяти и тип памяти.

Скорость генерации LLM линейно зависит от скорости памяти, в GPU используют быструю GDDR6X и DDR7 и широкую шину памяти, получая скорость 1 Тб/c на 4090. В Ryzen AI Max+ 365, как и в NVIDIA DGX Spark, используется DDR5 и всего 4 канала памяти, скорость памяти 256 Гб/с. Для сравнения у 4060ti всего 288 Гб/с, что немногим больше.

Смотря на какой архитектуре модель: Dense или MoE. Новый Devstral 2 123B сделан как Dense, там будет 3 t/s, но многие переходят на MoE, поэтому там будет скорость намного выше.

Ryzen AI Max+ выдает 50 t/s на GPT-OSS-120B, это очень комфортная скорость для работы, и на 128Гб можно запустить более качественные модели, вроде GLM-4.5-Air или MiniMax-M2.1 230B, скорость будет в районе 25-30 t/s.

Подробнее про MoE модели: Запускаем GPT-OSS-120B на 6 Гб GPU и ускоряем до 30 t/s. Вам нужна RAM, а не VRAM. Параметр -cmoe для ускорения MoE LLM

Собственно, основную проблему быстродействия локальных ИИ можно сформулировать так:

  1. Скорость моделей лимитируется в первую очередь памятью, её надо много и она должна быть быстрой

  2. Много быстрой памяти - это дорого, особенно сейчас, когда на волне нейро-хайпа все производственные линии законтрактованы толстосумами на 5 лет вперёд.

Так что увы - в ближайшие годы можно не ожидать устройства, способного гонять нормальные модели, за сумму менее $5000.

"много памяти" позволяет вам запустить модель побольше, которая будет медленнее. Как именно это должно ускорить работу модели?

Таскать веса не надо будет с диска в память. Чем больше памяти, тем больше можно вынести в нее горячих частей модели, это ускоряет инференс.

1 Тб/c

Так как мы на техническом ресурсе, 1 ТБ/с (терабайт, не терабит)

В итоге понятно, что ничего не понятно. Напихивают больше памяти, добавляют некие npu, apple "припаивает" память к процу, а по скорости все равно выигрывают nvidia видеокарты, причем даже не самые свежие.

Вы не рефлексируйте, покупайте!

Единственный выход это создание моделей для распределённой обработки. Горизонтальное масштабирование гораздо гибче и удобнее, чем вертикальное наращивание ресурсов, которое после определённого предела начинает стоить как самолёт.

Современные трансформерные модели и так масштабируются и параллелятся практически идеально. Их без проблем можно распределить на любое количество GPU/CPU, а веса поделить между разными видами памяти (RAM/VRAM).

Проблема в том, что быстрая память - это дорогая память, и поэтому нет особой разницы, распаяны эти дорогие чипы на одной большой плате или на 10 маленьких, цена всё равно будет даже не кусаться, а буквально рвать в клочья. Причём по мере надувания ИИ-пузыря спрос на такую память только растёт, как и цена.

Поправьте, если я неправ. Но они параллелятся только при крайне быстрых каналах между этими частями (из-за обилия связей между слоями), что выходит за рамки эконом сегмента. А вот, например, в mix-of-exprert архитектуре выглядит естественным "каждому эксперту свое железо" и при этом относительно слабый канал между ними. Как будто бы тут возможен подход RAID - массив из недорогих компонентов (особенно если число экспертов велико).
Более того, такой подход еще позволит приоритезировать экспертов - тех, которыми часто пользуемся - выносим на железо побыстрее; которыми редко - на железо послабее.

pcie x16 5.0 уже является ограничением для такого подхода для старших(умных) моделей. а глупые ответы можно и на телефоне в 8gb ram получить.
Если точнее в цифрах - как не старайся, а deepseek 671B работает либо аж не 4 mac ultra в 30 т/с, либо на стаке блэквеллов. И то и другое - дорого для дома. А из альтернатив - только если на процессорах начнут hbm распаивать.

А есть же контролёры ОЗУ на pci-e. Мож на ddr4 не так больно по цене будет. Ждём когда китайцы выпустят какую-нибудь вундервафлю на 16 каналов)))

В продаже даже на Wildberries уже есть мини-комп Beelink GTR9 https://habr.com/ru/news/936488/. У него как раз 128 Гб памяти и процессор AMD Ryzen AI Max+ 395. Один комп способен запустить DeepSeek 70b. Эти компы можно объединить в кластер получив ещё большую производительность.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
ruvds.com
Дата регистрации
Дата основания
Численность
11–30 человек
Местоположение
Россия
Представитель
ruvds