Комментарии 7
По моему опыту (вытаскивать инфо в определенном формате из довольно больших кусков словарей, справочников, ГОСТов в pdf, в т.ч. перегнанных из djvu и отсканированных камерой телефона со спец.программкой, загоняющей сканы в pdf)
- лучшие - это deepseek и chat.mistral.ai - если закрыть глаза на периодическую недоступность deepseek, в теперь уже и chat.mistral.ai .
Многие (qwen, perplexity) халявничают - выдают не всю информацию, а если не предупреждая - то это проблема, поскольку приходится перепроверять...
Ещё с чтением таблиц бывают проблемы. Не понимают какие таблицы нужно читать вертикально, а какие горизонтально. Так чтобы максимально удобно для последующих ответов llm предоставить данные, иначе llm начинают путаться в тексте, если таблица не правильно считана.
Думал что тут будет офлайн решение, которое можно запустить на домашнем железе. А не то что можно сделать просто через публичные LLM
Спасибо за содержательную статью!
Хорошо справляется с чтением таблиц и ссылок Алиса в Pro-версии. Лучше всех анализирует научные работы и вытаскивает из них нужное. В том числе и ссылки из списков литературы, например.
Топ-5 нейросетей для работы с PDF: модели для бесплатного извлечения данных в 2025 году