Обновить

Топ-5 нейросетей для работы с PDF: модели для бесплатного извлечения данных в 2025 году

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели21K
Всего голосов 17: ↑17 и ↓0+17
Комментарии7

Комментарии 7

По моему опыту (вытаскивать инфо в определенном формате из довольно больших кусков словарей, справочников, ГОСТов в pdf, в т.ч. перегнанных из djvu и отсканированных камерой телефона со спец.программкой, загоняющей сканы в pdf)

- лучшие - это deepseek и chat.mistral.ai - если закрыть глаза на периодическую недоступность deepseek, в теперь уже и chat.mistral.ai .

Многие (qwen, perplexity) халявничают - выдают не всю информацию, а если не предупреждая - то это проблема, поскольку приходится перепроверять...

НЛО прилетело и опубликовало эту надпись здесь

В добавок к неполной выдаче, мне выдавали данные,которых в принципе в документе нет.

Ещё с чтением таблиц бывают проблемы. Не понимают какие таблицы нужно читать вертикально, а какие горизонтально. Так чтобы максимально удобно для последующих ответов llm предоставить данные, иначе llm начинают путаться в тексте, если таблица не правильно считана.

Попробуйсте Minimax. В отличии от Дипсика, он чаще бывает свободен. Довольно успешно переваривает таблицы. Полный фарш современного чата.

Думал что тут будет офлайн решение, которое можно запустить на домашнем железе. А не то что можно сделать просто через публичные LLM

Спасибо за содержательную статью!

Хорошо справляется с чтением таблиц и ссылок Алиса в Pro-версии. Лучше всех анализирует научные работы и вытаскивает из них нужное. В том числе и ссылки из списков литературы, например.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
bothub.ru
Дата регистрации
Дата основания
Численность
11–30 человек
Местоположение
Россия
Представитель
Greg Ewin