cognitronn28 июн 2025 в 13:42

Топ-5 нейросетей для работы с PDF: модели для бесплатного извлечения данных в 2025 году

Простой

11 мин

21K

Блог компании BotHubPDFМашинное обучение * Будущее здесьКонтент и копирайтинг *

Обзор

+17

Комментарии 7

avshkol 28 июн 2025 в 19:49

По моему опыту (вытаскивать инфо в определенном формате из довольно больших кусков словарей, справочников, ГОСТов в pdf, в т.ч. перегнанных из djvu и отсканированных камерой телефона со спец.программкой, загоняющей сканы в pdf)

- лучшие - это deepseek и chat.mistral.ai - если закрыть глаза на периодическую недоступность deepseek, в теперь уже и chat.mistral.ai .

Многие (qwen, perplexity) халявничают - выдают не всю информацию, а если не предупреждая - то это проблема, поскольку приходится перепроверять...

НЛО прилетело и опубликовало эту надпись здесь

rostislav-zp 29 июн 2025 в 11:55

В добавок к неполной выдаче, мне выдавали данные,которых в принципе в документе нет.

dibu28 30 июн 2025 в 06:49

Ещё с чтением таблиц бывают проблемы. Не понимают какие таблицы нужно читать вертикально, а какие горизонтально. Так чтобы максимально удобно для последующих ответов llm предоставить данные, иначе llm начинают путаться в тексте, если таблица не правильно считана.

yppro 30 июн 2025 в 18:41

Попробуйсте Minimax. В отличии от Дипсика, он чаще бывает свободен. Довольно успешно переваривает таблицы. Полный фарш современного чата.

maxcat 30 июн 2025 в 19:49

Думал что тут будет офлайн решение, которое можно запустить на домашнем железе. А не то что можно сделать просто через публичные LLM

ankurcha 14 июл 2025 в 08:04

Спасибо за содержательную статью!

Хорошо справляется с чтением таблиц и ссылок Алиса в Pro-версии. Лучше всех анализирует научные работы и вытаскивает из них нужное. В том числе и ссылки из списков литературы, например.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий