Все потоки

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

СтатьиПостыНовостиАвторыКомпании

sergei_ai 1 час назад

Как я заменил BI-дашборд на AI-чат: архитектура RAG-системы для 600K записей

Средний

7 мин

2.2K

Python * Машинное обучение * PostgreSQL * Data Engineering * Natural Language Processing *

Из песочницы

После 10 лет внедрения BI-систем (Qlik Sense, Power BI, Data Lens) я понял одну вещь: дашборд — это не решение. Это данные для решения. А между данными и решением — пропасть, которую преодолевает человек.

В этой статье покажу, как построил RAG-систему с чат-интерфейсом для базы из 600 000 записей техники из Федресурса. Без философии — только архитектура, код и грабли.

Читать далее

+1

pel_mrk 6 часов назад

Очередь задач на Postgres: SKIP LOCKED + lease/heartbeat + backpressure (практический опыт)

Средний

4 мин

4.9K

PostgreSQL * Python * Data Engineering *

Из песочницы

Как сделать надёжную очередь задач без Rabbit/Kafka, используя только Postgres? Разбираю боевой паттерн: FOR UPDATE SKIP LOCKED для конкурентного забора, lease/heartbeat для возврата задач после падений и backpressure, чтобы воркеры не съели память.

Читать далее

+4

denoiselab 16 часов назад

Типология мышления в аналитической культуре больших языковых моделей (Часть_1)

Сложный

13 мин

7K

Data Mining * Data Engineering * Big Data * Анализ и проектирование систем * Бизнес-модели *

Аналитика

Миронов В.О., Кальченко С.Н.

Добрый день, уважаемые хаброгорожане;‑) Крайние тренды по части тестирования современных больших языковых моделей выходят на невиданные высоты и ставится цель: пересматривать не только всю систему анализа моделей, но и саму структуру эволюции нашего подхода к пониманию больших языковых моделей в самом широком контексте. Здесь мы всё больше «скатываемся» к математическому описанию объекта промпта и его понятия. По большому счету, наибольшее понимание, а именно, формирование идей в машинном представлении, основано на геометрическом понимании «форм» слов, а не алгебраическом, в виде векторов, эмбеддингов и матриц, хотя это тоже очень важно на базовом уровне. Отличный пример такого подхода изложен в этой статье, где как раз и показано, что важно, топологическое представление пространства слов и их смыслов, так как оно максимально гибко и позволяет работать с двумя главными понятиями для словоформ: значение и время, в течение которого это значение сохраняется для текущего контекста.

Исходя из этого, не так давно мы проводили анализ понимания речи для чат‑ботов и, в частности, для больших языковых моделей. При этом мы задались очень ёмким понятием: каково отношение между пользователем и нейросетью и насколько они хорошо друг друга «понимают». Чем полнее и общо мы сможем очертить границы этого «понимания», тем более полно мы сможем формировать промпты для наших запросов, расширить новый уровень абстракции и сформировать новый уровень понимания кода моделью.

Читать далее

+2

Ivan_Yakovlev_G 9 янв в 17:36

Взгляд разметчика данных

Простой

5 мин

7.2K

Data Mining * Data Engineering * Управление проектами * Машинное обучение * Краудсорсинг

Мнение

Дисклеймер: ниже будет описан личный опыт и точка зрения человека-исполнителя. Устройство всей процедуры разметки в статье не раскрывается. Все совпадения сущностей случайны. Названия компаний не упоминаются в целях соблюдения NDA. В статье не будут подниматься вопросы оплаты труда и разбираются только основные рабочие моменты.

Всем добрый день!

Одно время я работал разметчиком данных на разные компании и довольно долго, примерно 5 лет. Так как компании были разные, то и размечать приходилось разное: сайты, картинки, звуки. Только с видео не довелось поработать. С одной стороны, эта работа довольно рутинная и однообразная. С другой стороны - нет. Потому что на разметку попадались разные документы с разной целью. Однако целью данной статьи не документы, а общие закономерности и подводные камни на этом нудном пути с точки зрения непосредственного исполнителя.

Разметка данных используется для обучения различных алгоритмов, чаще всего на основе нейросетей. Она применяется разных отраслях, включая такие сложные, как медицина. Без разметки невозможно обучение моделей, так как нет явной целевой переменной и от качества разметки напрямую зависит качество модели. Я имею опыт работы Data Scientist-ом и даже диплом получил, поэтому понимаю, насколько важна разметка. Более того, сейчас, работая с медицинскими датасетами, я всё чаще задумываюсь: а насколько вообще можно доверять той или иной разметке, даже если её ставит врач?

Итак, приступим к теме нашего разговора.

Читать далее

+5

kirya522 9 янв в 16:19

Как обрабатывать 5 млн изменяющихся форм в минуту с SLI 99.99%

Средний

13 мин

8.9K

Блог компании AvitoTechАнализ и проектирование систем * Высоконагруженные системы * SQL * Data Engineering *

Кейс

Всем привет! Меня зовут Кирилл Грищук, я Tech Lead в команде Инфомодели в Авито. Мы занимаемся тем, что обрабатываем формы от пользователей: от 5 млн до 15 млн форм в минуту, а это более 150 тысяч в секунду.

В этой статье на примере Авито я рассказываю, зачем мы стремимся к SLI 99.99%. Внутри — обзор и сравнение решений по доставке неизменных данных, учитывая специфику нашего сервиса. Показываю на примере форм, какие интересные доработки мы придумали, чтобы достичь этих четырёх девяток, и какие ошибки совершали по пути.

Статья будет полезна всем, кто хочет погрузиться в проблему раздачи и обработки редко изменяемых данных.

Читать далее

+13

PhoenixLi 7 янв в 08:18

Как JOIN изменил наш подход к инфраструктуре данных в NAVER

Средний

7 мин

5.8K

Big Data * Data Engineering * Базы данных * Распределённые системы * Kubernetes *

Кейс

Перевод

После миграции с ClickHouse на StarRocks NAVER существенно оптимизировала обработку многотабличных JOIN. StarRocks повысил производительность запросов, обеспечил бесшовное масштабирование и позволил построить единый слой запросов, совместимый с множеством источников данных. Эти улучшения позволили предоставлять инсайты в реальном времени и поддерживать принятие решений на основе данных во всей экосистеме NAVER.

Читать далее

0

MalblshProgrammist 7 янв в 05:22

Парсинг тарифов интернета и ТВ: Архитектура БД и бэкенд на SQL

Средний

4 мин

7.2K

PostgreSQL * Базы данных * Data Engineering * SQL * Python *

Роадмэп

За 5 лет работы в B2B и B2C сегментах у телеком-провайдеров я столкнулся с одной из проблем: абоненты годами сидят на архивных дорогих тарифах или пользуются услугами операторов, которые не идут на уступки, не снижают цены на тарифы, пользователи просто не знают, что в их же доме есть альтернативные провайдеры с тарифами более выгодными для них.

Я решил объединить свой опыт в телекоме с навыками в программировании. Так появилась идея по парсенгу тарифов. Цель — создать инструмент, который автоматически мониторит провайдеров, избавляя пользователей от ручного сравнения и помогая им находить оптимальные условия по тарифу.

Сейчас я работаю аналитиком БД, параллельно изучаю архитектуру, построение данных. Решил начать проект с проектирования структуру на PostgreSQL по схеме "Звезда". Таблицей фактов у меня будет таблица со связью города с провайдером, таблицы измерений – таблица с информацией о тарифах, городами и провайдерами.

Читать далее

-2

PhoenixLi 7 янв в 02:51

Инструмент перехвата медленных запросов StarRocks

Средний

8 мин

5.8K

Data Engineering * Базы данных * Big Data * Open source * SQL *

Туториал

Практическое руководство по построению сервиса перехвата медленных запросов в StarRocks: правила kill и пороги (full table scan, scan rows/bytes), анализ execution plan, интеграции с Grafana и Feishu, SQL-схемы и YAML-конфигурация для продакшена.

Читать далее

0

eavprog 5 янв в 15:27

От парных котировок к абсолютным курсам — как мы построили фундамент веб-интерфейса AbsCur3 с 287 валютными парами

Средний

12 мин

6.8K

Python * Data Engineering * Базы данных * Big Data * GitHub *

Кейс

Recovery Mode

Попробуйте найти исторические курсы для пар вроде «доллар к афгани» или «евро к таджикскому сомони». Данные либо платные, либо их просто нет в виде готового датасета. Мы решили эту проблему в рамках своего проекта, хотя единственный подходящий API диктовал суровые условия: 8 запросов в минуту и 5000 дней за раз.

Получилось! Наш Python-скрипт аккуратно, чанк за чанком, собрал историю всех 287 пар за 4.5 часа, ни разу не превысив лимит. В статье делюсь техническими деталями, как выстроить такую загрузку, и уроками, которые мы извлекли.

Читать далее

+1

NKBogdanov 4 янв в 10:16

Построение иерархии классов для множества объектов информационной модели

Средний

6 мин

5K

Data Engineering * Алгоритмы * Анализ и проектирование систем * Визуализация данных * Проектирование и рефакторинг *

Из песочницы

Привет, Хабр!

ИТ-проекты – это далеко не только создание новых систем с нуля. Существенная часть специалистов занята поддержкой и сопровождением действующих систем. А когда в состав ИТ-системы добавляется новое ПО (или заменяется какой-то из её компонентов), актуальной задачей является перенос архивных данных и настройка взаимодействия нового софта с окружающим ландшафтом. При этом задачей-максимум является добавление новых свойств для системы, улучшающих пользовательский опыт или процессы администрирования и сопровождения. Ниже я расскажу, как мы провели классификацию объектов информационной модели при интеграции действующей системы расчета производственных показателей с внешней, вновь создаваемой системой управления НСИ.

Читать далее

+1

eevg 3 янв в 20:15

Достижение целей с технической точки зрения

Простой

5 мин

11K

Data Engineering * Data Mining * Исследования и прогнозы в IT *

Из песочницы

Recovery Mode

Достижение целей требует четкого понимания текущего состояния системы и желаемого результата. Одним из способов оценки близости достижения цели является использование расстояния Хемминга. Расстояние Хемминга применяется для измерения различия между двумя строками равной длины путем подсчета количества позиций, в которых символы различаются. В контексте постановки и достижения целей оно позволяет количественно оценить разницу между текущим состоянием и целевым состоянием, помогая определить шаги, необходимые для минимизации этой разницы.

Таким образом, если задать текущее состояние строкой Sтек и желаемое состояние строкой Sцель, то достижение цели можно назвать: работу по переводу ситуации в строке Sтек в строку Sцель.

Читать далее

+3

anselvo 1 янв в 12:48

Ivory v1.4.0

Средний

2 мин

6.9K

PostgreSQL * DevOps * Data Engineering *

Обзор

Перевод

Ivory теперь поддерживает LDAP и OIDC/SSO наряду с базовой аутентификацией, что значительно упрощает интеграцию с существующей инфраструктурой идентификации. Для каждого провайдера предусмотрены возможности тестирования подключения, а пользователям можно настроить несколько вариантов входа.

Добавлена полная система разрешений для контроля доступа к определенным кластерам, запросам и настройкам. Новый интерфейс управления разрешениями позволяет администраторам предоставлять и отзывать доступ, а пользователи могут запрашивать необходимые им разрешения. Это делает Ivory подходящим для больших команд с разными уровнями доступа.

Читать далее

0

Viktoria_Rein 30 дек 2025 в 16:50

Директор спрашивает «почему маржа упала» — как ответить цифрами

6 мин

8.3K

Визуализация данных * Data Engineering * Управление продажами * Карьера в IT-индустрииУправление e-commerce *

Туториал

Привет, аналитики!

Публикую 30 декабря — когда все нормальные люди режут оливье. Но если вы это читаете, значит, тоже из тех, кто 2 января откроет ноутбук проверить дашборды. Для нас и пишу.

В прошлой статье разбирали, какие метрики выбирать для ритейла. Допустим, вы собрали нужные KPI, построили дашборды - а директор спрашивает: «Маржа выросла на 3 млн. За счёт чего?»

Показать рост - просто. Объяснить причину - сложнее. Выросла выручка, но упала маржинальность. Увеличился трафик, но просела конверсия. Как это влияет на итог в рублях?

Расскажу про дашборд факторного анализа продаж. Он показывает не «было — стало», а раскладывает изменение маржи по каждому фактору: от трафика до среднего чека.

Сегодня рассмотрим:

Читать далее

+1

Yulia_Kulkova 30 дек 2025 в 09:15

Как продуктовый дизайнер может разгрузить бэкенд: проектирование для отказоустойчивости и производительности

Простой

6 мин

7.1K

Блог компании СеверстальРазработка под e-commerce * ДизайнCRM-системы * Data Engineering *

Мнение

Часто дизайнеры и разработчики живут в разных вселенных. Одни думают о пикселях и user flows, другие — о latency & database queries. Но именно на стыке этих дисциплин рождаются самые эффективные и надёжные продукты. Давайте посмотрим, как ваши дизайн-решения могут стать первым и самым важным рубежом обороны для бэкенда.

Смотреть принципы →

+2

ArtemVarkulevich 30 дек 2025 в 09:11

От онтологии оливье к онтологии Деда Мороза

Средний

11 мин

5.4K

Data Engineering *

Кейс

Каждый Новый год начинается одинаково: «вроде всё купили», а заканчивается поиском огурцов, батареек и здравого смысла.
В этот раз мы решили пойти против хаоса и собрали онтологию праздничного стола: меню, блюда, рецепты, продукты, остатки и закупку — в одном графе.

В статье — новогодняя сказка про холодильник-портал, онтология оливье, OntoAI в роли верного Ланселота и честный разбор того, как из живой модели получается объяснимый план покупок. Без магии, но с причинно-следственными связями.

Читать далее

0

linabesson 29 дек 2025 в 09:48

RAG — это не память. Разбираем архитектуру персистентных AI-агентов

Средний

4 мин

6.6K

Python * Data Engineering * Анализ и проектирование систем *

Кейс

Почему векторной базы/RAG недостаточно для качественной памяти ИИ-агентов. Приближаем поведение агента к человеческому с помощью архитектурных решений поверх LLM

Читать далее

+5

ddreyman 27 дек 2025 в 08:11

Trino в Авито два года спустя: от движка к полноценной экосистеме

10 мин

11K

Блог компании AvitoTechBig Data * Хранение данных * Высоконагруженные системы * Data Engineering *

Кейс

Всем привет! Меня зовут Дмитрий Рейман, я техлид аналитической платформы Avito. Уже третий год мы занимаемся миграцией с Vertica на Trino. Изначально казалось, что это будет просто: перенесём запросы, перепишем коннекторы, чуть подправим пайплайны.

Но за два с лишним года миграция перестала быть просто миграцией: проект разросся в инженерную одиссею, и вокруг Trino мы начали строить целую экосистему. Как это было — рассказываю под катом.

Читать далее

+30

VasiliyL85 26 дек 2025 в 10:16

Когда один Excel-файл убивает 100-миллионный бизнес

Простой

5 мин

38K

Data Engineering * ERP-системы * IT-инфраструктура * Анализ и проектирование систем * Управление разработкой *

Из песочницы

Чем хорош малый бизнес, особенно на своем старте? Ему не нужны сложные инструменты: он в состоянии увидеть состояние дел расчетами «на коленке», а план действий уместить карандашом на трамвайном билетике.

А когда бизнес подрастает? Скажем, его месячная выручка становится 100М+, количество сотрудников исчисляется сотнями, а бизнес-процессы усложняются настолько, что перестают быть прозрачными, покрываются «туманом войны».

Эта история про то, как инструмент, понравившийся команде на старте бизнеса, довел её до убытков в десятки миллионов при росте оборотов, когда компания стала крупнее. И как прозрачность вернула контроль и разблокировала рост выручки на 50%.

Читать далее

+21

Kubataba 25 дек 2025 в 16:49

Как создать переводчик для низкоресурсного языка: практическое руководство

Средний

10 мин

9.9K

Data Engineering * Natural Language Processing * Изучение языков

Кейс

Привет, Хабр! В продолжение моей предыдущей статьи о локальном переводчике на кабардинском языке хочу поделиться практическим опытом обучения моделей машинного перевода для низкоресурсных языков. Расскажу о том, с какими проблемами я столкнулся, как их решал, и покажу конкретный код, который помог улучшить качество перевода с BLEU 8 до 28 пунктов.

Читать далее

+6

ddreyman 25 дек 2025 в 16:19

Есть ли жизнь после Vertica или миграция DWH в Lakehouse

17 мин

10K

Блог компании AvitoTechBig Data * Хранение данных * Высоконагруженные системы * Data Engineering *

Кейс

Всем привет! Меня зовут Дмитрий Рейман, я техлид аналитической платформы Авито. Мы строим систему общего назначения, которая одновременно обслуживает ETL, витрины, BI, ad-hoc аналитику и продуктовые платформы.

И в какой-то момент мы столкнулись с неприятным эффектом: объём данных начал расти заметно быстрее, чем органический рост, на который мы ориентировались раньше. Модель классического on-prem DWH перестала масштабироваться линейно: борьба за ресурсы мешала давать гарантии готовности данных; локальные оптимизации давали всё меньший эффект; любой рост требовал масштабирования “по месту” и приводил к длительным простоям аналитики.

Стало понятно, что дальнейший рост в рамках прежней архитектуры будет только усиливать эти эффекты. Именно так мы пришли к необходимости сменить базовую парадигму хранилища и начать движение в сторону Lakehouse-архитектуры. О том, как это было, читайте под катом.

Читать далее

+34

1

2 3 ...