Массовая обработка документов с использованием ML, OCR и LLM

01Проблема

Необходимость извлечения структурированной бизнес-информации из более чем 2 миллионов PDF-файлов, представляющих собой сканы накладных и транспортных документов, с учетом их разного качества, шаблонов и структур, что делало классический OCR недостаточным.

02Решение

Создан масштабируемый облачный конвейер обработки документов на базе Microsoft Azure, объединяющий computer vision, OCR и LLM для предобработки, распознавания текста, нормализации и классификации данных, а также устранения ошибок и приведения данных к единой бизнес-структуре.

03Инструменты

ML-модели (YOLO + OpenCV), OCR, LLM, Python, Azure, REST

04Процесс внедрения

Конвертация PDF в изображения Очистка и нормализация страниц Детекция ключевых областей документов с помощью ML-моделей OCR-распознавание текста Обработка OCR-данных с помощью LLM для разбора, нормализации, классификации и сопоставления данных Масштабирование через асинхронные задачи и параллельную обработку Логирование, обработка ошибок и повторная обработка проблемных файлов Формирование структурированных данных в JSON и таблицах

05Результаты

Рост качестваВысокая уверенностьПроект реализован в рамках масштабируемого пайплайна

Было

Ручная обработка и классический OCR с низким качеством извлечения данных

Стало

Автоматическая обработка миллионов документов с высокой точностью и структурированными данными

Экономия времениВысокая уверенностьПосле внедрения системы

Было

Длительная ручная обработка и валидация данных

Стало

Автоматическая обработка и минимизация ручной работы

Снижение затратСредняя уверенностьПосле внедрения системы

Было

Высокие затраты на ручную обработку и проверку данных

Стало

Снижение затрат за счет автоматизации

Массовая обработка документов с использованием ML, OCR и LLM

01Проблема

02Решение

03Инструменты

04Процесс внедрения

05Результаты

Кейс был полезен?

Обсуждение (0)

Похожие кейсы

Массовая генерация SEO-оптимизированных описаний товаров для маркетплейса