README.md

pdf_tools_bot_ICQ

Имя бота в ICQ: @pdf_tools_bot

ICQ-бот pdf_tools_bot создан для быстрого и удобного извлечения информации из PDF документов. Бот поддерживает PDF-формат как отсканированных, так и сгенерированных документов. В боте реализованы следующие функции извлечения информации:

Извлечение изображений. Пользователю предоставляется zip-архив с извлеченными изображениями в формате jpg.
Извлечение таблиц. Пользователю предоставляется zip-архив с извлеченными таблицами, сохраненными в документы формата xlsx.
Извлечение текста. Пользователь должен выбрать к какому типу относится PDF-документ (отсканированный или сгенерированный) и формат иерархии. Пользователю предоставляется docx-документ.
Извлечение всей информации. Пользователь должен выбрать к какому типу относится PDF-документ (отсканированный или сгенерированный) и формат иерархии. Пользователю предоставляется docx-документ.

Алгоритм работы в зависимости от выбранной функции

Для извлечения только изображений используется результат поиска информационных блоков с классом «фигура».
Для извлечения только таблиц используется PDFPlumber.
Для извлечения только текста используется результат поиска информационных блоков с классами «заголовок», «текст», «список». В зависимости от типа PDF-документа (отсканированный или сгенерированный) и формата иерархии выбирается способ сортировки информационных блоков и извлечения текста: Tesseract OCR для отсканированных документов и pdftotext для сгенерированных документов.
Для извлечения всей информации и сбора docx-документа используется следующий алгоритм:

осуществляется поиск информационных блоков;
сортировка блоков по выбранному формату иерархии;
извлечение таблиц с помощью PDFPlumber и сравнение с блоками класса «таблица»;
извлечение текста;
сбор docx-документа.

Сбор Docker-контейнера

Необходимо добавить папку models и скачать в нее модели. Ссылка на скачивание: https://drive.google.com/drive/folders/1BnG8JieuJk_nnx_fFLJH1hGnowmSc2KV?usp=sharing
В папку tesseract_data необходимо добавить файлы модели (rus, eng, lat) Tesseract OCR. Ссылка на скачивание: https://github.com/tesseract-ocr/tessdata

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

pdf_tools_bot_ICQ

Алгоритм работы в зависимости от выбранной функции

Сбор Docker-контейнера

Files

README.md

Latest commit

History

README.md

File metadata and controls

pdf_tools_bot_ICQ

Алгоритм работы в зависимости от выбранной функции

Сбор Docker-контейнера