Имя бота в ICQ: @pdf_tools_bot
ICQ-бот pdf_tools_bot создан для быстрого и удобного извлечения информации из PDF документов. Бот поддерживает PDF-формат как отсканированных, так и сгенерированных документов. В боте реализованы следующие функции извлечения информации:
-
Извлечение изображений. Пользователю предоставляется zip-архив с извлеченными изображениями в формате jpg.
-
Извлечение таблиц. Пользователю предоставляется zip-архив с извлеченными таблицами, сохраненными в документы формата xlsx.
-
Извлечение текста. Пользователь должен выбрать к какому типу относится PDF-документ (отсканированный или сгенерированный) и формат иерархии. Пользователю предоставляется docx-документ.
-
Извлечение всей информации. Пользователь должен выбрать к какому типу относится PDF-документ (отсканированный или сгенерированный) и формат иерархии. Пользователю предоставляется docx-документ.
-
Для извлечения только изображений используется результат поиска информационных блоков с классом «фигура».
-
Для извлечения только таблиц используется PDFPlumber.
-
Для извлечения только текста используется результат поиска информационных блоков с классами «заголовок», «текст», «список». В зависимости от типа PDF-документа (отсканированный или сгенерированный) и формата иерархии выбирается способ сортировки информационных блоков и извлечения текста: Tesseract OCR для отсканированных документов и pdftotext для сгенерированных документов.
-
Для извлечения всей информации и сбора docx-документа используется следующий алгоритм:
-
осуществляется поиск информационных блоков;
-
сортировка блоков по выбранному формату иерархии;
-
извлечение таблиц с помощью PDFPlumber и сравнение с блоками класса «таблица»;
- Необходимо добавить папку models и скачать в нее модели. Ссылка на скачивание: https://drive.google.com/drive/folders/1BnG8JieuJk_nnx_fFLJH1hGnowmSc2KV?usp=sharing
- В папку tesseract_data необходимо добавить файлы модели (rus, eng, lat) Tesseract OCR. Ссылка на скачивание: https://github.com/tesseract-ocr/tessdata