Читаем, распознаем многостраничные PDF файлы, выбираем страницы которые содержат искомые слова

Аватар автора
Анализируем исходный PDF файл, выбираем из него только те страницы, которые содержат заданные слова. Работаем с файлами, в которых данные в виде текста и в виде сканированных страниц. Скрипт на питоне, для распознавания используем Tesseract-OCR. Модули pikepdf, PyPDF2, pytesseract. команда установки модуля «PyPDF2»: pip install PyPDF2 команда установки модуля «pikepdf»: pip install pikepdf команда установки модуля «pytesseract»: pip install pytesseract или установка всех модулей разом pip install pikepdf PyPDF2 pytesseract

0/0


0/0

0/0

0/0