ocrodjvu — консольная Python утилита для распознавания текста непосредственно из файла формата DjVu (технология сжатия изображений с потерями, формат для хранения сканированных документов). Утилита дописывает существующий в документе (файле) текстовой слой или создаёт новый (этот слой позволяет осуществлять полнотекстовой поиск по файлу).
Наиболее простой способ использования утилиты:
ocrodjvu -о исходный_файл.djvu выходной_файл.djvu
Если необходимо переписать текстовой слой в оригинальном документе:
ocrodjvu --in-place файл.djvu
ocrodjvu является оболочкой для различных движков оптического распознавания текста (OCR / Optical Character Recognition), "по умолчанию" используется Tesseract (OCRopus), опционально могут использоваться Cuneiform, Ocrad, GOCR и др...
Извлечь текстовой слой можно с помощью DJVUSED (консольная утилита из состава DjVuLibre).
Лицензия: GNU General Public License version 2.0 (GPLv2)
Домашняя страница
Автор: posixru
http://zenway.ru/page/ocrodjvu
|