OCRFeeder

редактировать

OCRFeeder


Разработчик (и)	Хоаким Роша (Игалия )
Первый выпуск	март 2009 г.; 11 лет назад (2009-03)

Стабильный выпуск	0.8.3 / 8 марта 2020 г.; 7 месяцев назад (2020-03-08)

Репозиторий	git.gnome.org / browse / ocrfeeder
Написано на	Python, PyGTK
Операционная система	Linux, Unix-like
Доступно в	Интерфейс: Чешский, Датский, немецкий, английский, испанский, французский, галисийский, итальянский, норвежский (бокмол), португальский, румынский, словенский, шведский, китайский. Распознавание: зависит от используемого механизма OCR
Тип	Оптическое распознавание символов
Лицензия	GPL (бесплатное программное обеспечение )
Веб-сайт	wiki. gnome.org / Apps / OCRFeeder

OCRFeeder - это пакет оптического распознавания символов для GNOME, который также поддерживает практически любые команды -строчный механизм оптического распознавания символов, например CuneiForm, GOCR, Ocrad и Tesseract. Он преобразует бумажные документы в файлы цифровых документов и может служить сделать их доступными для слабовидящие пользователи.

OCRFeeder - это бесплатное программное обеспечение с открытым исходным кодом в соответствии с условиями Стандартной общественной лицензии GNU (GPL) версии 3 или более поздней. Он доступен для Linux и других Unix-подобных операционных систем.

Содержание

1 История
2 Возможности
- 2.1 Ввод и вывод
3 Ссылки
4 Внешние ссылки

История

Хоаким Роша представляет OCRFeeder на Gran Canaria Desktop Summit в июле 2009 г.

OCRFeeder был запущен как магистерская диссертация по информатике Хоакимом Роча, которого позже нанял Игалия, SL. и продолжил там развитие.

Первая версия была опубликована в марте 2009 года. Проект OCRFeeder изначально был опубликован и размещен на Google Code, временно использовался Gitorious и теперь использует инфраструктура GNOME. С 5 апреля 2010 года программный пакет включен в официальные репозитории Debian.

Версия 0.7 от 30 июля 2010 года принесла функции предварительной обработки изображений, 0.7.1 (8 ноября 2010 года) включен для доступа к сканеру изнутри OCRFeeder.

Возможности

OCRFeeder имеет простой графический пользовательский интерфейс, разработанный в соответствии с рекомендациями GNOME Human Interface Guidelines. Он выполняет Анализ макета документа и передает макет в поддерживаемые форматы вывода. Он ищет области содержимого, выделяет их и угадывает тип содержимого (текст или изображение) и обрабатывает текстовые области через серверную часть OCR. Он может использовать практически любой механизм распознавания текста из командной строки в качестве серверной части и поддерживает автоматическое определение и автоматическую настройку для всех популярных бесплатных механизмов. Внутренние компоненты OCR могут быть настроены автоматически, ввод необходимой командной строки в диалоге графического интерфейса пользователя или настроен напрямую через файл XML. Возможна последующая обработка сканированного изображения, включая устранение перекоса. Все результаты распознавания можно просмотреть и отредактировать перед сохранением в желаемом формате вывода. Сессии можно сохранять и загружать. В комплект также входит программа проверки орфографии. OCRFeeder имеет встроенные процедуры для пост-обработки необработанных результатов OCR, возвращаемых механизмом OCR. Он может удалить оставшуюся сегментацию печатаемых строк текста даже с удалением переносов.

Хотя OCRFeeder - это инструмент с графическим интерфейсом, он также может работать в режиме командной строки (как ocrfeeder-cli), что может быть полезным инструментом для автоматической пакетной обработки документов. В этом режиме OCRFeeder использует механизм OCR по умолчанию, который пользователь может установить в настройках приложения.

Программа написана на Python и использует библиотеку GTK + ( используя PyGTK ). Он действует как графический интерфейс для других существующих инструментов. Например, он не выполняет фактическое распознавание символов, а использует внешние программы, такие как «механизм распознавания текста», установленный в системе. Он может автоматически определять и настраивать CuneiForm, GOCR, Ocrad и Tesseract в качестве внутренних механизмов распознавания текста. Доступ к сканерам осуществляется через SANE. Для постобработки отсканированных изображений, среди прочего, интегрирован инструмент командной строки «Unpaper». Файлы PDF обрабатываются с использованием Ghostscript в серверной части.

Ввод и вывод

OCRFeeder может импортировать данные из PDF или графических файлов. Начиная с версии 0.7.1a он поддерживает захват изображений непосредственно со сканера .

Результаты могут быть сохранены в HTML, OpenDocument, обычный текст или форматы файлов PDF. Также планируется вывод файла hOCR. Первоначальное форматирование можно произвести прямо в программе.

Ссылки

Внешние ссылки

На Wikimedia Commons есть носители, связанные с OCRFeeder.

Официальный сайт