Разработчик (и) | Хоаким Роша (Игалия ) |
---|---|
Первый выпуск | март 2009 г.; 11 лет назад (2009-03) |
Стабильный выпуск | 0.8.3 / 8 марта 2020 г.; 7 месяцев назад (2020-03-08) |
Репозиторий | |
Написано на | Python, PyGTK |
Операционная система | Linux, Unix-like |
Доступно в | Интерфейс: Чешский, Датский, немецкий, английский, испанский, французский, галисийский, итальянский, норвежский (бокмол), португальский, румынский, словенский, шведский, китайский. Распознавание: зависит от используемого механизма OCR |
Тип | Оптическое распознавание символов |
Лицензия | GPL (бесплатное программное обеспечение ) |
Веб-сайт | wiki. gnome.org / Apps / OCRFeeder |
OCRFeeder - это пакет оптического распознавания символов для GNOME, который также поддерживает практически любые команды -строчный механизм оптического распознавания символов, например CuneiForm, GOCR, Ocrad и Tesseract. Он преобразует бумажные документы в файлы цифровых документов и может служить сделать их доступными для слабовидящие пользователи.
OCRFeeder - это бесплатное программное обеспечение с открытым исходным кодом в соответствии с условиями Стандартной общественной лицензии GNU (GPL) версии 3 или более поздней. Он доступен для Linux и других Unix-подобных операционных систем.
OCRFeeder был запущен как магистерская диссертация по информатике Хоакимом Роча, которого позже нанял Игалия, SL. и продолжил там развитие.
Первая версия была опубликована в марте 2009 года. Проект OCRFeeder изначально был опубликован и размещен на Google Code, временно использовался Gitorious и теперь использует инфраструктура GNOME. С 5 апреля 2010 года программный пакет включен в официальные репозитории Debian.
Версия 0.7 от 30 июля 2010 года принесла функции предварительной обработки изображений, 0.7.1 (8 ноября 2010 года) включен для доступа к сканеру изнутри OCRFeeder.
OCRFeeder имеет простой графический пользовательский интерфейс, разработанный в соответствии с рекомендациями GNOME Human Interface Guidelines. Он выполняет Анализ макета документа и передает макет в поддерживаемые форматы вывода. Он ищет области содержимого, выделяет их и угадывает тип содержимого (текст или изображение) и обрабатывает текстовые области через серверную часть OCR. Он может использовать практически любой механизм распознавания текста из командной строки в качестве серверной части и поддерживает автоматическое определение и автоматическую настройку для всех популярных бесплатных механизмов. Внутренние компоненты OCR могут быть настроены автоматически, ввод необходимой командной строки в диалоге графического интерфейса пользователя или настроен напрямую через файл XML. Возможна последующая обработка сканированного изображения, включая устранение перекоса. Все результаты распознавания можно просмотреть и отредактировать перед сохранением в желаемом формате вывода. Сессии можно сохранять и загружать. В комплект также входит программа проверки орфографии. OCRFeeder имеет встроенные процедуры для пост-обработки необработанных результатов OCR, возвращаемых механизмом OCR. Он может удалить оставшуюся сегментацию печатаемых строк текста даже с удалением переносов.
Хотя OCRFeeder - это инструмент с графическим интерфейсом, он также может работать в режиме командной строки (как ocrfeeder-cli), что может быть полезным инструментом для автоматической пакетной обработки документов. В этом режиме OCRFeeder использует механизм OCR по умолчанию, который пользователь может установить в настройках приложения.
Программа написана на Python и использует библиотеку GTK + ( используя PyGTK ). Он действует как графический интерфейс для других существующих инструментов. Например, он не выполняет фактическое распознавание символов, а использует внешние программы, такие как «механизм распознавания текста», установленный в системе. Он может автоматически определять и настраивать CuneiForm, GOCR, Ocrad и Tesseract в качестве внутренних механизмов распознавания текста. Доступ к сканерам осуществляется через SANE. Для постобработки отсканированных изображений, среди прочего, интегрирован инструмент командной строки «Unpaper». Файлы PDF обрабатываются с использованием Ghostscript в серверной части.
OCRFeeder может импортировать данные из PDF или графических файлов. Начиная с версии 0.7.1a он поддерживает захват изображений непосредственно со сканера .
Результаты могут быть сохранены в HTML, OpenDocument, обычный текст или форматы файлов PDF. Также планируется вывод файла hOCR. Первоначальное форматирование можно произвести прямо в программе.
На Wikimedia Commons есть носители, связанные с OCRFeeder. |