OCRFeeder

редактировать
OCRFeeder
Логотип OCRFeeder w lettering.svg
Ocrfeeder.jpeg
Разработчик (и) Хоаким Роша (Игалия )
Первый выпускмарт 2009 г.; 11 лет назад (2009-03)
Стабильный выпуск 0.8.3 / 8 марта 2020 г.; 7 месяцев назад (2020-03-08)
Репозиторий Измените это в Викиданных
Написано наPython, PyGTK
Операционная система Linux, Unix-like
Доступно вИнтерфейс: Чешский, Датский, немецкий, английский, испанский, французский, галисийский, итальянский, норвежский (бокмол), португальский, румынский, словенский, шведский, китайский. Распознавание: зависит от используемого механизма OCR
Тип Оптическое распознавание символов
Лицензия GPL (бесплатное программное обеспечение )
Веб-сайтwiki. gnome.org / Apps / OCRFeeder

OCRFeeder - это пакет оптического распознавания символов для GNOME, который также поддерживает практически любые команды -строчный механизм оптического распознавания символов, например CuneiForm, GOCR, Ocrad и Tesseract. Он преобразует бумажные документы в файлы цифровых документов и может служить сделать их доступными для слабовидящие пользователи.

OCRFeeder - это бесплатное программное обеспечение с открытым исходным кодом в соответствии с условиями Стандартной общественной лицензии GNU (GPL) версии 3 или более поздней. Он доступен для Linux и других Unix-подобных операционных систем.

Содержание
  • 1 История
  • 2 Возможности
    • 2.1 Ввод и вывод
  • 3 Ссылки
  • 4 Внешние ссылки
История
Хоаким Роша представляет OCRFeeder на Gran Canaria Desktop Summit в июле 2009 г.

OCRFeeder был запущен как магистерская диссертация по информатике Хоакимом Роча, которого позже нанял Игалия, SL. и продолжил там развитие.

Первая версия была опубликована в марте 2009 года. Проект OCRFeeder изначально был опубликован и размещен на Google Code, временно использовался Gitorious и теперь использует инфраструктура GNOME. С 5 апреля 2010 года программный пакет включен в официальные репозитории Debian.

Версия 0.7 от 30 июля 2010 года принесла функции предварительной обработки изображений, 0.7.1 (8 ноября 2010 года) включен для доступа к сканеру изнутри OCRFeeder.

Возможности

OCRFeeder имеет простой графический пользовательский интерфейс, разработанный в соответствии с рекомендациями GNOME Human Interface Guidelines. Он выполняет Анализ макета документа и передает макет в поддерживаемые форматы вывода. Он ищет области содержимого, выделяет их и угадывает тип содержимого (текст или изображение) и обрабатывает текстовые области через серверную часть OCR. Он может использовать практически любой механизм распознавания текста из командной строки в качестве серверной части и поддерживает автоматическое определение и автоматическую настройку для всех популярных бесплатных механизмов. Внутренние компоненты OCR могут быть настроены автоматически, ввод необходимой командной строки в диалоге графического интерфейса пользователя или настроен напрямую через файл XML. Возможна последующая обработка сканированного изображения, включая устранение перекоса. Все результаты распознавания можно просмотреть и отредактировать перед сохранением в желаемом формате вывода. Сессии можно сохранять и загружать. В комплект также входит программа проверки орфографии. OCRFeeder имеет встроенные процедуры для пост-обработки необработанных результатов OCR, возвращаемых механизмом OCR. Он может удалить оставшуюся сегментацию печатаемых строк текста даже с удалением переносов.

Хотя OCRFeeder - это инструмент с графическим интерфейсом, он также может работать в режиме командной строки (как ocrfeeder-cli), что может быть полезным инструментом для автоматической пакетной обработки документов. В этом режиме OCRFeeder использует механизм OCR по умолчанию, который пользователь может установить в настройках приложения.

Программа написана на Python и использует библиотеку GTK + ( используя PyGTK ). Он действует как графический интерфейс для других существующих инструментов. Например, он не выполняет фактическое распознавание символов, а использует внешние программы, такие как «механизм распознавания текста», установленный в системе. Он может автоматически определять и настраивать CuneiForm, GOCR, Ocrad и Tesseract в качестве внутренних механизмов распознавания текста. Доступ к сканерам осуществляется через SANE. Для постобработки отсканированных изображений, среди прочего, интегрирован инструмент командной строки «Unpaper». Файлы PDF обрабатываются с использованием Ghostscript в серверной части.

Ввод и вывод

OCRFeeder может импортировать данные из PDF или графических файлов. Начиная с версии 0.7.1a он поддерживает захват изображений непосредственно со сканера .

Результаты могут быть сохранены в HTML, OpenDocument, обычный текст или форматы файлов PDF. Также планируется вывод файла hOCR. Первоначальное форматирование можно произвести прямо в программе.

Ссылки
Внешние ссылки
На Wikimedia Commons есть носители, связанные с OCRFeeder.
Последняя правка сделана 2021-06-01 06:14:57
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте