Сравнение программного обеспечения для оптического распознавания символов

редактировать

Это сравнение программное обеспечение оптического распознавания символов включает:

  • механизмы OCR, которые выполняют фактическую идентификацию символов;
  • программное обеспечение анализа макета, которое разделяет отсканированные документы на зоны, подходящие для OCR
  • Графические интерфейсы к одному или нескольким механизмам OCR
  • Комплекты для разработки программного обеспечения, которые используются для добавления возможностей OCR в другое программное обеспечение (например, приложения для обработки форм, системы управления изображениями документов, системы e-discovery, решения для управления записями)
Сортируемая таблица
ИмяГод основанияПоследняя стабильная версияГод выпускаЛицензияОнлайнWindows Mac OS X Linux BSD Язык программированияSDK ?ЯзыкиШрифтыФорматы выводаПримечания
Google Диск OCR или Google Cloud Vision 2015Собственный ДаБраузерБраузерБраузерНеизвестноНеизвестноДа200+Все шрифтытекстСообщение в блоге Google
Tesseract 19854.1.12019Apache NoДаДаДаДаC ++, CДа100+Любой печатный шрифтТекст, ALTO, hOCR, PDF, другие с другими пользовательскими интерфейсами или APIСоздано Hewlett-Packard ; в процессе дальнейшей разработки Google
ABBYY FineReader 1989152019Собственный ДаДаДаДаДаC/C++Да192Все шрифтыDOC, DOCX, XLS, XLSX, PPTX, RTF, PDF, HTML, CSV, TXT, ODT, DjVu, EPUB, FB2ABBYY также предоставляет SDK для встроенных и мобильных устройств. Версии Professional, Corporate и Site License для Windows, Express Edition для Mac.
E-aksharayan 2010ДаНетДаНет14RTF, TXT, BRL
Asprise OCR SDK1998152015Собственный ДаДаДаДаДаJava, C #, VB.NET, C / C ++ / DelphiДа20+?Обычный текст, PDF с возможностью поиска, XMLПакеты SDK Java, C #, VB.NET, C / C ++ / Delphi для OCR и распознавания штрих-кода в Windows, Linux, Mac OS X и Unix.
Программное обеспечение AnyDoc 1989??Собственное NoДаNoNoNoVBScript???Работает со структурированными, полуструктурированными и неструктурированными документами.
CuneiForm 19961.12011-04-19BSD вариантNoДаДаДаДаC / C ++Да28Любой печатный шрифтHTML, hOCR, native, RTF, TeX, TXTСистема корпоративного класса, может сохранять форматирование текста и распознавать сложные таблицы любой структуры
Dynamsoft OCR SDK 20038.22012Собственная ДаДаNoNoNoC/C++Да40+?PDF, TXT
OmniPage 1970-е19.22015Собственный ДаДаДаДаNoC / C ++, C #Да125Машинные и ручные шрифтыDOC / DOCX XLS / XLSX PPTX RTF PDF PDF / A PDF с возможностью поиска HTML Текст XML ePUB MP3Продукт Nuance Communications
Microsoft Office OneNote 2007 2011?2007Собственный NoДаNoNoNo????
GOCR 20000,522018-10-15GPL ДаДаДаДаДаC?20+?
Окрад ?0,2631.03.2017GPL ДаNoДаДаДаC ++ДаЛатинский алфавит?Командная строка
SmartScore 199110.5.82015-07Собственный NoДаДаNoNo????Для нот
Microsoft Office Document Imaging ?Office 20072007Собственный NoДаNoNoNo????Использует OmniPage
Puma.NET ??29.10.2009BSD NoДаNoNoNoC#Да28Любой печатный шрифт.NET OCR SDK на основе механизма распознавания CuneiForm Cognitive Technologies. Обертывает Puma COM-сервер и предоставляет упрощенный API для приложений.NET
ReadSoft ???Собственный NoДаNoNoNo????Сканирование, захват и классификация бизнес-документов, таких как счета-фактуры, формы и заказы на поставку, интегрированные с деловые процессы.
Scantron ???Собственный NoДаNoNoNo????Для работы с локализованными интерфейсами требуется соответствующая языковая поддержка.
OCRFeeder 2009-030.8.122.12.2014GPL NoNoNoДаNoPython???Имеет полный пользовательский интерфейс и имеет инструмент командной строки для автоматических операций. Имеет собственный алгоритм сегментации, но использует общесистемные механизмы распознавания текста, такие как Tesseract или Ocrad
OCRopus 20071.3.32017- 12–16Apache NoNoДаДаДаPython?Все языки, использующие латинский алфавит (другие языки могут быть обученным)Обычный латинский алфавит и Fraktur (можно обучить другие скрипты)TXT, hOCR, PDFПодключаемый фреймворк в стадии активной разработки, используется для Google Книги
НазваниеГод основанияПоследняя стабильная версияГод выпускаЛицензияИнтернетWindows Mac OS X Linux BSD Язык программированияSDK?ЯзыкиШрифтыФорматы выводаПримечания

Оценка

Анализ точности и надежности пакетов OCR Google Docs OCR, Tesseract, ABBYY FineReader и Transym, используя набор данных, включающий 1227 изображений из 15 различных категорий, пришли к выводу, что Google Docs OCR и ABBYY работают лучше, чем другие.

Ссылки

Последняя правка сделана 2021-05-15 08:04:37
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте