Сравнение программного обеспечения для оптического распознавания символов

редактировать

Это сравнение программное обеспечение оптического распознавания символов включает:

механизмы OCR, которые выполняют фактическую идентификацию символов;
программное обеспечение анализа макета, которое разделяет отсканированные документы на зоны, подходящие для OCR
Графические интерфейсы к одному или нескольким механизмам OCR
Комплекты для разработки программного обеспечения, которые используются для добавления возможностей OCR в другое программное обеспечение (например, приложения для обработки форм, системы управления изображениями документов, системы e-discovery, решения для управления записями)

Сортируемая таблица
Имя	Год основания	Последняя стабильная версия	Год выпуска	Лицензия	Онлайн	Windows	Mac OS X	Linux	BSD	Язык программирования	SDK ?	Языки	Шрифты	Форматы вывода	Примечания
Google Диск OCR или Google Cloud Vision			2015	Собственный	Да	Браузер	Браузер	Браузер	Неизвестно	Неизвестно	Да	200+	Все шрифты	текст	Сообщение в блоге Google
Tesseract	1985	4.1.1	2019	Apache	No	Да	Да	Да	Да	C ++, C	Да	100+	Любой печатный шрифт	Текст, ALTO, hOCR, PDF, другие с другими пользовательскими интерфейсами или API	Создано Hewlett-Packard ; в процессе дальнейшей разработки Google
ABBYY FineReader	1989	15	2019	Собственный	Да	Да	Да	Да	Да	C/C++	Да	192	Все шрифты	DOC, DOCX, XLS, XLSX, PPTX, RTF, PDF, HTML, CSV, TXT, ODT, DjVu, EPUB, FB2	ABBYY также предоставляет SDK для встроенных и мобильных устройств. Версии Professional, Corporate и Site License для Windows, Express Edition для Mac.
E-aksharayan	2010					Да	Нет	Да	Нет			14		RTF, TXT, BRL
Asprise OCR SDK	1998	15	2015	Собственный	Да	Да	Да	Да	Да	Java, C #, VB.NET, C / C ++ / Delphi	Да	20+	?	Обычный текст, PDF с возможностью поиска, XML	Пакеты SDK Java, C #, VB.NET, C / C ++ / Delphi для OCR и распознавания штрих-кода в Windows, Linux, Mac OS X и Unix.
Программное обеспечение AnyDoc	1989	?	?	Собственное	No	Да	No	No	No	VBScript	?	?	?		Работает со структурированными, полуструктурированными и неструктурированными документами.
CuneiForm	1996	1.1	2011-04-19	BSD вариант	No	Да	Да	Да	Да	C / C ++	Да	28	Любой печатный шрифт	HTML, hOCR, native, RTF, TeX, TXT	Система корпоративного класса, может сохранять форматирование текста и распознавать сложные таблицы любой структуры
Dynamsoft OCR SDK	2003	8.2	2012	Собственная	Да	Да	No	No	No	C/C++	Да	40+	?	PDF, TXT
OmniPage	1970-е	19.2	2015	Собственный	Да	Да	Да	Да	No	C / C ++, C #	Да	125	Машинные и ручные шрифты	DOC / DOCX XLS / XLSX PPTX RTF PDF PDF / A PDF с возможностью поиска HTML Текст XML ePUB MP3	Продукт Nuance Communications
Microsoft Office OneNote 2007	2011	?	2007	Собственный	No	Да	No	No	No	?	?	?	?
GOCR	2000	0,52	2018-10-15	GPL	Да	Да	Да	Да	Да	C	?	20+	?
Окрад	?	0,26	31.03.2017	GPL	Да	No	Да	Да	Да	C ++	Да	Латинский алфавит	?		Командная строка
SmartScore	1991	10.5.8	2015-07	Собственный	No	Да	Да	No	No	?	?	?	?		Для нот
Microsoft Office Document Imaging	?	Office 2007	2007	Собственный	No	Да	No	No	No	?	?	?	?		Использует OmniPage
Puma.NET	?	?	29.10.2009	BSD	No	Да	No	No	No	C#	Да	28	Любой печатный шрифт		.NET OCR SDK на основе механизма распознавания CuneiForm Cognitive Technologies. Обертывает Puma COM-сервер и предоставляет упрощенный API для приложений.NET
ReadSoft	?	?	?	Собственный	No	Да	No	No	No	?	?	?	?		Сканирование, захват и классификация бизнес-документов, таких как счета-фактуры, формы и заказы на поставку, интегрированные с деловые процессы.
Scantron	?	?	?	Собственный	No	Да	No	No	No	?	?	?	?		Для работы с локализованными интерфейсами требуется соответствующая языковая поддержка.
OCRFeeder	2009-03	0.8.1	22.12.2014	GPL	No	No	No	Да	No	Python	?	?	?		Имеет полный пользовательский интерфейс и имеет инструмент командной строки для автоматических операций. Имеет собственный алгоритм сегментации, но использует общесистемные механизмы распознавания текста, такие как Tesseract или Ocrad
OCRopus	2007	1.3.3	2017- 12–16	Apache	No	No	Да	Да	Да	Python	?	Все языки, использующие латинский алфавит (другие языки могут быть обученным)	Обычный латинский алфавит и Fraktur (можно обучить другие скрипты)	TXT, hOCR, PDF	Подключаемый фреймворк в стадии активной разработки, используется для Google Книги
Название	Год основания	Последняя стабильная версия	Год выпуска	Лицензия	Интернет	Windows	Mac OS X	Linux	BSD	Язык программирования	SDK?	Языки	Шрифты	Форматы вывода	Примечания

Оценка

Анализ точности и надежности пакетов OCR Google Docs OCR, Tesseract, ABBYY FineReader и Transym, используя набор данных, включающий 1227 изображений из 15 различных категорий, пришли к выводу, что Google Docs OCR и ABBYY работают лучше, чем другие.

Сравнение программного обеспечения для оптического распознавания символов

Оценка

Ссылки