Тессеракт (программное обеспечение)

редактировать

Tesseract
Tesseract 4.1.1 читает изображение.
Оригинальный автор (ы)	Рэй Смит, Hewlett-Packard
Разработчик ( s)	Google

Стабильная версия	4.1.1 / 26 декабря 2019 г.; 10 месяцев назад (26.12.2019)

Репозиторий	github.com / tesseract-ocr / tesseract
Написано на	C и C ++
Операционная система	Linux, Windows и macOS (x86 )
Доступно в	Интерфейс: английский. Распознавание: африкаанс, албанский, арабский, азербайджанский, баскский, Белорусский, бенгальский, болгарский, каталонский, чешский, чероки, хорватский, датский, голландский, английский, эсперанто, эстонский, финский, французский, галисийский, немецкий, греческий, хинди, венгерский, индонезийский, итальянский, японский, каннада, корейский, латышский, Литовский, малаялам, македонский, мальтийский, малайский, норвежский, польский, португальский, румынский, русский, сербский an, словацкий, словенский, испанский, суахили, шведский, тагальский, тамильский, телугу, тайский, турецкий, украинский и вьетнамский (дополнительные можно добавить с помощью прилагаемых обучающих файлов)
Тип	Оптическое распознавание символов
Лицензия	Лицензия Apache 2.0
Веб-сайт	github.com / tesseract-ocr

Tesseract - это механизм оптического распознавания символов для различных операционных систем. Это бесплатное программное обеспечение, выпущенное под лицензией Apache. Первоначально разработанное Hewlett-Packard в качестве проприетарного программного обеспечения в 1980-х годах, оно было выпущено с открытым исходным кодом в 2005 году, а с 2006 года разработка спонсировалась Google.

В В 2006 году Tesseract был признан одним из наиболее точных на тот момент систем распознавания текста с открытым исходным кодом.

Содержание

1 История
2 Функции
3 Версия 4
4 Пользовательские интерфейсы
5 Прием
6 См. Также
7 Ссылки
8 Внешние ссылки

История

Механизм Tesseract был первоначально разработан как проприетарное программное обеспечение в лабораториях Hewlett Packard в Бристоле, Англия и Грили, Колорадо в период с 1985 по 1994 год, с некоторыми дополнительными изменениями, внесенными в 1996 году для переноса на Windows, и некоторым переходом с C на C ++ в 1998 году. Большая часть кода была написана на C, а затем еще часть была написана на C ++. С тех пор весь код был преобразован как минимум для компиляции с помощью компилятора C ++. В последующее десятилетие было сделано очень мало работы. Затем он был выпущен с открытым исходным кодом в 2005 году Hewlett Packard и Университетом Невады, Лас-Вегас (UNLV). Google спонсирует разработку Tesseract с 2006 года.

Features

Tesseract входил в тройку лучших движков OCR с точки зрения точности символов в 1995 году. Он доступен для Linux, Windows и Mac OS X. Однако из-за ограниченных ресурсов он только тщательно тестируется разработчиками под Windows, и Ubuntu.

Tesseract до версии 2 включительно мог принимать только изображения TIFF простого текста в одну колонку в качестве входных данных. Эти ранние версии не включали анализ макета, поэтому ввод многоколоночного текста, изображений или уравнений приводил к искаженному выводу. Начиная с версии 3.00 Tesseract поддерживает форматирование выходного текста, hOCR позиционную информацию и анализ макета страницы. С помощью библиотеки добавлена поддержка ряда новых форматов изображений. Tesseract может определять, является ли текст моноширинным или пропорциональным.

Первоначальные версии Tesseract могли распознавать только текст на английском языке. Tesseract v2 добавил шесть дополнительных западных языков (французский, итальянский, немецкий, испанский, бразильский португальский, голландский). Версия 3 значительно расширила языковую поддержку, включая идеографические (китайский и японский) и языки с написанием справа налево (например, арабский, иврит), а также многие другие скрипты. Новые языки включали арабский, болгарский, каталонский, китайский (упрощенный и традиционный), хорватский, чешский, датский, немецкий (Fraktur сценарий), греческий, финский, иврит, хинди, венгерский, индонезийский, японский, корейский, Латышский, литовский, норвежский, польский, португальский, румынский, русский, сербский, словацкий (стандартный и Fraktur сценарий), словенский, шведский, тагальский, тамильский, тайский, турецкий, украинский и вьетнамский. Версия 3.04, выпущенная в июле 2015 года, добавила еще 39 комбинаций языков / сценариев, в результате чего общее количество поддерживаемых языков превысило 100. Новые языковые коды включали: amh (амхарский), asm (ассамский), aze_cyrl (азербайджанский язык на кириллице)), bod (тибетский), bos (боснийский), ceb (кебуанский), cym (валлийский), dzo (дзонгха), fas (персидский), gle (ирландский язык), guj (гуджарати), hat (гаитянский и гаитянский креольский язык), iku (инуктитут), jav (яванский), kat (грузинский), kat_old (древнегрузинский), kaz (казахский), khm (центральный кхмерский), kir (киргизский), kur (курдский), lao (лаосский), lat (лат.), mar (маратхи), mya (бирманский), nep (непальский), ori (ория), pan (пенджаби), pus (пушту), san (санскрит), sin (сингальский), srp_latn (сербский латинским шрифтом), syr (сирийский), tgk (таджикский), tir (тигринья), uig (уйгурский), urd (урду), uzb (узбекский), uzb_cyrl (узбекский на кириллице), yid (идиш).

На кроме того, Tesseract можно обучить работе на других языках.

Tesseract может обрабатывать текст с письмом справа налево, например арабский или иврит, многие Индийские скрипты, а также CJK неплохо. Показатели точности показаны в этой презентации для руководства по Tesseract на DAS 2016, Санторини, написанного Рэем Смитом.

Tesseract подходит для использования в качестве серверной части и может использоваться для более сложных задач OCR, включая анализ макета, с использованием внешнего интерфейса, такого как поскольку OCRopus.

Вывод Tesseract будет иметь очень низкое качество, если входные изображения не будут предварительно обработаны для его соответствия: изображения (особенно снимки экрана ) должны быть масштабированы так, чтобы text x-height составляет не менее 20 пикселей, любое вращение или перекос необходимо исправить, иначе текст не будет распознан, низкочастотные изменения яркости должны быть с фильтром верхних частот, или Этап бинаризации Tesseract уничтожит большую часть страницы, и темные границы должны быть удалены вручную, иначе они будут неверно интерпретированы как символы.

Версия 4

Версия 4 добавляет LSTM движок и модели OCR для многих дополнительных языков и скриптов, в результате чего всего 116 языков.

Дополнительно скрипты для 37 языков поддерживается возраст, поэтому можно распознать язык с помощью сценария, на котором он написан.

Пользовательские интерфейсы

Окно конфигурации Tesseract в OCRFeeder

Tesseract запускается из командной строки интерфейс. Хотя Tesseract не поставляется с графическим интерфейсом пользователя, существует множество отдельных проектов, которые предоставляют для него графический интерфейс. Один из распространенных примеров - OCRFeeder.

Reception

В июльской статье 2007 года о Tesseract Энтони Кей из Linux Journal назвал его «необычным инструментом командной строки, который отлично справляется с задачей. работа ». В то время он отметил, что «Tesseract - это простой движок OCR. Процесс сборки немного необычный, и движку требуются некоторые дополнительные функции (например, определение макета), но основная функция, распознавание текста, значительно лучше, чем что-либо еще. еще я пробовал от сообщества Open Source. Достаточно легко получить отличные показатели распознавания, используя не более чем сканер и некоторые инструменты обработки изображений, такие как GIMP и Netpbm. "

См. также

Libtiff

Ссылки

Внешние ссылки

Викискладе есть медиафайлы, относящиеся к Tesseract (программное обеспечение).

Официальный сайт
Взлом Tesseract V0.04 - C Структура / C ++ Tesseract, извлеченная из исходного кода Doxyfied (на основе Tesseract V1.03)
Tesseract OCR Engine Обзор механизма Tesseract OCR.