hOCR - hOCR

редактировать

Открытый стандарт для текста OCR

hOCR - это открытый стандарт представления данных для форматированного текста, полученного из оптического распознавания символов (OCR). Определение кодирует текст, стиль, информацию о макете, показатели достоверности распознавания и другую информацию с использованием Extensible Markup Language (XML) в форме Hypertext Markup Language (HTML) или XHTML..

Содержание

1 Программное обеспечение
2 Пример
3 См. Также
4 Ссылки
5 Внешние ссылки

Программное обеспечение

Следующее программное обеспечение OCR может выводить результат распознавания в виде файла hOCR:

Пример

Следующий пример представляет собой отрывок из файла hOCR:

...

Die Darlehenssumme ist inihrem ursprünglichen Umfange zuver-...

Распознанный текст сохраняется в обычных текстовых узлах HTML-файла. Распределение на отдельные строки и слова здесь задается окружающими тегами span. Кроме того, используются обычные объекты HTML, например тег p для абзаца. Дополнительная информация дается в свойствах, таких как:

различные элементы макета, такие как «ocr_par», «ocr_line», «ocrx_word»
геометрическая информация для каждого элемента с ограничивающей рамкой «bbox»
информация о языке "lang"
некоторые значения достоверности "x_wconf"

См. Также

ALTO (XML) - другой формат представления данных OCR

Ссылки

Внешние ссылки