hOCR - это открытый стандарт представления данных для форматированного текста, полученного из оптического распознавания символов (OCR). Определение кодирует текст, стиль, информацию о макете, показатели достоверности распознавания и другую информацию с использованием Extensible Markup Language (XML) в форме Hypertext Markup Language (HTML) или XHTML..
Следующее программное обеспечение OCR может выводить результат распознавания в виде файла hOCR:
Следующий пример представляет собой отрывок из файла hOCR:
...Die Darlehenssumme ist inihrem ursprünglichen Umfange zuver-...
Распознанный текст сохраняется в обычных текстовых узлах HTML-файла. Распределение на отдельные строки и слова здесь задается окружающими тегами span. Кроме того, используются обычные объекты HTML, например тег p для абзаца. Дополнительная информация дается в свойствах, таких как: