hOCR - hOCR

редактировать
Открытый стандарт для текста OCR

hOCR - это открытый стандарт представления данных для форматированного текста, полученного из оптического распознавания символов (OCR). Определение кодирует текст, стиль, информацию о макете, показатели достоверности распознавания и другую информацию с использованием Extensible Markup Language (XML) в форме Hypertext Markup Language (HTML) или XHTML..

Содержание
  • 1 Программное обеспечение
  • 2 Пример
  • 3 См. Также
  • 4 Ссылки
  • 5 Внешние ссылки
Программное обеспечение

Следующее программное обеспечение OCR может выводить результат распознавания в виде файла hOCR:

Пример

Следующий пример представляет собой отрывок из файла hOCR:

... 

Die Darlehenssumme ist inihrem ursprünglichen Umfange zuver-...

Распознанный текст сохраняется в обычных текстовых узлах HTML-файла. Распределение на отдельные строки и слова здесь задается окружающими тегами span. Кроме того, используются обычные объекты HTML, например тег p для абзаца. Дополнительная информация дается в свойствах, таких как:

  • различные элементы макета, такие как «ocr_par», «ocr_line», «ocrx_word»
  • геометрическая информация для каждого элемента с ограничивающей рамкой «bbox»
  • информация о языке "lang"
  • некоторые значения достоверности "x_wconf"
См. Также
  • ALTO (XML) - другой формат представления данных OCR
Ссылки
Внешние ссылки
Последняя правка сделана 2021-05-22 09:33:02
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте