OCR на индийских языках

редактировать

Оптическое распознавание символов (также известное как OCR) - это процесс преобразования изображения в текст. OCR для английского и других европейских языков смогло обеспечить высокий процент точности преобразования. Но OCR для индийских языков не смог достичь той точности, которой они достигли. В основном это связано со сложностью индийского языка, отсутствием стандартного представления, кодировки, поддержки операционной системы и клавиатуры. Центр развития передовых вычислений (C-DAC) и Разработка технологий для индийских языков, ведущая научно-исследовательская организация Министерства электроники и информационных технологий (также известный как MeitY) из Индии выполнил множество проектов для OCR. Их проекты включают OCR для малаялам, одия, панджаби, телугу и деванагари скрипт.

Содержание
  • 1 Свойства индийских письменностей
  • 2 Примеры
  • 3 Ссылки
  • 4 Внешние ссылки
Свойства индийских сценариев

В Индии официально признано 22 языки. Среди этих хинди, бенгали и панджаби являются наиболее распространенными языками в Индии и четвертым, седьмым и десятым по популярности языками в мире. Один и тот же сценарий можно написать на двух или более языках. Например, деванагири используется для написания хинди, маратхи, раджастхани, бходжпури и многих других. В то время как бенгальское письмо используется для написания санскрита, манипури и т. Д.

Помимо основных символов, таких как согласные и гласные, большинство индийских языков объединяет 2 или более основных символа в составные символы. Форма составного символа более сложна, чем составные основные символы. В некоторых индийских языках (хинди, панджаби и т. Д.) Над символами есть горизонтальная линия. Хотя в некоторых языках (например, гуджарати, тамильский и т. Д.) Эти горизонтальные линии отсутствуют. Это некоторые из основных проблем при создании единого OCR для всех индийских языков.

Концепция символов верхнего / нижнего регистра отсутствует в индийских языках. Как и в английских языках, режим написания языков - слева направо, за исключением урду.

Примеры
  1. SanskritOCR - программное обеспечение OCR для санскрита, хинди и других языков Индии на основе системы письма деванагари | сценария.
  2. E-aksharayan - Механизм оптического распознавания символов для индийских языков
  3. Chitrankan - разработан ISI, Калькутта, и технология передана C-DAC. Он обрабатывает напечатанный текст хинди либо непосредственно со сканера , либо с изображения .
Ссылки
  1. ^GmbH, Урок девятый. «10 самых распространенных языков в мире». Журнал Babbel. Проверено 20 марта 2018.
  2. ^Pal, U.; Чаудхури, Би Би (2004-09-01). «Распознавание символов индийского алфавита: обзор». Распознавание образов. 37 (9): 1887–1899. doi : 10.1016 / j.patcog.2004.02.003. ISSN 0031-3203.
Внешние ссылки

.

Последняя правка сделана 2021-06-01 06:15:01
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте