OCR на индийских языках

редактировать

Оптическое распознавание символов (также известное как OCR) - это процесс преобразования изображения в текст. OCR для английского и других европейских языков смогло обеспечить высокий процент точности преобразования. Но OCR для индийских языков не смог достичь той точности, которой они достигли. В основном это связано со сложностью индийского языка, отсутствием стандартного представления, кодировки, поддержки операционной системы и клавиатуры. Центр развития передовых вычислений (C-DAC) и Разработка технологий для индийских языков, ведущая научно-исследовательская организация Министерства электроники и информационных технологий (также известный как MeitY) из Индии выполнил множество проектов для OCR. Их проекты включают OCR для малаялам, одия, панджаби, телугу и деванагари скрипт.

Содержание

1 Свойства индийских письменностей
2 Примеры
3 Ссылки
4 Внешние ссылки

Свойства индийских сценариев

В Индии официально признано 22 языки. Среди этих хинди, бенгали и панджаби являются наиболее распространенными языками в Индии и четвертым, седьмым и десятым по популярности языками в мире. Один и тот же сценарий можно написать на двух или более языках. Например, деванагири используется для написания хинди, маратхи, раджастхани, бходжпури и многих других. В то время как бенгальское письмо используется для написания санскрита, манипури и т. Д.

Помимо основных символов, таких как согласные и гласные, большинство индийских языков объединяет 2 или более основных символа в составные символы. Форма составного символа более сложна, чем составные основные символы. В некоторых индийских языках (хинди, панджаби и т. Д.) Над символами есть горизонтальная линия. Хотя в некоторых языках (например, гуджарати, тамильский и т. Д.) Эти горизонтальные линии отсутствуют. Это некоторые из основных проблем при создании единого OCR для всех индийских языков.

Концепция символов верхнего / нижнего регистра отсутствует в индийских языках. Как и в английских языках, режим написания языков - слева направо, за исключением урду.

Примеры

SanskritOCR - программное обеспечение OCR для санскрита, хинди и других языков Индии на основе системы письма деванагари | сценария.
E-aksharayan - Механизм оптического распознавания символов для индийских языков
Chitrankan - разработан ISI, Калькутта, и технология передана C-DAC. Он обрабатывает напечатанный текст хинди либо непосредственно со сканера , либо с изображения .

Ссылки

^GmbH, Урок девятый. «10 самых распространенных языков в мире». Журнал Babbel. Проверено 20 марта 2018.
^Pal, U.; Чаудхури, Би Би (2004-09-01). «Распознавание символов индийского алфавита: обзор». Распознавание образов. 37 (9): 1887–1899. doi : 10.1016 / j.patcog.2004.02.003. ISSN 0031-3203.

«Многоязычные вычисления и традиционные вычисления». www.cdac.in. Проверено 12 февраля 2017 г.
Сингх, Рустам (16 апреля 2016 г.). «Магия распознавания текста и дополненной реальности для перевода текста на индийские языки в реальном времени - без Интернета». Предприниматель. Проверено 12 февраля 2017 г.
«Центр распространения и развертывания индийских языковых технологий - главная страница». www.tdil-dc.in. Проверено 12 февраля 2017 г.
Pal, U.; Чаудхури, Би Би (2004-09-01). «Распознавание символов индийского алфавита: обзор». Распознавание образов. 37 (9): 1887–1899. doi : 10.1016 / j.patcog.2004.02.003. ISSN 0031-3203.

Внешние ссылки

«SanskritOCR - Оптическое распознавание текста для санскритских документов».
«C-DAC: GIST - Продукты - Читранкан». cdac.in. Проверено 12 февраля 2017 г.