Оптическое распознавание символов (также известное как OCR) - это процесс преобразования изображения в текст. OCR для английского и других европейских языков смогло обеспечить высокий процент точности преобразования. Но OCR для индийских языков не смог достичь той точности, которой они достигли. В основном это связано со сложностью индийского языка, отсутствием стандартного представления, кодировки, поддержки операционной системы и клавиатуры. Центр развития передовых вычислений (C-DAC) и Разработка технологий для индийских языков, ведущая научно-исследовательская организация Министерства электроники и информационных технологий (также известный как MeitY) из Индии выполнил множество проектов для OCR. Их проекты включают OCR для малаялам, одия, панджаби, телугу и деванагари скрипт.
В Индии официально признано 22 языки. Среди этих хинди, бенгали и панджаби являются наиболее распространенными языками в Индии и четвертым, седьмым и десятым по популярности языками в мире. Один и тот же сценарий можно написать на двух или более языках. Например, деванагири используется для написания хинди, маратхи, раджастхани, бходжпури и многих других. В то время как бенгальское письмо используется для написания санскрита, манипури и т. Д.
Помимо основных символов, таких как согласные и гласные, большинство индийских языков объединяет 2 или более основных символа в составные символы. Форма составного символа более сложна, чем составные основные символы. В некоторых индийских языках (хинди, панджаби и т. Д.) Над символами есть горизонтальная линия. Хотя в некоторых языках (например, гуджарати, тамильский и т. Д.) Эти горизонтальные линии отсутствуют. Это некоторые из основных проблем при создании единого OCR для всех индийских языков.
Концепция символов верхнего / нижнего регистра отсутствует в индийских языках. Как и в английских языках, режим написания языков - слева направо, за исключением урду.
.