Индийские вычисления

редактировать

Индийские вычисления означает «вычисления на индийских », то есть на индийских скриптах и ​​языках. Сюда входит разработка программного обеспечения на индийских скриптах / языках, Методы ввода, Локализация компьютерных приложений, веб-разработка, Управление базой данных, Проверка правописания, Преобразование текста в текст и Преобразование текста в речь и OCR на индийских языках.

Большинство широко используемых индийских скриптов закодированы в Unicode для работы на компьютерах и в Интернете. Начиная с версии 10.0, бенгальский, деванагари, гуджарати, гурмукхи, каннада, лимбу, малаялам, Масарам Гонди, невари, Ол Чики, Ория, сингальский, тамильский и телугу скрипты закодированы и поддерживаются. Исторически используемые системы письма, такие как Арви, алфавит Ахом, Грантха, Худабади, Махаджани, Моди алфавит, письмо Сиддхама, Силоти Нагри, Тирхута также включены. Еще несколько индийских скриптов находятся в разработке и будут включены в Unicode, например, Tulu Script.

. Многие индийские вычислительные проекты находятся в стадии разработки. В них участвуют компании государственного сектора, группы волонтеров и отдельные люди.

Содержание

  • 1 Государственный сектор
    • 1.1 TDIL
    • 1.2 C-DAC
      • 1.2.1 BharateeyaOO.org
      • 1.2.2 BOSS
  • 2 Группы НПО и волонтеров
    • 2.1 Indlinux
    • 2.2 Sarovar
    • 2.3 Pinaak
    • 2.4 Ankur Group
    • 2.5 BhashaIndia
    • 2.6 SMC
  • 3 Методы ввода
    • 3.1 Полноразмерные клавиатуры
      • 3.1.1 InScript
      • 3.1.2 Фонетическая транслитерация
      • 3.1.3 Remington (пишущая машинка)
    • 3.2 Брайля
    • 3.3 Мобильные телефоны с цифровой клавиатурой
      • 3.3.1 Транслитерация / фонетические методы
      • 3.3.2 Нативные методы
    • 3.4 Смартфоны с Qwerty-клавиатурами
    • 3.5 Для смартфонов с программными / виртуальными клавиатурами
  • 4 Локализация
    • 4.1 Версия Mandrake Tamil
    • 4.2 IndLinux
    • 4.3 Nipun
    • 4.4 Локализация веб-сайтов
  • 5 Индийские блоги
  • 6 Социальные сети
  • 7 Программирование
    • 7.1 Индийские языки программирования
    • 7.2 Фреймворки
    • 7.3 Библиотеки
  • 8 Перевод
  • 9 Программное обеспечение
    • 9.1 Стек индийских языков
    • 9.2 Проверка орфографии
    • 9.3 Инструменты транслитерации
    • 9.4 Преобразование текста в речь
    • 9.5 Преобразование речи в текст t
  • 10 Интернационализированные доменные имена
  • 11 Операционные системы
  • 12 Электронная почта
  • 13 Виртуальные помощники
  • 14 Использование и рост
  • 15 См. также
  • 16 Ссылки

Государственный сектор

Правительство Союза Индии обязало компании мобильной связи, чьи телефоны производят, хранят, продают и распространяют в Индии, иметь поддержку чтения текста на всех 22 языках. Этот шаг привел к росту использования индийских языков миллионами пользователей.

TDIL

Департамент электроники и информационных технологий Индии инициировал TDIL (Разработка технологий для индийских языков) с целью разработки инструментов и методов обработки информации для облегчения взаимодействия человека с машиной без языкового барьера; создание и доступ к многоязычным ресурсам знаний; и их интеграция для разработки инновационных продуктов и услуг для пользователей.

В 2005 году он начал распространять языковые программные инструменты, разработанные правительственными / академическими / частными компаниями в форме компакт-дисков для некоммерческого использования.

Некоторые из результатов программы TDIL, развернутой в Центре распространения и развертывания индийских языковых технологий. Этот Центр распространяет все лингвистические ресурсы, инструменты и приложения, разработанные при финансировании TDIL. Эта программа стала экспоненциально расширяться под руководством доктора Сварана Лата, который также создал международный след программы.

C-DAC

C-DAC - это правительственная компания Индии, занимающаяся разработкой программного обеспечения, связанного с языками. Он наиболее известен разработкой InScript Keyboard, стандартной клавиатуры для индийских языков. Он также разработал множество решений на индийском языке, включая текстовые процессоры, инструменты набора текста, программное обеспечение преобразования текста в речь, OCR на индийских языках и т. Д.

BharateeyaOO.org

Работа, разработанная CDAC, Бангалор (ранее известная как NCST, Бангалор), стала BharateeyaOO. OpenOffice 2.1 поддерживает более 10 индийских языков.

BOSS

BOSS разработан Национальным ресурсным центром для бесплатного / открытого программного обеспечения по инициативе DIT. Его деятельность координируется C-DAC Chennai и Исследовательским центром KBC Университета Анны. Центры поддержки созданы в нескольких городах Индии для оказания поддержки пользователям.

НПО и группы волонтеров

Indlinux

организация помогла организовать отдельных добровольцев, работающих над различными версиями Linux и его приложениями на индийском языке.

Саровар

Sarovar.org - это первый портал Индии, на котором размещаются проекты под лицензиями Free / Open Source. Он расположен в Тривандрам, Индия и размещен в центре обработки данных Asianet. Sarovar.org настраивается, устанавливается и поддерживается Linuxense в рамках своих общественных услуг и спонсируется River Valley Technologies. Sarovar.org построен на Debian Etch и GForge и работает на базе METTLE.

Пинаак

Пинаак - негосударственное благотворительное общество, занимающееся компьютерными технологиями на индийском языке. Он работает для локализации программного обеспечения, разработки языкового программного обеспечения, локализации программного обеспечения с открытым исходным кодом, обогащения онлайн-энциклопедий и т. Д. В дополнение к этому Pinaak работает для обучения людей компьютерным технологиям, этичному использованию Интернета и использованию индийских языков в Интернете.

Ankur Group

Ankur Group работает над поддержкой бенгальского языка (бенгали ) в операционной системе Linux, включая локализованный бенгальский GUI, Live CD, переводчик с английского на бенгальский, бенгальский OCR и бенгальский словарь и т. Д.

BhashaIndia

SMC

SMC - бесплатное программное обеспечение группа, работающая над преодолением языкового разрыва в Керале в области технологий, и сегодня является крупнейшим сообществом языковых вычислений в Индии.

Методы ввода

Reverie Keypad перечисляет поддерживаемые индийские языки для набора текста в Android

Полноразмерные клавиатуры

С появлением Unicode ввод индийского текста на компьютере стал очень простым. Для этого существует ряд методов, но основные из них: -

InScript

Inscript - стандартная клавиатура для индийских языков. Разработано C-DAC и стандартизировано правительством Индии. В настоящее время он встроен во все основные операционные системы, включая Microsoft Windows (2000, XP, Vista, 7), Linux и Macintosh.

Фонетическая транслитерация

Это метод набора текста, при котором, например, пользователь вводит текст на индийском языке, используя символы римского, и он фонетически преобразуется в эквивалентный текст на индийском языке в реальном времени. Этот тип преобразования выполняется фонетическими текстовыми редакторами, текстовыми редакторами и программными плагинами. Основываясь на этой идее, можно использовать фонетические инструменты, которые позволяют вводить текст Indic в любое приложение.

Некоторыми примерами фонетических транслитераторов являются Xlit, Индийская транслитерация Google, Индийская клавиатура SMC и Средство ввода индийского языка Microsoft. Индийская клавиатура SMC поддерживает до 23 языков, тогда как индийская клавиатура Google поддерживает только 11 индийских языков.

Их можно в целом классифицировать как:

  • Инструменты на основе фиксированной схемы транслитерации - Они работают с фиксированной схемой транслитерации для преобразования текста. Некоторые примеры: и.
  • Интеллектуальные / обучающие инструменты транслитерации - они сравнивают слово со словарем, а затем преобразуют его в эквивалентные слова на целевом языке. Некоторые из популярных: Индийская транслитерация, Средство ввода индийского языка и.

Ремингтон (пишущая машинка)

Этот макет был разработан, когда компьютеры еще не были были изобретены или развернуты с использованием индийских языков, и пишущие машинки были единственным средством для ввода текста на индийских языках. Поскольку пишущие машинки были механическими и не могли включать в себя процессор сценариев, каждый символ приходилось размещать на клавиатуре отдельно, что приводило к очень сложной и трудной для изучения раскладке клавиатуры.

С появлением Unicode раскладка Remington была добавлена ​​в различные инструменты набора текста для обеспечения обратной совместимости, так что старым машинистам не пришлось изучать новую раскладку клавиатуры. В настоящее время этот макет используется только старыми машинистками, которые привыкли к нему из-за нескольких лет использования. Один из инструментов для включения макета Ремингтона - это. Шрифт, основанный на раскладке клавиатуры Remington: Kruti Dev. Еще один онлайн-инструмент, который очень близко поддерживает старую раскладку клавиатуры Remington с использованием Kruti Dev, - это инструмент Remington Typing.

Брайль

IBus Sharada Braille, поддерживающий семь индийских языков, был разработан SMC.

Мобильные телефоны с цифровой клавиатурой

Nokia 1108 Hindi

Мобильный / Ручной / Базовые модели сотовых телефонов имеют 12 клавиш, как и обычная клавиатура старого телефона. Каждой клавише соответствует 3 или 4 английских буквы, чтобы облегчить ввод данных на английском языке. Для ввода индийских языков с помощью такой клавиатуры есть два способа сделать это. Во-первых, это метод множественного касания, а во-вторых, используется визуальная помощь с экрана, такая как клавиатура Panini. Основное использование - SMS. Размер 140 символов, используемый для английского / латинского языков, может использоваться для размещения только около 70 языковых символов, когда проприетарное сжатие Unicode используется несколько раз для увеличения размера одного сообщения для сложных языков сценариев, таких как хинди. Консорциум широкополосной беспроводной связи Индии (BWCI) выпустил исследование доступных методов и рекомендаций предлагаемого стандарта.

Методы транслитерации / фонетики

Английский язык используется для набора текста на индийских языках. IndiSMS

Собственные методы

В собственных методах буквы языка отображаются на экране, соответствующие цифровым клавишам, на основе вероятностей этих букв для этого языка. Доступ к дополнительным буквам можно получить с помощью специального ключа. Когда слово напечатано частично, отображаются варианты, из которых пользователь может сделать выбор.

Смартфоны с Qwerty-клавиатурами

Большинство смартфонов имеют около 35 клавиш, предназначенных в основном для английского языка. Доступ к цифрам и некоторым символам осуществляется с помощью специальной клавиши Alt. Индийские методы ввода еще не разработаны для этих типов телефонов, поскольку поддержка Unicode для рендеринга широко не доступна.

Для смартфонов с программной / виртуальной клавиатурой

Inscript внедряется для использования на смартфонах. Для телефонов Android, поддерживающих индийские языки, доступно приложение Swalekh Multilingual Keypad Multiling Keyboard. Gboard предлагает поддержку нескольких индийских языков.

Локализация

Локализация означает перевод программного обеспечения, операционных систем, веб-сайтов и т. Д. Различных приложений на индийский язык. В этом направлении работают разные волонтерские группы.

Тамильская версия Mandrake

Ярким примером является тамильская версия Mandrake linux. Тамильские носители в Торонто (Канада) выпустили Mandrake, программное обеспечение GNU / Linux, в выпуске с тамильской версией. Можно отметить, что все функции доступны на тамильском языке. Тем самым для тех, кто знает тамильский язык, устранено требование знания английского языка для использования компьютеров.

IndLinux

IndLinux - это группа добровольцев, целью которой является перевод Linux операционной системы на индийские языки. Усилиями этой группы Linux был почти полностью локализован на хинди и другие индийские языки.

Нипун

Нипун - это онлайн-система перевода, предназначенная для перевода различных приложений на хинди. Это часть сети Akshargram.

Локализация веб-сайтов

GoDaddy локализовала свой веб-сайт на хинди, маратхи и тамильский, а также отметила, что 40% количество звонков для IVR ведется на индийских языках.

Индийское ведение блога

Индийское ведение блога относится к ведению блога на индийских языках. Были предприняты различные усилия по продвижению блогов на индийских языках.

Социальные сети

Некоторые социальные сети запускаются на индийских языках.

Программирование

Индийские языки программирования

Frameworks

Gherkin, популярного предметно-ориентированного языка, поддерживающего гуджарати, хинди, каннада, пенджаби, Тамильский, телугу и урду

Библиотеки

Обработка естественного языка в индийских языках растет. Доступно несколько библиотек, таких как iNLTK, StanfordNLP.

Перевод

Google предлагает улучшенную функцию перевода для хинди, бенгали, маратхи, тамильского, телугу, гуджарати, пенджаби, малаялама и каннада, а также офлайн-поддержка. Microsoft также предлагает перевод для некоторых из этих языков.

Программное обеспечение

Индийский языковой стек

На симпозиуме, совместно организованном FICCI и TDIL, г-н Аджай Пракаш Сони, Секретарь Министерства электроники и информационных технологий правительства Индии сказал, что India Language Stack может помочь преодолеть барьеры общения. Он должен включать в себя различные программные технологии, необходимые для разговорного ИИ на индийских языках, и предлагать уровни подходящих точек входа для создания приложений.

Проверки орфографии

Инструменты транслитерации

Инструменты транслитерации позволяют пользователям читать текст другим шрифтом. На данный момент Акшарамукха - это инструмент, который позволяет использовать большинство индийских шрифтов. Google также предлагает индийскую транслитерацию. Текст из любого из этих скриптов можно преобразовать в любые другие скрипты и наоборот. В то время как Google и Microsoft разрешают транслитерацию латинских букв в индийский алфавит.

Преобразование текста в речь

Университет Карнеги-Меллона в сотрудничестве с проектом Hear2Read разработал программное обеспечение для преобразования текста в речь (TTS), которое помогает людям с ослабленным зрением прослушивать текст на родном языке. Индийские языки. В настоящее время предлагается тамильский, а релизы на хинди, бенгали, гуджарати, маратхи, каннада, пенджаби и телугу ожидаются в течение оставшейся части 2016 года.

Speech-to-Text

Интернационализированные доменные имена

Операционные системы

Электронная почта

Microsoft Inc. поддерживает адреса электронной почты на хинди, бенгали и тамильском языке. Ожидается, что в будущем он будет включать и другие индийские языки.

Виртуальные помощники

Виртуальные помощники на базе искусственного интеллекта Google Assistant обеспечивают поддержку различных индийских языков.

Использование и рост

Согласно GoDaddy, хинди, маратхи и тамильский языки учтены для 61% интернет-трафика Индии. Менее 1% онлайн-контента на индийских языках. Недавно созданные лучшие приложения поддерживают несколько индийских языков и / или продвигают контент на индийском языке. 61% индийских пользователей WhatsApp в основном используют свои родные языки для общения с ним. Недавнее исследование показало, что использование Интернета является самым высоким среди местных языков, таких как тамильский, хинди, каннада, бенгали, маратхи, телугу, гуджарати и малаялам. По его оценкам, маратхи, бенгали, тамильский и телугу составят 30% от общей базы пользователей местных языков в стране. В настоящее время тамильский язык (42%) имеет самый высокий уровень использования Интернета, за ним следует хинди с 39% и каннада с 37%. Intex также сообщил, что 87% его региональных языков используются хинди, бенгали, тамильский, Говорящие на гуджарати и маратхи. Мобильные телефоны Lava сообщили, что тамильский и малаялам являются самыми популярными в их телефонах, даже больше, чем хинди.

См. Также

Ссылки

Последняя правка сделана 2021-05-24 14:00:47
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте