Распознавание рукописного ввода (HWR ), также известное Распознавание рукописного текста (HTR ) - это способность компьютера получать и интерпретировать понятный рукописный ввод из таких источников, как бумага документы, фотографии, сенсорные экраны и другие устройства. Изображение написанного текста может быть обнаружено "в автономном режиме" с листа бумаги с помощью оптического сканирования (оптического распознавания символов ) или интеллектуального распознавания слов. В качестве альтернативы, движения кончика пера могут восприниматься «в режиме реального времени», например, с помощью поверхности экрана компьютера на основе пера, что в целом более простая задача, поскольку доступно больше подсказок. Система распознавания рукописного ввода обрабатывает форматирование, выполняет правильное сегментацию на символы и находит наиболее правдоподобные слова.
Распознавание рукописного ввода в автономном режиме включает автоматическое преобразование текста на изображении в буквенные коды, которые можно использовать в компьютерах и приложениях для обработки текста. Данные, полученные с помощью этой формы, рассматриваются как статическое представление почерка. Распознавать рукописный ввод в автономном режиме сравнительно сложно, так как у разных людей разные стили письма. И на сегодняшний день механизмы OCR в основном ориентированы на машинно-напечатанный текст, а ICR - на текст, напечатанный вручную (написанный заглавными буквами).
Автономное распознавание символов часто включает сканирование формы или документа. Это означает, что необходимо будет извлечь отдельные символы, содержащиеся в отсканированном изображении. Существуют инструменты, способные выполнить этот шаг. Однако на этом этапе есть несколько общих недостатков. Чаще всего это когда связанные символы возвращаются как единое изображение, содержащее оба символа. Это вызывает серьезную проблему на этапе распознавания. Тем не менее, доступно множество алгоритмов, снижающих риск подключения персонажей.
После извлечения отдельных символов используется механизм распознавания, чтобы идентифицировать соответствующий компьютерный символ. В настоящее время доступно несколько различных методов распознавания.
Извлечение признаков работает аналогично распознавателям нейронных сетей. Однако программисты должны вручную определять свойства, которые они считают важными. Этот подход дает распознавателю больше контроля над свойствами, используемыми при идентификации. Однако любая система, использующая этот подход, требует значительно больше времени на разработку, чем нейронная сеть, потому что свойства не изучаются автоматически.
Если традиционные методы фокусируются на сегментировании отдельных символов для распознавания, современные методы фокусируются на распознавании всех символов в сегментированной строке текста. В частности, они фокусируются на методах машинного обучения, которые позволяют изучать визуальные функции, избегая ранее использовавшейся ограничивающей разработки функций. Современные методы используют сверточные сети для извлечения визуальных элементов из нескольких перекрывающихся окон изображения текстовой строки, которые RNN использует для получения вероятностей символов.
Распознавание рукописного ввода в Интернете включает автоматическое преобразование текста, написанного на специальном дигитайзере или КПК, где датчик улавливает кончик пера. движения, а также переключение пера вверх / вниз. Этот вид данных известен как цифровые чернила и может рассматриваться как цифровое представление почерка. Полученный сигнал преобразуется в буквенные коды, которые можно использовать в компьютерах и приложениях для обработки текста.
Элементы онлайн-интерфейса распознавания рукописного ввода обычно включают:
Процесс распознавания рукописного ввода в режиме онлайн можно разбить на несколько общих шагов:
Цель предварительной обработки - отбросить нерелевантную информацию во входных данных, которая может негативно повлиять на распознавание. Это касается скорости и точности. Предварительная обработка обычно состоит из бинаризации, нормализации, дискретизации, сглаживания и удаления шума. Второй шаг - извлечение признаков. Из двумерного или многомерного векторного поля, полученного от алгоритмов предварительной обработки, извлекаются многомерные данные. Цель этого шага - выделить важную информацию для модели распознавания. Эти данные могут включать такую информацию, как давление пера, скорость или изменение направления письма. Последний большой шаг - классификация. На этом этапе различные модели используются для сопоставления извлеченных объектов с разными классами и, таким образом, для идентификации символов или слов, которые представляют объекты.
Коммерческие продукты, включающие распознавание рукописного ввода в качестве замены ввода с клавиатуры, были представлены в начале 1980-х годов. Примеры включают терминалы для рукописного ввода, такие как Pencept Penpad и терминал для точек продаж Inforite. С появлением большого потребительского рынка персональных компьютеров было представлено несколько коммерческих продуктов для замены клавиатуры и мыши на персональном компьютере с единой системой указателя / рукописного ввода, например, от Pencept, CIC и других. Первым коммерчески доступным портативным компьютером планшетного типа был GRiDPad от GRiD Systems, выпущенный в сентябре 1989 года. Его операционная система была основана на MS-DOS.
. В начале 1990-х годов производители оборудования, включая NCR, IBM и EO выпустили планшетные компьютеры под управлением операционной системы PenPoint, разработанной GO Corp.. PenPoint повсюду использовала распознавание рукописного ввода и жесты и предоставляла возможности стороннему программному обеспечению. Планшетный компьютер IBM был первым, кто использовал имя ThinkPad и распознавал почерк IBM. Эта система распознавания была позже перенесена на Microsoft Windows for Pen Computing и IBM. Ни один из них не имел коммерческого успеха.
Достижения в области электроники позволили вычислительной мощности, необходимой для распознавания рукописного ввода, уместиться в меньшем форм-факторе, чем планшетные компьютеры, а распознавание рукописного ввода часто используется в качестве метода ввода для портативных КПК. Первым КПК, обеспечивающим ввод в письменном виде, был Apple Newton, который предоставил публике преимущество упрощенного пользовательского интерфейса. Тем не менее, устройство не имело коммерческого успеха из-за ненадежности программного обеспечения, которое пыталось изучить шаблоны письма пользователя. К моменту выпуска Newton OS 2.0, в которой распознавание рукописного ввода было значительно улучшено, включая уникальные функции, до сих пор не встречающиеся в современных системах распознавания, такие как немодальное исправление ошибок, первое впечатление было в значительной степени негативным.. После прекращения производства Apple Newton эта функция была включена в Mac OS X 10.2, а затем в Inkwell.
Palm, позже была выпущена успешная серия КПК на основе система распознавания граффити. Граффити улучшило удобство использования за счет определения набора «однотонных штрихов», или однотонных форм, для каждого символа. Это сузило возможность ошибочного ввода, хотя запоминание рисунков штрихов действительно увеличило кривую обучения для пользователя. Было обнаружено, что распознавание рукописного ввода Graffiti нарушает патент, принадлежащий Xerox, и Palm заменила Graffiti лицензированной версией распознавания рукописного ввода CIC, которая, одновременно поддерживая формы unistroke, предшествовала патенту Xerox. Решение суда о нарушении было отменено при рассмотрении апелляции, а затем снова отменено при рассмотрении более поздней апелляции. Впоследствии участвующие стороны договорились об урегулировании этого и других патентов.
A Планшетный ПК - портативный компьютер с дигитайзером планшетом и стилусом, позволяющим пользователю писать текст от руки на экране устройства. Операционная система распознает почерк и преобразует его в текст. Windows Vista и Windows 7 включают функции персонализации, которые изучают шаблоны письма или словарный запас пользователя для английского, японского, китайского традиционного, китайского упрощенного и корейского языков. Эти функции включают «мастер персонализации», который запрашивает образцы почерка пользователя и использует их для переобучения системы для более точного распознавания. Эта система отличается от менее совершенной системы распознавания рукописного ввода, используемой в ОС Windows Mobile для КПК.
Хотя распознавание рукописного ввода - это форма ввода, к которой общественность привыкла, она не получила широкого распространения ни на настольных компьютерах, ни на портативных компьютерах. Все еще общепринято, что ввод с клавиатуры быстрее и надежнее. По состоянию на 2006 год многие КПК предлагают рукописный ввод, иногда даже естественный рукописный ввод, но точность все еще остается проблемой, и некоторые люди все еще находят даже простую экранную клавиатуру более эффективной.
Раннее программное обеспечение могло распознавать печатный почерк, где символы были разделены; однако курсивный почерк со связанными символами представлял парадокс Сейра, трудность, связанную с сегментацией символов. В 1962 году Шелия Губерман, тогда еще в Москве, написала первую прикладную программу распознавания образов. Коммерческие примеры поступили от таких компаний, как Communications Intelligence Corporation и IBM.
В начале 1990-х две компании - ParaGraph International и Lexicus - разработали системы, способные распознавать рукописный текст. ParaGraph был основан в России специалистом по информатике Степаном Пачиковым, а Lexicus был основан Ронджоном Нагом и Крисом Кортге, студентами Стэнфордского университета. Система ParaGraph CalliGrapher была развернута в системах Apple Newton, а система Lexicus Longhand стала коммерчески доступной для PenPoint и операционных систем Windows. Lexicus была приобретена Motorola в 1993 году и продолжила разработку систем распознавания китайского почерка и интеллектуального текста для Motorola. В 1997 году компания ParaGraph была приобретена SGI, а ее команда по распознаванию рукописного ввода сформировала подразделение PI, которое позже было приобретено у SGI компанией Vadem. Microsoft приобрела технологию распознавания рукописного ввода CalliGrapher и другие технологии цифрового рукописного ввода, разработанные PI у Vadem в 1999 году.
Wolfram Mathematica (8.0 или новее) также предоставляет функцию распознавания рукописного ввода или текста TextRecognize.
Распознавание рукописного текста имеет активную Сообщество ученых, изучающих его. Самыми крупными конференциями по распознаванию рукописного ввода являются Международная конференция по вопросам распознавания рукописного ввода (ICFHR), проводимая в четные годы, и Международная конференция по анализу и распознаванию документов (ICDAR), проводимая в нечетные годы. лет. Обе эти конференции одобрены IEEE и IAPR. Активные области исследований включают:
С 2009 года рекуррентные нейронные сети и глубокие нейронные сети прямого распространения были разработаны исследовательской группой Юргена Шмидхубера в Швейцарская лаборатория искусственного интеллекта IDSIA выиграла несколько международных конкурсов почерка. В частности, двунаправленная и долгосрочная краткосрочная память (LSTM) Alex Graves et al. выиграл три конкурса по распознаванию связного почерка на Международной конференции по анализу и распознаванию документов (ICDAR) 2009 г., не имея каких-либо предварительных знаний о трех разных языках (французский, арабский, персидский ), которые необходимо выучить. Недавние методы GPU на основе глубокого обучения для сетей с прямой связью, разработанные Дэном Чиресаном и его коллегами из IDSIA, победили в конкурсе ICDAR 2011 по распознаванию китайского почерка в автономном режиме; их нейронные сети также были первыми искусственными распознавателями образов, которые достигли конкурентоспособности человека в знаменитой задаче рукописных цифр MNIST Яна ЛеКуна и его коллег из Нью-Йоркского университета.
На Викискладе есть материалы, связанные с распознаванием рукописного ввода. |