Проверка орфографии

редактировать

В программном обеспечении, проверка орфографии (или проверка орфографии ) - это программная функция , которая проверяет орфографические ошибки в тексте. Функции проверки орфографии часто встроены в программное обеспечение или службы, такие как текстовый процессор, почтовый клиент, электронный словарь или поисковая машина.

У Eye есть проверка орфографии,. Он пришел с моим Pea Sea.. Он сделал четыре отметки в моем обзоре. Мисс Стейкс, я могу завязать море... Eye ударь по набережной и набери жужжание. И вес четыре, это два говорят. Погодный глаз я пишу весло неправильно. Он говорит мне прямо вес... Глаз побежал, это стихотворение бросило его,. Твой берег очень рад два нет.. Его вес отполирован.. Моя шашка позволила мне шить... Шашка - благо,. Она замораживает тисовые пучки тимьяна.. Это помогает мне выровнять все этапы восстановления,. И помогает мне, когда глаза замораживаются... Каждая драка появляется на моем экране. Глаз скручен слишком много джоуля.. чекер поливает каждое слово. Правило орфографии с двумя контрольными суммами.

Первоначальная версия этого стихотворения была написана Джеррольдом Х. Заром в 1992 году. Неискушенный специалист по проверке орфографии не найдет в этом стихотворении недостатка или не найдет его вовсе, потому что он проверяет слова изолированно. Более сложная проверка орфографии будет использовать языковую модель для рассмотрения контекста, в котором встречается слово. Проверка орфографии Google Chrome в действии для приведенного выше стихотворения, слова «проверка» помечено как нераспознанное слово
Содержание
  • 1 Дизайн
  • 2 История
    • 2.1 Предварительная версия
    • 2.2 ПК
    • 2.3 Браузеры
    • 2.4 Специальности
  • 3 Функциональные возможности
  • 4 Заклинание -проверка неанглийских языков
  • 5 Контекстно-зависимая проверка орфографии
  • 6 См. также
  • 7 Ссылки
  • 8 Внешние ссылки
Дизайн

Базовая проверка орфографии выполняет следующие процессы:

  • Сканирует текст и извлекает содержащиеся в нем слова.
  • Затем сравнивает каждое слово с известным списком правильно написанных слов (т. е. словарем). Он может содержать просто список слов или дополнительную информацию, такую ​​как точки переноса или лексические и грамматические атрибуты.
  • Дополнительным шагом является зависящий от языка алгоритм для обработки морфологии. Даже для слегка изменяемого языка, такого как английский, проверка орфографии должна будет учитывать разные формы одного и того же слова, такие как множественное число, глагольные формы, сокращения и притяжательные формы.. Для многих других языков, таких как языки с агглютинацией и более сложным склонением и спряжением, эта часть процесса более сложна.

Неясно, может ли морфологический анализ, допускающий множество различных форм слова в зависимости от его грамматической роли, обеспечивает значительные преимущества для английского языка, хотя его преимущества для языков с высокой степенью синтетических, таких как немецкий, венгерский или турецкий, очевидны.

В качестве дополнения к этим компонентам пользовательский интерфейс программы позволит пользователям утверждать или отклонять замены и изменять работу программы.

Альтернативный тип проверки орфографии использует исключительно статистическую информацию, такую ​​как н-граммы, для распознавания ошибок вместо правильно написанных слов. Этот подход обычно требует больших усилий для получения достаточной статистической информации. Ключевые преимущества включают необходимость меньшего объема памяти во время выполнения и возможность исправлять ошибки в словах, которые не включены в словарь.

В некоторых случаях средства проверки орфографии используют фиксированный список орфографических ошибок и предложений для них. орфографические ошибки; этот менее гибкий подход часто используется в методах исправления на бумаге, таких как см. также статьи в энциклопедиях.

Алгоритмы кластеризации также использовались для проверки орфографии в сочетании с фонетической информацией.

История

Pre-PC

В 1961 году Les Earnest, возглавлявший исследования этой многообещающей технологии, считал необходимым включить первую программу проверки орфографии, которая обращалась к списку из 10 000 допустимых слов. Ральф Горин, аспирант Эрнеста в то время, создал первую настоящую программу проверки орфографии, написанную в виде прикладной программы (а не исследования) для общего английского текста: SPELL для DEC PDP-10 в Лаборатории искусственного интеллекта Стэнфордского университета в феврале. 1971. Горин написал ЗАКЛИНАНИЕ на языке ассемблера для более быстрых действий; он сделал первый корректор орфографии, выполнив поиск в списке слов на предмет правдоподобных правильных написаний, которые отличаются одной буквой или перестановками соседних букв, и представив их пользователю. Горин сделал SPELL общедоступным, как это было сделано с большинством программ SAIL (Стэнфордская лаборатория искусственного интеллекта), и вскоре он распространился по миру через новый ARPAnet, примерно за десять лет до того, как персональные компьютеры стали широко использоваться. SPELL, его алгоритмы и структуры данных вдохновили Unix-программу ispell.

Первые средства проверки орфографии были широко доступны на мэйнфреймах в конце 1970-х годов. Группа из шести лингвистов из Джорджтаунского университета разработала первую систему проверки орфографии для корпорации IBM.

Генри Кучера изобрел ее для машин VAX компании Digital Equipment Corp в 1981 году.

ПК

Первые средства проверки орфографии для персональных компьютеров появились в 1980 году, такие как WordCheck для систем Commodore, выпущенный в конце 1980 года к тому времени, когда в январе 1981 года была опубликована реклама. Такие разработчики, как Мария Мариани и Random House поспешно вывели OEM пакеты или продукты для конечных пользователей на быстро растущий рынок программного обеспечения. На ПК с предустановленной ОС эти средства проверки правописания были автономными программами, многие из которых могли запускаться в режиме TSR из пакетов текстовых редакторов на ПК с достаточным объемом памяти.

Однако рынок автономных пакетов просуществовал недолго, поскольку к середине 1980-х разработчики популярных пакетов текстовых редакторов, таких как WordStar и WordPerfect, включили заклинание чекеры в своих пакетах, в основном лицензированные вышеупомянутыми компаниями, которые быстро расширили поддержку с английского до многих европейских и в конечном итоге даже азиатских языков. Однако это потребовало повышения уровня сложности морфологических процедур программного обеспечения, особенно в отношении сильно- агглютинативных языков, таких как венгерский и финский. Хотя размер рынка текстовых редакторов в такой стране, как Исландия, возможно, не оправдал инвестиций во внедрение средства проверки орфографии, такие компании, как WordPerfect, тем не менее, стремились локализовать свое программное обеспечение для максимально возможного количества национальных рынков. своей глобальной маркетинговой стратегии.

Когда Apple Macintosh разработала «общесистемную проверку орфографии», так что «операционная система взяла на себя исправления орфографии», это было первым: «не нужно было поддерживать отдельную проверку орфографии для каждого» Программа Mac OS X для проверки орфографии включает практически все связанные приложения и приложения сторонних производителей.

VT Speller от Visual Tools, представленный в 1994 году, был «разработан для разработчиков приложений, поддерживающих Windows». Он поставлялся со словарем, но имел возможность создавать и использовать вторичные словари.

Браузеры

Firefox 2.0, веб-браузер, имеет поддержку проверки орфографии для пользователей - письменный контент, например, при редактировании Wikitext, записи на многих сайтах электронной почты, блогах и сайтах социальных сетей. Веб-браузеры Google Chrome, Konqueror и Opera, почтовый клиент Kmail и обмен мгновенными сообщениями клиент Pidgin также предлагает поддержку проверки орфографии, прозрачно используя ранее GNU Aspell и в настоящее время Hunspell в качестве своего механизма.

Специальности

Некоторые средства проверки орфографии имеют отдельную поддержку медицинских словарей, чтобы помочь предотвратить медицинские ошибки.

Функциональность

Первыми средствами проверки орфографии были "верификаторы". «корректоров». Они не предложили никаких предложений для неправильно написанных слов. Это было полезно для опечаток, но было не так полезно для логических или фонетических ошибок. Проблема, с которой столкнулись разработчики, заключалась в том, что трудно было предложить полезные предложения для слов с ошибками. Это требует преобразования слов в скелетную форму и применения алгоритмов сопоставления с образцом.

Может показаться логичным, что когда речь идет о словарях для проверки орфографии, «чем больше, тем лучше», чтобы правильные слова не помечались как неправильные. Однако на практике оптимальный размер для английского составляет около 90 000 статей. Если их больше, неправильно написанные слова могут быть пропущены, потому что они ошибочно приняты за другие. Например, лингвист может определить на основе лингвистики корпуса, что слово бат чаще является неправильным написанием слова ванна или летучая мышь, чем ссылкой на тайскую валюту. Следовательно, обычно было бы более полезно, если бы несколько людей, которые пишут о тайской валюте, были немного неудобны, чем если бы орфографические ошибки гораздо большего числа людей, которые обсуждают ванны, были упущены.

Снимок экрана Enchant, средства проверки орфографии AbiWord.

Первые средства проверки орфографии MS-DOS в основном использовались в режиме проверки из пакетов текстовых редакторов. После подготовки документа пользователь сканировал текст на предмет орфографических ошибок. Позже, однако, пакетная обработка была предложена в таких пакетах, как недолговечный CoAuthor Oracle и позволяла пользователю просматривать результаты после обработки документа и исправлять только те слова, которые были заведомо ошибочными. Когда памяти и вычислительной мощности стало больше, проверка орфографии выполнялась в фоновом режиме интерактивным способом, как это было в случае с программой Spellbound, созданной Sector Software, выпущенной в 1987 году, и Microsoft Word, начиная с Word 95.

В последние годы средства проверки орфографии становятся все более изощренными; некоторые теперь способны распознавать простые грамматические ошибки. Однако даже в лучшем случае они редко обнаруживают все ошибки в тексте (например, ошибки омофона ) и помечают неологизмы и иностранные слова как орфографические ошибки. Тем не менее, средства проверки орфографии можно рассматривать как тип средства письма на иностранном языке, на которое изучающие иностранный язык могут полагаться при обнаружении и исправлении орфографических ошибок на целевом языке.

Проверка орфографии неанглийские языки

Английский язык необычен тем, что большинство слов, используемых в формальном письме, имеют единственное написание, которое можно найти в типичном словаре, за исключением некоторых жаргонов и модифицированных слов. Во многих языках слова часто объединяются в новые комбинации слов. В немецком языке составные существительные часто образуются от других существующих существительных. В некоторых сценариях одно слово четко не отделяется от другого, поэтому требуются алгоритмы разделения слов. Каждый из них представляет собой уникальную проблему для средств проверки правописания, не владеющих английским языком.

Контекстно-зависимые средства проверки орфографии

Были проведены исследования по разработке алгоритмов, способных распознавать слово с ошибкой, даже если само слово присутствует в словаре, на основе контекста окружающих слов. Это не только позволяет уловить слова, подобные тем, что в стихотворении выше, но и смягчает пагубный эффект увеличения словарей, позволяя распознавать больше слов. Например, бат в том же абзаце, что и Thai или Thailand, не будет считаться неправильным написанием слова "ванна". Наиболее частым примером ошибок, обнаруживаемых такой системой, являются ошибки homophone, такие как жирные слова в следующем предложении:

Их приближается слишком море if itsreel .

Самым успешным алгоритмом на сегодняшний день является «Winnow -базированный алгоритм исправления орфографии» Эндрю Голдинга и Дэна Рота, опубликованный в 1999 г. способен распознавать около 96% контекстно-зависимых орфографических ошибок в дополнение к обычным орфографическим ошибкам, не относящимся к словам. Контекстно-зависимая проверка орфографии появилась в Microsoft Office 2007, а также появилась в ныне несуществующей Google Wave.

грамматических проверках, которые пытаются исправить проблемы с грамматикой помимо орфографических ошибок, включая неправильный подбор слов.

См. Также
На Викискладе есть материалы, связанные с проверкой орфографии.
В Викицитатнике есть цитаты, связанные с: проверкой орфографии
Ссылки
  1. ^США Патент 6618697, Способ исправления орфографических и грамматических ошибок на основе правил
  2. ^de Amorim, R.C.; Зампиери, М. (2013) Эффективные методы проверки орфографии с использованием алгоритмов кластеризации. Архивировано 17 августа 2017 г. в Wayback Machine Труды последних достижений в области естественного языка Обработка (РАНЛП2013). Гиссар, Болгария. п. 172-178.
  3. ^Zampieri, M.; де Аморим, Р. (2014) Между звуком и орфографией: сочетание фонетики и алгоритмов кластеризации для улучшения восстановления целевого слова. Труды 9-й Международной конференции по обработке естественного языка (PolTAL). Конспект лекций по информатике (LNCS). Springer. п. 438-449.
  4. ^Эрнест, Лес. «Первые три средства проверки правописания» (PDF). Стэндфордский Университет. Архивировано из оригинального (PDF) 22 октября 2012 г. Дата обращения 10 октября 2011 г.
  5. ^Петерсон, Джеймс (декабрь 1980 г.). Компьютерные программы для обнаружения и исправления орфографических ошибок (PDF). Проверено 18 февраля 2011 г.
  6. ^Эрнест, Лес. Видимое наследие для Y3K (PDF). Архивировано из оригинального (PDF) 20.07.2011. Проверено 18 февраля 2011 г.
  7. ^ «Преподаватели и сотрудники Джорджтаунского университета: Центр языка, образования и развития». Архивировано с оригинального 05.02.2009. Проверено 18 декабря 2008 г., цитата: «Мария Мариани... была одной из шести лингвистов из Джорджтаунского университета, которые разработали первую систему проверки орфографии для корпорации IBM».
  8. ^Харви, Шарлотта Брюс (май – июнь 2010 г.). «Обучение компьютеров правописанию (некролог Генри Кучера)». Журнал «Браун выпускников». п. 79. CS1 maint: формат даты (ссылка )
  9. ^Реклама (январь 1981 г.). "Micro Computer Industries, Ltd" (PDF). Журнал Compute!, Выпуск 8, Vol. 3, No. 1. стр. 119.
  10. ^Реклама (ноябрь 1982 г.). «The Spelling Bee Is Over». PC Magazine. Стр. 165. Проверено 21 октября 2013 г..
  11. ^Дэвид Пог (2009). Mac OS X Snow Leopard: Отсутствующее руководство.
  12. ^Дэвид Пог (2015). Переключение на Mac: Отсутствующее руководство.
  13. ^«VisualTools VT-Speller». Computerworld. 21 февраля 1994 г. стр. 68.
  14. ^«Обзор 27 сентября 1993 г.». VT-SPELLER
  15. ^Питер Г. Эйткен (8 ноября 1994 г.) ». Проверка орфографии для ваших приложений ». Журнал для ПК. Стр. 299.
  16. ^« Проверять мою электронную почту на наличие орфографических ошибок ».
  17. ^« Медицинская проверка орфографии для Firefox и Thunderbird ». E- MedTools. 2017. Проверено 29 августа 2018 г.
  18. ^Кватамер, доктор Тобиас (2016). «Немецкий медицинский словарь слов». Доктор Тобиас Кватамер. Проверено 29 августа 2018 г.
  19. ^Фридман, Ричард А.; Д, М (2003). «СЛУЧАИ; Ing and Penmanship Count? В медицине вы делаете ставку ». The New York Times. Проверено 29 августа 2018 г.
  20. ^Бэнкс, Т. (2008). Трудности изучения иностранного языка и стратегии преподавания. (Стр. 29). Магистерская работа, Доминиканский университет Калифорнии. Проверено 19 марта 2012 г.
  21. ^Голдинг, Эндрю Р.; Рот, Дэн (1999). «Журнальная статья». Машинное обучение. SpringerLink. 34 : 107–130. doi : 10.1023 / A: 1007545901558.
  22. ^Уолт Моссберг (4 января 2007 г.). «Обзор». Wall Street Journal. Проверено 24 сентября 2010 г.
  23. ^«Операционная система Google». Googlesystem.blogspot.com. Проверено 25 сентября 2010 г. «Контекстно-зависимая проверка орфографии Google». 29 мая 2009 г. Получено 25 сентября 2010 г.
Внешние ссылки
Последняя правка сделана 2021-06-09 02:24:23
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте