Шумный текст

редактировать

Шумный текст - это текст с различиями между поверхностью форма кодированного представления текста и предполагаемого, правильного или исходного текста. шум может быть вызван типографскими ошибками или разговорным языком, который всегда присутствует в естественном языке и обычно снижает качество данных таким способом, который делает текст менее доступным для автоматизированной обработки компьютерами, включая обработку естественного языка. Шум также мог быть внесен в процессе извлечения (например, транскрипция или OCR ) с носителей, отличных от исходных электронных текстов.

Использование языка в компьютерных дискурсах, как и чаты, электронные письма и SMS тексты, существенно отличается от стандартной формы языка. Стремление к более короткой длине сообщения, способствующее более быстрому набору, и потребность в семантической ясности формируют структуру этого текста, используемого в таких дискурсах.

По оценкам различных бизнес-аналитиков, неструктурированные данные составляют около 80% всех корпоративных данных. Большая часть этих данных включает стенограммы чатов, электронные письма и другие неформальные и полуофициальные внутренние и внешние коммуникации. Обычно такой текст предназначен для употребления людьми, но, учитывая объем данных, ручная обработка и оценка этих ресурсов практически невозможны. Это вызывает необходимость в надежных методах интеллектуального анализа текста.

Методы уменьшения шума

Использование средств проверки орфографии и средств проверки грамматики может уменьшить количество шума в печатном тексте. Многие текстовые редакторы включают это в инструмент редактирования. В Интернете поиск Google включает систему подсказок поисковых запросов, которая помогает пользователям делать ошибки в своих запросах.

См. Также
Ссылки
Последняя правка сделана 2021-05-31 11:47:00
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте