В лингвистике, статистическая семантика применяет методы статистики к проблеме определения значения слова или фразы, в идеале посредством обучения без учителя, с степенью точности, по крайней мере, достаточной для поиска информации.
Термин статистическая семантика впервые был использован Уорреном Уивером в своей известной статье на машинный перевод. Он утверждал, что устранение неоднозначности значений слов для машинного перевода должно основываться на частоте совпадения контекстных слов рядом с заданным целевым словом. Основополагающее предположение о том, что «слово характеризует компания, которую оно составляет», было поддержано J.R. Ферт. Это предположение известно в лингвистике как гипотеза распределения. Эмиль Делавенэ определил статистическую семантику как «статистическое исследование значений слов, их частоты и порядка повторения». "Furnas et al. 1983" часто упоминается как основополагающий вклад в статистическую семантику. Первым успехом в этой области стал скрытый семантический анализ.
Исследования статистической семантики привели к появлению большого количества алгоритмов, которые используют гипотезу распределения для обнаружения многих аспектов семантики, путем применения статистических методов к большим корпусам :
Статистическая семантика фокусируется на значениях общих слов и отношения между общими словами, в отличие от интеллектуального анализа текста, который имеет тенденцию фокусироваться на целых документах, коллекциях документов или именованных энт страны (имена людей, места и организации). Статистическая семантика - это подполе вычислительной семантики, которое, в свою очередь, является подполем вычислительной лингвистики и обработки естественного языка.
Многие из приложений статистической семантики (перечисленные выше) также можно адресовать с помощью алгоритмов на основе лексикона вместо алгоритмов статистической семантики на основе корпуса. Одним из преимуществ корпусных алгоритмов является то, что они обычно не так трудоемки, как алгоритмы, основанные на лексике. Еще одно преимущество состоит в том, что их обычно легче адаптировать к новым языкам, чем алгоритмы на основе лексики. Однако наилучшая производительность в приложении часто достигается за счет сочетания двух подходов.