Оценка частоты Гуда – Тьюринга - это статистический метод оценки вероятности встречи с объектом невиданного до сих пор вида при заданном набор прошлых наблюдений за объектами разных видов. При извлечении шаров из урны «объектами» будут шары, а «разновидностями» будут различные цвета шаров (конечное, но неизвестное число). После рисования красных шаров,
черные шары и
зеленые шары, мы бы спросили, какова вероятность нарисовать красный, черный или зеленый шар. или один из ранее невидимых цветов.
Хорошо– Оценка частоты Тьюринга была разработана Аланом Тьюрингом и его помощником И. J. Good как часть своих методов, используемых в Bletchley Park для взлома German шифров для машины Enigma во время Вторая мировая война. Тьюринг сначала смоделировал частоты как полиномиальное распределение, но обнаружил, что это неточно. Хорошо разработанные алгоритмы сглаживания для повышения точности оценки.
Открытие было признано значительным, когда оно было опубликовано Good в 1953 году, но расчеты были трудными, поэтому оно не использовалось так широко, как могло бы. Этот метод даже получил некоторую литературную известность благодаря роману Роберта Харриса Enigma.
. В 1990-е годы Джеффри Сэмпсон работал с Уильямом А. Гейлом из ATT для создания и реализации упрощенного и легкого в использовании варианта метода Гуда – Тьюринга, описанного ниже. Были предоставлены различные эвристические обоснования и простой комбинаторный вывод.
Обозначение
Например, количество видов, для которых наблюдалась только одна особь. Обратите внимание, что общее количество наблюдаемых объектов,
, можно найти из
Первым шагом в вычислении является оценка вероятности того, что будущий наблюдаемый индивидуум (или следующий наблюдаемый индивидуум) является представителем невидимого до сих пор вида. Эта оценка:
Следующим шагом является оценка вероятности того, что следующая наблюдаемая особь принадлежит к виду, который был замечен раз. Для одного вида эта оценка составляет:
Чтобы оценить вероятность того, что следующий наблюдаемый особь принадлежит к любому виду из этой группы (т. е. группа видов, виденных раз), можно использовать следующую формулу:
Здесь обозначение означает сглаженное или скорректированное значение частоты, показанное в скобках (см. Также эмпирический метод Байеса ). Обзор того, как выполнить это сглаживание, приведен ниже.
Мы хотели бы построить график зависимости от
, но это проблематично, потому что для больших
многие
будут быть нулевым. Вместо этого пересмотренная величина,
, отображается в сравнении с
, где Z r определяется как
и где q, r и t - последовательные индексы, имеющие ненулевое значение. Когда r равно 1, возьмите q равным 0. Когда r - последняя ненулевая частота, возьмите
как
.
Предположение оценки Гуда – Тьюринга состоит в том, что количество встречаемости для каждого вида следует биномиальному распределению.
A простая линейная регрессия затем подгоняется к графику log – log. Для небольших значений разумно установить
(то есть сглаживание не выполняется), а для больших значений r значения
считываются с линии регрессии. Можно использовать автоматическую процедуру (не описанную здесь), чтобы указать, в какой момент должен происходить переход от отсутствия сглаживания к линейному сглаживанию. Код метода доступен в открытом доступе.
Множество разных выводов приведенной выше формулы для были даны.
Один из простейших способов мотивировать формулу - это предположить, что следующий элемент будет вести себя так же, как предыдущий. Общая идея оценщика состоит в том, что в настоящее время мы видим невидимые предметы с определенной частотой, предметы, которые видели один раз с определенной частотой, предметы, которые видели дважды с определенной частотой, и так далее. Наша цель - оценить, насколько вероятна каждая из этих категорий, для следующего пункта, который мы увидим. Другими словами, мы хотим знать текущую скорость, с которой элементы, которые дважды просмотрели, становятся элементами, которые были просмотрены трижды, и так далее. Поскольку мы ничего не предполагаем о лежащем в основе распределении вероятностей, поначалу это звучит немного загадочно. Но очень легко эмпирически вычислить эти вероятности для предыдущего предмета, который мы видели, даже если предположить, что мы точно не помним, какой это был предмет: возьмите все предметы, которые мы видели до сих пор (включая множественности) - последний предмет, который мы видели, был случайный из них, все одинаково вероятны. В частности, вероятность того, что мы увидели элемент в -й раз, - это просто шанс, что это был один из элементов, которые у нас есть теперь видно
раз, а именно
. Другими словами, наш шанс увидеть предмет, который видели раньше r раз, был
. Итак, теперь мы просто предполагаем, что этот шанс будет примерно таким же для следующего предмета, который мы увидим. Это сразу дает нам формулу выше для
, задав
. А для
, чтобы получить вероятность того, что конкретный из
элементов будет следующим один раз, нам нужно разделить эту вероятность (увидеть какой-то элемент, который видели r раз) между
возможностями для того, какой конкретный элемент может быть. Это дает нам формулу
. Конечно, ваши фактические данные, вероятно, будут немного зашумленными, поэтому вам нужно сначала сгладить значения, чтобы лучше оценить, насколько быстро растет количество категорий, и это дает формулу, показанную выше. Этот подход в том же духе, что и получение стандартной оценки Бернулли , просто спрашивая, каковы две вероятности e для предыдущего подбрасывания монеты (после скремблирования испытаний, которые мы видели до сих пор), учитывая только текущий результат, при этом ничего не предполагая о базовом распределении.