G-тест

редактировать

В статистика, G-тесты имеют значение отношение правдоподобия или максимального правдоподобия статистической значимости, которые все чаще используются в ситуациях, когда тесты хи-квадрат были ранее рекомендованы.

Общие формула для G имеет вид

G = 2 ∑ i O i ⋅ ln ⁡ (O i E i), {\ displaystyle G = 2 \ sum _ {i} {O_ {i} \ cdot \ ln \ left ({\ frac {O_ {i}} {E_ {i}}} \ right)},}G = 2 \ sum _ {{i}} {O _ {{i}} \ cdot \ ln \ left ({\ frac {O_ {i}} {E_ {i}}}) \ right)},

где O i ≥ 0 {\ textstyle O_ {i} \ geq 0}{\ textstyle O_ {i} \ geq 0} - это наблюдаемое количество в ячейке, E i>0 {\ textstyle E_ {i}>0}{\textstyle E_{i}>0} это ожидаемое количество согласно нулевой гипотезе, ln {\ textstyle \ ln}{\ textstyle \ ln } обозначает натуральный логарифм, и сумма берется по всем непустым ячейкам. Кроме того, общее наблюдаемое количество должно быть равно общему ex ожидаемое количество:

∑ я О я = ∑ я Е я = N {\ displaystyle \ sum _ {i} O_ {i} = \ sum _ {i} E_ {i} = N}{\ displaystyle \ sum _ {i} O_ {я} = \ сумма _ {я} E_ {я} = N} где N {\ textstyle N}{\ textstyle N} - общее количество наблюдений.

G-тесты рекомендуются, по крайней мере, с 1981 года издания Biometry, учебника статистики, подготовленного Робертом Р. Сокалом и Ф. Джеймс Ролф.

Содержание
  • 1 Вывод
  • 2 Распространение и использование
  • 3 Отношение к критерию хи-квадрат
  • 4 Отношение к расхождению Кульбака – Лейблера
  • 5 Отношение ко взаимной информации
  • 6 Приложение
  • 7 Статистическое программное обеспечение
  • 8 Ссылки
  • 9 Внешние ссылки
Вывод

Мы можем получить значение G-теста из теста отношения логарифма правдоподобия где базовой моделью является полиномиальная модель.

Предположим, у нас есть образец x = (x 1,…, xm) {\ textstyle x = (x_ {1}, \ ldots, x_ {m})}{\ textstyle x = (x_ {1}, \ ldots, x_ {m})} где каждый xi {\ textstyle x_ {i}}{\ textstyle x_ {i}} - это количество раз, когда наблюдался объект типа i {\ textstyle i}{\ textstyle i} . Кроме того, пусть n = ∑ i = 1 m x i {\ textstyle n = \ sum _ {i = 1} ^ {m} x_ {i}}{\ textstyle n = \ sum _ {i = 1} ^ {m} x_ {i}} будет общим количеством наблюдаемых объектов. Если мы предположим, что основная модель является полиномиальной, то статистика теста определяется как

ln ⁡ (L (θ ~ | x) L (θ ^ | x)) = ln ⁡ (∏ i = 1 m θ ~ ixi ∏ я знак равно 1 м θ ^ ixi) {\ displaystyle \ ln \ left ({\ гидроразрыва {L ({\ тильда {\ theta}} | x)} {L ({\ hat {\ theta}} | x)} } \ right) = \ ln \ left ({\ frac {\ prod _ {i = 1} ^ {m} {\ tilde {\ theta}} _ {i} ^ {x_ {i}}} {\ prod _ {i = 1} ^ {m} {\ hat {\ theta}} _ {i} ^ {x_ {i}}}} \ right)}{\ displaystyle \ ln \ left ({\ frac {L ({\ tilde {\ theta}} | x)} {L ({ \ hat {\ theta}} | x)}} \ right) = \ ln \ left ({\ frac {\ prod _ {i = 1} ^ {m} {\ tilde {\ theta}} _ {i} ^ {x_ {i}}} {\ prod _ {i = 1} ^ {m} {\ hat {\ theta}} _ {i} ^ {x_ {i}}}} \ right)} где θ ~ {\ textstyle {\ tilde { \ theta}}}{\ textstyle {\ тильда {\ тета }}} - нулевая гипотеза, а θ ^ {\ displaystyle {\ hat {\ theta}}}\ hat {\ theta} - оценка максимального правдоподобия (MLE) параметров с учетом данных. Напомним, что для полиномиальной модели MLE θ ^ i {\ textstyle {\ hat {\ theta}} _ {i}}{\ textstyle {\ hat {\ theta}} _ {i}} с учетом некоторых данных определяется как θ ^ i = xin {\ displaystyle {\ hat {\ theta}} _ {i} = {\ frac {x_ {i}} {n}}}{\ displaystyle {\ hat {\ theta}} _ {i} = {\ frac {x_ {i}} {n}}} Кроме того, мы можем представить каждый параметр нулевой гипотезы θ ~ i {\ displaystyle {\ tilde {\ theta}} _ {i}}{\ displaystyle {\ tilde {\ theta}} _ {i}} asθ ~ i = ein {\ displaystyle {\ tilde {\ theta}} _ {i} = {\ frac {e_ {i}} { n}}}{\ displaystyle {\ tilde {\ theta}} _ {i} = { \ frac {e_ {i}} {n}}} Таким образом, заменяя представления θ ~ {\ textstyle {\ tilde {\ theta}}}{\ textstyle {\ тильда {\ тета }}} и θ ^ {\ textstyle {\ hat { \ theta}}}{\ textstyle {\ hat {\ theta}}} в логарифмическом отношении правдоподобия уравнение упрощается до ln ⁡ (L (θ ~ | x) L (θ ^ | x)) = ln ⁡ ∏ i = 1 м (eixi) xi знак равно ∑ я знак равно 1 mxi ln ⁡ (eixi) {\ displaystyle {\ begin {align} \ ln \ left ({\ frac {L ({\ tilde {\ theta}} | x)} {L ({\ hat {\ theta}} | x)}} \ right) = \ ln \ prod _ {i = 1} ^ {m} \ left ({\ frac {e_ {i}} {x_ {i}) }} \ right) ^ {x_ {i}} \\ = \ sum _ {i = 1} ^ {m} x_ {i} \ ln \ left ({\ frac {e_ {i}} {x_ {i }}} \ right) \\\ end {align}}}{\ displaystyle {\ begin {align} \ ln \ left ({\ frac {L ({ \ tilde {\ theta}} | x)} {L ({\ hat {\ theta}} | x)}} \ right) = \ ln \ prod _ {i = 1} ^ {m} \ left ({ \ frac {e_ {i}} {x_ {i}}} \ right) ^ {x_ {i}} \\ = \ sum _ {i = 1} ^ {m} x_ {i} \ ln \ left ( {\ frac {e_ {i}} {x_ {i}}} \ right) \\\ конец {выровнено}}} Изменить метку переменных ei {\ textstyle e_ {i}}{\ textstyle e_ {i}} с E i {\ textstyle E_ {i}}{\ textstyle E_ {i}} и xi {\ textstyle x_ {i}}{\ textstyle x_ {i}} с O i {\ textstyle O_ {i}}{\ textstyle O_ {i}} . Наконец, умножьте на коэффициент - 2 {\ textstyle -2}{\ textstyle -2} (используется для придания формуле G-критерия асимптотической эквивалентности формулы критерия хи-квадрат Пирсона), чтобы достичь формы

G = - 2 ∑ я знак равно 1 м О я пер ⁡ (Е я О я) = 2 ∑ я = 1 м О я пер ⁡ (О я Е я) {\ Displaystyle {\ begin {alignat} {2} G = \; - 2 \ sum _ {i = 1} ^ {m} O_ {i} \ ln \ left ({\ frac {E_ {i}} {O_ {i}}) } \ right) \\ = 2 \ sum _ {i = 1} ^ {m} O_ {i} \ ln \ left ({\ frac {O_ {i}} {E_ {i}}} \ right) \ end {alignat}}}{\ Displaystyle {\ b egin {alignat} {2} G = \; - 2 \ sum _ {i = 1} ^ {m} O_ {i} \ ln \ left ({\ frac {E_ {i}} {O_ {i}}) } \ right) \\ = 2 \ sum _ {i = 1} ^ {m} O_ {i} \ ln \ left ({\ frac {O_ {i}} {E_ {i}}} \ right) \ конец {alignat}}}

Распределение и использование

Учитывая нулевую гипотезу о том, что наблюдаемые частоты являются результатом случайной выборки из распределения с заданными ожидаемыми частотами, распределение G равно приблизительно распределение хи-квадрат с тем же числом степеней свободы, что и в соответствующем тесте хи-квадрат.

Для очень маленьких выборок полиномиальный тест на предмет согласия и точный тест Фишера для таблиц сопряженности или даже выбор байесовской гипотезы предпочтительнее G-теста.. McDonald рекомендует всегда использовать точный тест (точный критерий согласия, точный тест Фишера ), если общий размер выборки меньше 1000.

Нет ничего волшебного в размере выборки в 1000, это просто красивое круглое число, которое находится в диапазоне, в котором точный тест, тест хи-квадрат и G-тест дадут почти идентичные значения P. Электронные таблицы, калькуляторы веб-страниц и SAS не должны иметь проблем с выполнением точного теста на выборке размером 1000.

— Джон Х. Макдональд, Справочник по биологической статистике
Отношение к критерию хи-квадрат

Обычно используемые критерии хи-квадрат для согласия с распределением и независимости в таблицах сопряженности на самом деле являются приближениями логарифмического отношения правдоподобия, на которых основаны G-тесты. Общая формула для статистики критерия хи-квадрат Пирсона:

χ 2 = i (O i - E i) 2 E i. {\ displaystyle \ chi ^ {2} = \ sum _ {i} {\ frac {\ left (O_ {i} -E_ {i} \ right) ^ {2}} {E_ {i}}}.}\ chi ^ {2} = \ sum _ {{i}} {{\ frac {\ left (O_ {i} -E_ {i } \ right) ^ {2}} {E_ {i}}}}.

Приближение G к квадрату хи получается с помощью разложения Тейлора второго порядка натурального логарифма около 1. С появлением электронных калькуляторов и персональных компьютеров это больше не проблема. Вывод о том, как критерий хи-квадрат связан с G-тестом и отношениями правдоподобия, в том числе с полным байесовским решением, представлен в Hoey (2012).

Для выборок разумного размера G- тест и тест хи-квадрат приводят к одним и тем же выводам. Однако приближение к теоретическому распределению хи-квадрат для G-критерия лучше, чем для критерия хи-квадрат Пирсона. В случаях, когда O i>2 ⋅ E i {\ displaystyle O_ {i}>2 \ cdot E_ {i}}O_{i}>2 \ cdot E_ {i} для некоторых ячеек G-тест всегда лучше, чем критерий хи-квадрат..

Для проверки согласия G-тест бесконечно эффективен, чем критерий хи-квадрат в смысле Бахадура, но оба теста одинаково эффективны в смысле: Питмана или в смысле Ходжеса и Леманна.

Связь с расхождением Кульбака – Лейблера

Статистика G-критерия пропорциональна расхождению Кульбака – Лейблера теоретической распределение из эмпирического распределения:

G = 2 ∑ i O i ⋅ ln ⁡ (O i E i) = 2 N ∑ ioi ⋅ ln ⁡ (oiei) = 2 NDKL (o ‖ e), {\ displaystyle {\ begin {align} G = 2 \ sum _ {i} {O_ {i} \ cdot \ ln \ left ({\ frac {O_ {i}} {E_ {i}}} \ right)} = 2N \ sum _ {i} {o_ {i} \ cdot \ ln \ left ({\ frac {o_ {i}} {e_ {i}}} \ rig ht)} \\ = 2N \, D _ {\ mathrm {KL}} (o \ | e), \ end {align}}}{\ displaystyle {\ begin {align} G = 2 \ sum _ {i} {O_ {i} \ cdot \ ln \ left ({\ frac { O_ {i}} {E_ {i}}} \ right)} = 2N \ sum _ {i} {o_ {i} \ cdot \ ln \ left ({\ frac {o_ {i}} {e_ {i}) }} \ right)} \\ = 2N \, D _ {\ mathrm {KL}} (о \ | e), \ end {align}}}

где N - общее количество наблюдений, а oi {\ displaystyle o_ {i}}o_i и ei {\ displaystyle e_ {i}}e_ {i} - эмпирические и теоретические частоты соответственно.

Связь со взаимной информацией

Для анализа таблиц непредвиденных обстоятельств значение G также может быть выражено через взаимную информацию.

Пусть

N = ∑ ij O ij {\ displaystyle N = \ sum _ {ij} {O_ {ij}} \;}N = \ sum _ {{ij}} {O _ {{ij}}} \; , π ij = O ij N {\ displaystyle \; \ pi _ {ij} = {\ frac {O_ {ij}} {N}} \;}\; \ pi _ {{ij}} = {\ frac {O _ {{ij}}} {N}} \; , π i. Знак равно ∑ J O ij N {\ displaystyle \; \ pi _ {i.} = {\ Frac {\ sum _ {j} O_ {ij}} {N}} \;}\; \ pi _ {{i.}} = {\ Frac {\ sum _ {j} O _ {{ij}}} {N} } \; и π. j = ∑ я O ij N {\ displaystyle \; \ pi _ {. j} = {\ frac {\ sum _ {i} O_ {ij}} {N}} \;}\; \ pi _ {{. j}} = {\ frac {\ sum _ {i} O _ {{ij}}} {N}} \; .

Тогда G можно выразить в нескольких альтернативных формах:

G = 2 ⋅ N ⋅ ∑ ij π ij (ln ⁡ (π ij) - ln ⁡ (π i.) - ln ⁡ (π. j)), {\ displaystyle G = 2 \ cdot N \ cdot \ sum _ {ij} {\ pi _ {ij} \ left (\ ln (\ pi _ {ij}) - \ ln (\ pi _ {i.}) - \ ln (\ pi _ {.j}) \ right)},}G = 2 \ cdot N \ cdot \ sum _ {{ij}} {\ pi _ {{ij}} \ left (\ ln (\ pi _ {{ij}}) - \ ln (\ pi _ {{i.}}) - \ ln (\ pi _ {{. j}}) \ right)},
G = 2 ⋅ N ⋅ [H (r) + H (c) - H (r, c)], {\ displaystyle G = 2 \ cdot N \ cdot \ слева [ЧАС (г) + ЧАС (с) -Н (г, с) \ справа],}G = 2 \ cdot N \ cdot \ left [H (r) + H (c) -H (r, c) \ right],
G = 2 ⋅ N ⋅ MI ⁡ (г, с), {\ Displaystyle G = 2 \ cdot N \ cdot \ operatorname {MI} (r, c) \,,}{\ displaystyle G = 2 \ cdot N \ cdot \ operatorname { MI} (г, с) \,,}

где энтропия дискретной случайной величины X {\ displaystyle X \,}X \, равна определяется как

H (X) = - ∑ x ∈ Supp (X) p (x) журнал ⁡ p (x), {\ displaystyle H (X) = - {\ sum _ {x \ in {\ text { Supp}} (X)} p (x) \ log p (x)} \,,}H (X) = - {\ sum _ {{х \ в {\ текст {Supp}} (X)}} p (x) \ log p (x)} \,,

и где

MI ⁡ (r, c) = H (r) + H (c) - H ( r, c) {\ displaystyle \ operatorname {MI} (r, c) = H (r) + H (c) -H (r, c) \,}{\ displaystyle \ operatorname {MI} (r, c) = H (r) + H (c) -H (r, c) \,}

- взаимная информация между вектор-строкой r и вектор-столбцом co f таблица непредвиденных обстоятельств.

Также можно показать, что обратное взвешивание частоты документа, обычно используемое для поиска текста, является приближением G, применимым, когда сумма строк для запроса намного меньше, чем сумма строк для остальной части корпуса. Точно так же результат байесовского вывода, примененный к выбору одного полиномиального распределения для всех строк таблицы сопряженности вместе взятых, по сравнению с более общей альтернативой отдельного полиномиального распределения на строку дает результаты, очень похожие на статистику G.

Приложение
Статистическое программное обеспечение
  • В R быстрые реализации можно найти в пакетах AMR и Rfast. Для пакета AMR используется команда g.test, которая работает точно так же, как chisq.testиз базы R. R также имеет функцию likelihood.test в Пакет Deducer. Примечание: G-тест Фишера в GeneCycle Package языка программирования R (fisher.g.test) не реализует G-тест, описанный в этой статье, а точнее точный тест Фишера для гауссовского белого шума во временном ряду.
  • В SAS можно провести G-тест, применив / chisqпосле параметра proc freq.
  • В Stata можно провести G-тест, применив параметр lrпосле таблицыcommand.
  • В Java используйте org.apache.commons.math3.stat.inference.GTest.
Ссылки
  1. ^McDonald, JH (2014). «G – критерий соответствия». Справочник по биологической статистике (третье изд.). Балтимор, Мэриленд: Издательство Sparky House. С. 53–58.
  2. ^Сокал Р. Р.; Рольф, Ф. Дж. (1981). Биометрия: принципы и практика статистики в биологических исследованиях (Второе изд.). Нью-Йорк: Фриман. ISBN 978-0-7167-2411-7.
  3. ^McDonald, J.H. (2014). «Маленькие числа в хи-квадрат и G-тесте». Справочник по биологической статистике (третье изд.). Балтимор, Мэриленд: Издательство Sparky House. С. 86–89.
  4. ^Хои, Дж. (2012). «Двусторонний критерий отношения правдоподобия (G) и сравнение с двусторонним критерием хи-квадрат». arXiv : 1206.4881 [stat.ME ].
  5. ^Harremoës, P.; Тушнади, Г. (2012). «Информационное расхождение больше распределено по критериям хи-квадрат, чем статистика по хи-квадрат». Труды ИСИТ 2012. С. 538–543. arXiv : 1202.1125. Bibcode : 2012arXiv1202.1125H.
  6. ^Куайн, М.П.; Робинсон, Дж. (1985). «Эффективность критериев согласия по критерию хи-квадрат и отношения правдоподобия». Анналы статистики. 13(2): 727–742. doi : 10.1214 / aos / 1176349550.
  7. ^Harremoës, P.; Вайда, И. (2008). «О Бахадур-эффективном тестировании однородности с помощью энтропии». Транзакции IEEE по теории информации. 54: 321–331. CiteSeerX 10.1.1.226.8051. doi : 10.1109 / tit.2007.911155.
  8. ^Даннинг, Тед (1993). "Точные методы статистики неожиданностей и совпадений Архивировано 2011-12-15 на Wayback Machine ", Computational Linguistics, Volume 19, выпуск 1 (март 1993 г.).
  9. ^Фишер, Р. А. (1929). «Тесты значимости в гармоническом анализе». Труды Лондонского королевского общества A. 125 (796): 54–59. Bibcode : 1929RSPSA.125... 54F. doi : 10.1098 / rspa.1929.0151.
  10. ^G-тест независимости, G-тест согласия в Справочнике по биологической статистике, Университет Делавэра. (стр. 46–51, 64–69 в: McDonald, JH (2009) Handbook of Biological Statistics (2 ed.). Sparky House Publishing, Baltimore, Maryland.)
  11. ^org.apache.commons.math3.stat. inference.GTest
Внешние ссылки
Последняя правка сделана 2021-05-21 08:11:12
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте