Тест Левена

редактировать

В статистике, тест Левенный в этом выведенный статистик используется для оценки равенства дисперсий для переменного, рассчитанных для двух или более групп. Некоторые общие статистические процедуры предполагают, что дисперсия совокупностей, из которых взяты разные выборки, равны. Тест Левена оценивает это предположение. Он проверяет нулевую гипотезу о том, что дисперсии совокупности равны (так называемая однородность дисперсии или гомоскедастичность ). Если результирующее p-значение критерия Левена меньше некоторого уровня значимости (обычно 0,05), полученные различия в дисперсиях выборки вряд ли возникли на основе случайной выборки из генеральной совокупности с равными дисперсиями. Таким образом, нулевая гипотеза о равных дисперсиях отклоняется и делается вывод, что существует разница между дисперсиями в генеральной совокупности.

Некоторые из процедур, обычно предполагающих гомоскедастичность, для которых можно использовать тесты Левена, включают дисперсионный анализ и t-тесты.

Перед сравнением средних часто используется проба Левена. Когда тест Левена показывает значимость, следует переключиться на более общие тесты, свободные от предположений о гомоскедастичности (иногда даже непараметрических тестов). Уэлч т -test или неравных дисперсии т -test является более консервативным тестом.

Тест Левена также может использоваться в качестве основного теста для ответа на отдельный вопрос о том, имеют ли две подвыборки в данной совокупности одинаковые или разные дисперсии.

СОДЕРЖАНИЕ

1 Определение
2 Сравнение с тестом Брауна – Форсайта
3 См. Также
4 ссылки
5 Внешние ссылки

Определение

Тест Левена эквивалентен одностороннему межгрупповому дисперсионному анализу (ANOVA) с зависимой переменной, являющейся абсолютным значением разницы между оценкой и средним значением группы, к которой он принадлежит (показано ниже как). Статистика теста эквивалентна статистике, которая может быть получена с помощью такого ANOVA, и определяется следующим образом: ${\ displaystyle Z_ {ij} = | Y_ {ij} - {\ bar {Y}} _ {i \ cdot} |}$ ${\ displaystyle Z_ {ij} = | Y_ {ij} - {\ bar {Y}} _ {i \ cdot} |}$ ${\ displaystyle W}$ $W$ ${\ displaystyle F}$ $F$

{\ displaystyle W = {\ frac {(Nk)} {(k-1)}} \ cdot {\ frac {\ sum _ {i = 1} ^ {k} N_ {i} (Z_ {i \ cdot} -Z _ {\ cdot \ cdot}) ^ {2}} {\ sum _ {i = 1} ^ {k} \ sum _ {j = 1} ^ {N_ {i}} (Z_ {ij} -Z_ { i \ cdot}) ^ {2}}},}

{\ displaystyle W = {\ frac {(Nk)} {(k-1)}} \ cdot {\ frac {\ sum _ {i = 1} ^ {k} N_ {i} (Z_ {i \ cdot} -Z _ {\ cdot \ cdot}) ^ {2}} {\ sum _ {i = 1} ^ {k} \ sum _ {j = 1} ^ {N_ {i}} (Z_ {ij} -Z_ { i \ cdot}) ^ {2}}},}

куда

${\ displaystyle k}$ $k$ количество различных групп, к которым относятся выбранные случаи,
${\ displaystyle N_ {i}}$ $N_ {i}$ - количество дел в й группе, ${\ displaystyle i}$ $я$
${\ displaystyle N}$ $N$ общее количество случаев во всех группах,
${\ displaystyle Y_ {ij}}$ $Д _ {{ij}}$ - значение измеряемой переменной для -го случая из -й группы, ${\ displaystyle j}$ $j$ ${\ displaystyle i}$ $я$
${\ displaystyle Z_ {ij} = {\ begin {cases} | Y_ {ij} - {\ bar {Y}} _ {i \ cdot} |, amp; {\ bar {Y}} _ {i \ cdot} { \ text {является средним для}} i {\ text {-ой группы}}, \\ | Y_ {ij} - {\ tilde {Y}} _ {i \ cdot} |, amp; {\ tilde {Y }} _ {i \ cdot} {\ text {- это медиана}} i {\ text {-ой группы}}. \ end {cases}}}$ ${\ displaystyle Z_ {ij} = {\ begin {cases} | Y_ {ij} - {\ bar {Y}} _ {i \ cdot} |, amp; {\ bar {Y}} _ {i \ cdot} { \ text {является средним для}} i {\ text {-ой группы}}, \\ | Y_ {ij} - {\ tilde {Y}} _ {i \ cdot} |, amp; {\ tilde {Y }} _ {i \ cdot} {\ text {- это медиана}} i {\ text {-ой группы}}. \ end {cases}}}$

(Используются оба определения, хотя второе, строго говоря, является тестом Брауна – Форсайта - см. Ниже для сравнения.)

${\ displaystyle Z_ {я \ cdot} = {\ frac {1} {N_ {i}}} \ sum _ {j = 1} ^ {N_ {i}} Z_ {ij}}$ $Z _ {{i \ cdot}} = {\ frac {1} {N_ {i}}} \ sum _ {{j = 1}} ^ {{N_ {i}}} Z _ {{ij}}$ среднее значение для группы, ${\ displaystyle Z_ {ij}}$ $Z_ {ij}$ ${\ displaystyle i}$ $я$
${\ displaystyle Z _ {\ cdot \ cdot} = {\ frac {1} {N}} \ sum _ {i = 1} ^ {k} \ sum _ {j = 1} ^ {N_ {i}} Z_ { ij}}$ ${\ displaystyle Z _ {\ cdot \ cdot} = {\ frac {1} {N}} \ sum _ {i = 1} ^ {k} \ sum _ {j = 1} ^ {N_ {i}} Z_ { ij}}$ среднее из всех. ${\ displaystyle Z_ {ij}}$ $Z_ {ij}$

Тестовая статистика приблизительно F-распределенный с и степенями свободы, и, следовательно, значение исхода из испытано против которых является квантилем F-распределения, с и степенями свободы, и это выбранный уровень значимости ( как правило, 0,05 или 0,01). ${\ displaystyle W}$ $W$ ${\ displaystyle k-1}$ $к-1$ ${\ displaystyle Nk}$ $Nk$ ${\ displaystyle w}$ $ш$ ${\ displaystyle W}$ $W$ ${\ Displaystyle F (1- \ альфа; к-1, Nk)}$ ${\ Displaystyle F (1- \ альфа; к-1, Nk)}$ ${\ displaystyle F}$ $F$ ${\ displaystyle k-1}$ $к-1$ ${\ displaystyle Nk}$ $Nk$ ${\ displaystyle \ alpha}$ $\альфа$

Сравнение с тестом Брауна – Форсайта.

Тест Брауна – Форсайта использует медианное значение вместо среднего при вычислении разброса внутри каждой группы ( vs., выше). Хотя оптимальный выбор зависит от основного распределения, рекомендуется определение, основанное на медиане, как выбор, который обеспечивает хорошую устойчивость к многим типам ненормальных данных при сохранении хорошей статистической мощности. Если кто-то знает об основном распределении данных, это может указывать на использование одного из других вариантов. Браун и Форсайт провели исследования методом Монте-Карло, которые показали, что использование усеченного среднего дает наилучшие результаты, когда базовые данные соответствуют распределению Коши ( распределение с тяжелым хвостом ), а медиана - лучше всего, когда базовые данные соответствуют распределению хи-квадрат с четырьмя степенями распределения. свобода (сильно искаженное распределение ). Использование среднего дает наилучшую мощность для симметричных распределений с умеренным хвостом. ${\ displaystyle {\ bar {Y}}}$ ${\ bar {Y}}$ ${\ displaystyle {\ tilde {Y}}}$ ${\ tilde {Y}}$

Смотрите также

использованная литература

внешние ссылки