Тест хи-квадрат

редактировать
Распределение хи-квадрат с отображением χ на оси x и значения p (вероятность правого хвоста) на ось Y.

A критерий хи-квадрат, также записываемый как критерий χ, является тестом статистической гипотезы, который действителен для выполнения когда статистика теста распределена по хи-квадрат при нулевой гипотезе, в частности, по критерию хи-квадрат Пирсона и его вариантам. Критерий хи-квадрат Пирсона используется для определения, существует ли статистически значимая разница между ожидаемыми частотами и наблюдаемыми частотами в одной или нескольких категориях таблицы сопряженности <226.>В стандартных приложениях этого теста наблюдения делятся на взаимоисключающие классы. Если нулевая гипотеза об отсутствии различий между классами в генеральной совокупности верна, тестовая статистика, вычисленная на основе наблюдений, следует распределению частот χ . Цель теста - оценить, насколько вероятно, что наблюдаемые частоты будут предполагать, что нулевая гипотеза верна.

Тестовая статистика, соответствующая распределению χ, возникает, когда наблюдения независимы и нормально распределены, и эти предположения часто оправдываются центральной предельной теоремой. Существуют также χ-тесты для проверки нулевой гипотезы независимости пары случайных величин на основе наблюдений за парами.

Тесты хи-квадрат часто относятся к тестам, для которых распределение тестовой статистики приближается к χ-распределению асимптотически, что означает, что выборочное распределение (если нулевая гипотеза верно) тестовой статистики все более и более приближается к распределению хи-квадрат по мере увеличения размеров выборки.

Содержание

  • 1 История
    • 1.1 Критерий хи-квадрат Пирсона
  • 2 Другие примеры тестов хи-квадрат
    • 2.1 Точный тест Фишера
    • 2.2 Биномиальный тест
    • 2.3 Другой критерий хи-квадрат тесты
  • 3 Поправка Йетса на непрерывность
  • 4 Критерий хи-квадрат для дисперсии в нормальной совокупности
  • 5 Пример критерия хи-квадрат для категориальных данных
  • 6 Приложения
  • 7 См. также
  • 8 Ссылки
  • 9 Дополнительная литература

История

В XIX веке статистические аналитические методы применялись в основном в анализе биологических данных, и исследователи обычно предполагали, что наблюдения следуют нормальному распределению, такие как сэр Джордж Эйри и профессор Мерриман, чьи работы подверглись критике со стороны Карла Пирсона в его статье 1900 года.

В конце 19 века Пирсон заметил существование значительной асимметрии в некоторых биологических наблюдениях. Чтобы смоделировать наблюдения независимо от того, являются они нормальными или искаженными, Пирсон в серии статей, опубликованных с 1893 по 1916 год, разработал распределение Пирсона, семейство непрерывных распределений вероятностей, которое включает нормальное распределение и много искаженных распределений, и предложил метод статистического анализа, состоящий из использования распределения Пирсона для моделирования наблюдения и выполнения теста согласия, чтобы определить, насколько хорошо модель действительно соответствует наблюдениям.

Критерий хи-квадрат Пирсона

В 1900 году Пирсон опубликовал работу по критерию хи-квадрат, который считается одной из основ современной статистики. В этой статье Пирсон исследовал критерий согласия.

Предположим, что n наблюдений в случайной выборке из генеральной совокупности классифицированы в k взаимоисключающих классов с соответствующими наблюдаемыми числами x i (для i = 1,2,…, k), и нулевая гипотеза дает вероятность p i того, что наблюдение попадает в i-й класс. Итак, у нас есть ожидаемые числа m i = np i для всех i, где

∑ i = 1 kpi = 1 ∑ i = 1 kmi = n ∑ i = 1 kpi Знак равно ∑ я = 1 kxi {\ displaystyle {\ begin {align} \ sum _ {i = 1} ^ {k} {p_ {i}} = 1 \\ [8pt] \ sum _ {i = 1} ^ {k} {m_ {i}} = n \ sum _ {i = 1} ^ {k} {p_ {i}} = \ sum _ {i = 1} ^ {k} x_ {i} \ end { выровнено}}}{\ displaystyle {\ begin {align} \ sum _ {i = 1} ^ {k} {p_ {i}} = 1 \\ [8pt] \ sum _ {i = 1} ^ {k} {m_ {i}} = n \ sum _ {i = 1} ^ {k} {p_ {i}} = \ sum _ {i = 1} ^ {k} x_ {i} \ end {align}}}

Пирсон предположил, что при условии, что нулевая гипотеза верна, при n → ∞ предельным распределением величины, приведенной ниже, является распределение χ.

Икс 2 знак равно ∑ я знак равно 1 К (xi - mi) 2 mi = ∑ я = 1 kxi 2 mi - n {\ displaystyle X ^ {2} = \ sum _ {i = 1} ^ {k} { \ frac {(x_ {i} -m_ {i}) ^ {2}} {m_ {i}}} = \ sum _ {i = 1} ^ {k} {{\ frac {x_ {i} ^ { 2}} {m_ {i}}} - n}}{\ displaystyle X ^ {2} = \ sum _ {i = 1} ^ {k} {\ frac {(x_ {i} -m_ {i}) ^ {2} } {m_ {i}}} = \ sum _ {i = 1} ^ {k} {{\ frac {x_ {i} ^ {2}} {m_ {i}}} - n}}

Пирсон сначала рассмотрел случай, когда ожидаемые числа m i являются достаточно большими известными числами во всех ячейках, предполагая, что каждое x i можно принять как нормально распределенное и получить результат, в котором в пределе, когда n становится большим, X следует распределению χ с k - 1 степенями свободы.

Однако затем Пирсон рассмотрел случай, в котором ожидаемые числа зависели от параметров, которые должны были быть оценены по выборке, и предположил, что с обозначением m i истинным ожидаемые числа и m ′ i - предполагаемые ожидаемые числа, разница

X 2 - X ′ 2 = ∑ i = 1 kxi 2 mi - ∑ i = 1 kxi 2 mi ′ {\ displaystyle X ^ {2} - {X '} ^ {2} = \ sum _ {i = 1} ^ {k} {\ frac {x_ {i} ^ {2}} {m_ {i}}} - \ sum _ {i = 1} ^ {k} {\ frac {x_ {i} ^ {2}} {m '_ {i}}}}{\displaystyle X^{2}-{X'}^{2}=\sum _{i=1}^{k}{\frac {x_{i}^{2}}{m_{i}}}-\sum _{i=1}^{k}{\frac {x_{i}^{2}}{m'_{i}}}}

обычно будет положительным и достаточно маленьким, чтобы его можно было опустить. В заключение Пирсон утверждал, что если мы будем рассматривать X 'как распределенное, как распределение χ с k - 1 степенями свободы, ошибка в этом приближении не повлияет на практические решения. Этот вывод вызвал некоторые противоречия в практических приложениях и не был решен в течение 20 лет до статей Фишера 1922 и 1924 гг.

Другие примеры критериев хи-квадрат

Один критерий статистики следующее за распределением хи-квадрат в точности является тестом того, что дисперсия нормально распределенной совокупности имеет заданное значение на основе выборочной дисперсии. Такие тесты редко встречаются на практике, потому что истинная дисперсия популяции обычно неизвестна. Однако существует несколько статистических тестов, где распределение хи-квадрат приблизительно верно:

точный критерий Фишера

Для точного теста, используемого вместо 2 x 2 Критерий хи-квадрат на независимость, см. точный критерий Фишера.

биномиальный критерий

Точный критерий, используемый вместо критерия согласия 2 x 1 на соответствие, см. Биномиальный критерий.

Другие критерии хи-квадрат

Поправка Йейтса на непрерывность

Использование распределение хи-квадрат n для интерпретации статистики хи-квадрат Пирсона требует предположения, что дискретная вероятность наблюдаемых биномиальных частот в таблице может быть аппроксимирована непрерывным Распределение хи-квадрат. Это предположение не совсем верно и вносит некоторую ошибку.

Чтобы уменьшить погрешность аппроксимации, Фрэнк Йейтс предложил поправку на непрерывность, которая корректирует формулу для критерия хи-квадрат Пирсона, вычитая 0,5 из абсолютной разницы между каждое наблюдаемое значение и его ожидаемое значение в таблице непредвиденных обстоятельств 2 × 2. Это уменьшает полученное значение хи-квадрат и, таким образом, увеличивает его p-значение.

критерий хи-квадрат для дисперсии в нормальной совокупности

Если выборка размера n берется из совокупности, имеющей нормальное распределение, то есть результат (см. распределение выборочной дисперсии ), который позволяет провести тест на предмет того, имеет ли дисперсия генеральной совокупности заранее определенное значение. Например, производственный процесс мог находиться в стабильном состоянии в течение длительного периода, что позволяло определять значение отклонения практически без ошибок. Предположим, что тестируется вариант процесса, в результате чего создается небольшая выборка из n единиц продукта, вариации которых необходимо проверить. Статистическая статистика теста T в этом случае может быть установлена ​​как сумма квадратов выборочного среднего, деленная на номинальное значение дисперсии (т. Тогда T имеет распределение хи-квадрат с n - 1 степенями свободы. Например, если размер выборки равен 21, приемлемая область для T с уровнем значимости 5% находится между 9,59 и 34,17.

Пример критерия хи-квадрат для категориальных данных

Предположим, что есть город с населением 1 000 000 жителей с четырьмя районами: A, B, C и D. Случайная выборка из 650 жителей города. берется, и их род занятий записывается как «белые воротнички», «синие воротнички» или «без воротничков». Нулевая гипотеза состоит в том, что район проживания каждого человека не зависит от его профессиональной классификации. Данные представлены в виде таблицы:

ABCDвсего
Белый воротничок906010495349
Синий воротничок30505120151
Без воротничка30404535150
Всего150150200150650

Давайте возьмем выборку, проживающую в районе A, 150, чтобы оценить, какая доля все 1 000 000 живут в районе A. Аналогичным образом мы берем 349/650, чтобы оценить, какая часть из 1 000 000 составляют белые воротнички. Исходя из предположения о независимости в рамках гипотезы, мы должны «ожидать», что количество белых воротничков в районе A будет

150 × 349 650 ≈ 80,54 {\ displaystyle 150 \ times {\ frac {349} {650}} \ приблизительно 80,54}{\ displaystyle 150 \ times { \ frac {349} {650}} \ приблизительно 80,54}

Тогда в этой «ячейке» таблицы мы имеем

(наблюдаемое - ожидаемое) 2 ожидаемое = (90 - 80,54) 2 80,54 ≈ 1,11 {\ displaystyle {\ frac {\ left ({ \ text {Наблюдаемый}} - {\ text {ожидаемый}} \ right) ^ {2}} {\ text {expected}}} = {\ frac {\ left (90-80,54 \ right) ^ {2}} { 80,54}} \ приблизительно 1.11}{\ displaystyle {\ frac {\ left ({\ text { наблюдается}} - {\ text {ожидаемый}} \ right) ^ {2}} {\ text {expected}}} = {\ frac {\ left (90-80,54 \ right) ^ {2}} {80,54}} \ приблизительно 1.11}

Сумма этих величин по всем ячейкам является тестовой статистикой; в данном случае ≈ 24,6 {\ displaystyle \ приблизительно 24,6}{\ displaystyle \ приблизительно 24,6} . При нулевой гипотезе эта сумма имеет приблизительно распределение хи-квадрат с числом степеней свободы

(количество строк - 1) (количество столбцов - 1) = (3 - 1) (4 - 1) = 6 {\ displaystyle ({\ text {количество строк}} - 1) ({\ text {количество столбцов}} - 1) = (3-1) (4-1) = 6}{\ displaystyle ({\ text {количество строк}} - 1) ({\ text {количество столбцов}} - 1) = (3-1) (4-1) = 6}

Если тест статистика невероятно велика в соответствии с этим распределением хи-квадрат, тогда можно отвергнуть нулевую гипотезу независимости.

Связанная проблема - проверка однородности. Предположим, что вместо того, чтобы дать каждому жителю каждого из четырех районов равные шансы на включение в выборку, мы заранее решаем, сколько жителей каждого района включить. Тогда у каждого жителя будет такой же шанс быть выбранным, как и у всех жителей одного и того же района, но у жителей разных районов будет разная вероятность быть выбранным, если четыре размера выборки не пропорциональны населению четырех районов. В таком случае мы будем проверять «однородность», а не «независимость». Вопрос в том, одинаковы ли пропорции «синих воротничков», «белых воротничков» и «без воротничков» в четырех кварталах. Однако тест делается точно так же.

Приложения

В криптоанализе критерий хи-квадрат используется для сравнения распределения открытого текста и (возможно) дешифрованного зашифрованного текста.. Наименьшее значение теста означает, что расшифровка прошла успешно с высокой вероятностью. Этот метод можно обобщить для решения современных криптографических задач.

В биоинформатике критерий хи-квадрат используется для сравнения распределения определенных свойств генов (например, геномного содержания, частоты мутаций, кластеризация сети взаимодействия и т. д.), принадлежащих к разным категориям (например, гены болезней, основные гены, гены определенной хромосомы и т. д.).

См. также

  • значок Портал математики

Литература

Дополнительная литература

Последняя правка сделана 2021-05-14 10:43:45
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте