Одно- и двусторонние тесты

редактировать

A двусторонний тест, примененный к нормальному распределению.

A односторонний тест, показывающее p-значение как размер одного хвоста.

В статистическом тестировании значимости, односторонний тест и двусторонний тест - это альтернативные способы вычисления статистической значимости параметра , выведенного из набора данных, в терминах статистики теста. Двусторонний тест подходит, если оценочное значение больше или меньше определенного диапазона значений, например, может ли тестируемый набрать больше или меньше определенного диапазона баллов. Этот метод используется для проверки нулевой гипотезы, и если оценочное значение существует в критических областях, альтернативная гипотеза принимается вместо нулевой гипотезы. Односторонний тест подходит, если оценочное значение может отклоняться от эталонного значения только в одном направлении, влево или вправо, но не в обоих. Примером может быть то, производит ли машина более одного процента дефектной продукции. В этой ситуации, если оценочное значение существует в одной из односторонних критических областей, в зависимости от направления интереса (больше или меньше), альтернативная гипотеза принимается вместо нулевой гипотезы. Альтернативные названия: односторонние и двусторонние тесты; термин «хвост» используется потому, что крайние части распределений, где наблюдения приводят к отклонению нулевой гипотезы, являются небольшими и часто «уходят» в сторону нуля, как в нормальном распределении, окрашенном в желтый цвет, или "колоколообразная кривая", изображенная справа и окрашенная в зеленый цвет.

Содержание

1 Приложения
2 Пример подбрасывания монет
3 История
4 Специальные тесты
5 См. Также
6 Ссылки

Приложения

One- Хвостовые тесты используются для асимметричных распределений с одним хвостом, таких как распределение хи-квадрат, которые обычно используются при измерении согласия, или для одной стороны распределение с двумя хвостами, такое как нормальное распределение, которое часто используется при оценке местоположения; это соответствует указанию направления. Двусторонние тесты применимы только тогда, когда есть два хвоста, например, в нормальном распределении, и соответствуют рассмотрению значимости любого направления.

В подходе Рональда Фишера нулевая гипотеза H0будет отклонена, если p-значение тестовой статистики достаточно экстремально (по сравнению с выборочным распределением тестовой статистики) и поэтому маловероятно, что это результат случайности. Обычно это выполняется путем сравнения полученного p-значения с заданным уровнем значимости, обозначенным $α {\ displaystyle \ alpha}$ $\ alpha$ , при вычислении статистической значимости параметра. В одностороннем тесте «экстремальный» определяется заранее как либо означающий «достаточно маленький», либо «достаточно большой» - значения в другом направлении считаются несущественными. Можно сообщить, что вероятность левого или правого хвоста в виде одностороннего p-значения, которое в конечном итоге соответствует направлению, в котором тестовая статистика отклоняется от H 0. В двустороннем тесте "крайнее значение" «означает достаточно малый или достаточно большой», и значения в любом направлении считаются значимыми. Для данной статистики теста существует один двусторонний тест и два односторонних теста, по одному для каждого направления. Если задан уровень значимости $α {\ displaystyle \ alpha}$ $\ alpha$ , критические области будут существовать на двух концах распределения с площадью $α / 2 {\ displaystyle \ alpha / 2}$ $\ alpha / 2$ для двустороннего теста. В качестве альтернативы, критическая область могла бы существовать только на одном конце с площадью $α {\ displaystyle \ alpha}$ $\ alpha$ для одностороннего теста. Для данного уровня значимости в двустороннем тесте для тестовой статистики соответствующие односторонние тесты для той же тестовой статистики будут считаться либо вдвое более значимыми (половина значения p), если данные находятся в направлении, указанном тест или вообще не имеет значения (p-значение выше $α {\ displaystyle \ alpha}$ $\ alpha$ ), если данные находятся в направлении, противоположном критической области, указанной в тесте.

Например, если подбрасывает монету, проверка того, смещена ли она в сторону орла, является односторонним тестом, и получение данных «все решки» будет рассматриваться как очень значимое, в то время как получение данных "всех хвостов" вообще не имеет значения (p = 1). Напротив, проверка того, смещено ли оно в любом направлении, является двусторонним тестом, и оба варианта «все решки» или «все решки» будут рассматриваться как очень важные данные. В медицинском тестировании, в то время как обычно кто-то интересуется, приводит ли лечение к результатам, которые лучше, чем случайность, что предполагает односторонний тест; худший результат также интересен для научной области, поэтому следует использовать двусторонний тест, который соответствует вместо того, чтобы проверять, приводит ли лечение к результатам, отличным от случайных, лучше или хуже. В архетипическом эксперименте дама, дегустирующая чай, Фишер проверял, была ли женщина, о которой идет речь, лучше, чем шанс различить два типа приготовления чая, а не то, отличается ли ее способность от случайности, и поэтому он использовал односторонний контрольная работа.

Пример подбрасывания монеты

При подбрасывании монеты нулевая гипотеза представляет собой последовательность испытаний Бернулли с вероятностью 0,5, что дает случайную величину X, которая равно 1 для орлов и 0 для решек, а обычная статистика теста - это выборочное среднее (количества голов) $X ¯. {\ displaystyle {\ bar {X}}.}$ $\ bar X.$ Если проверять, смещена ли монета в сторону орла, будет использоваться односторонний тест - только большое количество орлов будет иметь значение. В этом случае набор данных из пяти голов (ЧЧЧЧВ) со средним выборочным значением 1 имеет $1/32 = 0,03125 ≈ 0,03 {\ displaystyle 1/32 = 0,03125 \ приблизительно 0,03}$ $1/32 = 0,03125 \ приблизительно 0,03$ шанс наступления (5 последовательных переворотов с 2 исходами - ((1/2) ^ 5 = 1/32). Это будет иметь $p ≈ 0,03 {\ displaystyle p \ приблизительно 0,03}$ $p \ приблизительно 0,03$ и будет быть значимыми (отклонение нулевой гипотезы), если тест был проанализирован на уровне значимости $α = 0,05 {\ displaystyle \ alpha = 0,05}$ $\ alpha = 0,05$ (уровень значимости, соответствующий границе отсечения)., при проверке того, смещена ли монета в сторону орла или решки, будет использоваться двусторонний тест, и набор данных из пяти голов (выборочное среднее 1) столь же экстремален, как и набор данных из пяти решек (выборочное среднее 0). В результате значение p будет $2/32 = 0,0625 ≈ 0,06 {\ displaystyle 2/32 = 0,0625 \ приблизительно 0,06}$ $2/32 = 0,0625 \ приблизительно 0,06$ , и это не будет иметь значения (без отклонения нулевого гипотеза), если тест был проанализирован на уровне значимости $α = 0,05 {\ displaystyle \ alpha = 0,05 }$ $\ alpha = 0,05$ .

История

p-значение распределения хи-квадрат для разного числа степеней свободы

p-значение было введено Карлом Пирсоном в критерий хи-квадрат Пирсона, где он определил P (исходное обозначение) как вероятность того, что статистика будет на заданном уровне или выше. Это одностороннее определение, а распределение хи-квадрат асимметрично, принимает только положительные или нулевые значения и имеет только один хвост, верхний. Он измеряет степень соответствия данных теоретическому распределению, при этом ноль соответствует точному согласию с теоретическим распределением; Таким образом, p-значение измеряет, насколько вероятно, что соответствие будет таким плохим или худшим.

Нормальное распределение с двумя хвостами

Различие между односторонними и двусторонними тестами популяризировал Рональд Фишер в влиятельной книге Статистические методы для научных работников, где он особенно применил это к нормальному распределению, которое является симметричным распределением с двумя равными хвостами. Нормальное распределение является общей мерой местоположения, а не критерием согласия, и имеет два хвоста, что соответствует оценке местоположения, находящейся выше или ниже теоретического местоположения (например, выборочное среднее значение по сравнению с теоретическим средним). В случае симметричного распределения, такого как нормальное распределение, одностороннее p-значение составляет ровно половину двустороннего p-значения:

Иногда возникает некоторая путаница из-за того, что в некоторых случаях мы хотим знать вероятность того, что отклонение, заведомо положительное, превысит наблюдаемое значение, тогда как в других случаях требуемая вероятность состоит в том, что отклонение, которое одинаково часто бывает положительным и отрицательным, должно превышать наблюдаемое значение; последняя вероятность всегда вдвое меньше первой.

— Рональд Фишер, Статистические методы для научных сотрудников

Фишер подчеркнул важность измерения хвоста - наблюдаемого значения тестовой статистики и все более экстремального - а не просто вероятности конкретного результата, в его План экспериментов (1935). Он объясняет это тем, что конкретный набор данных может быть маловероятным (в нулевой гипотезе), но вероятны более экстремальные результаты, поэтому в этом свете конкретные, но не крайне маловероятные данные не должны считаться значимыми.

Специальные тесты

Если статистика теста соответствует t-распределению Стьюдента в нулевой гипотезе, что является обычным явлением, когда базовая переменная следует нормальному распределению с неизвестным масштабным коэффициентом, тогда тест называется односторонним или двусторонним t-тестом. Если тест выполняется с использованием фактического среднего значения и дисперсии генеральной совокупности, а не оценки по выборке, он будет называться односторонним или двусторонним Z-тестом.

Статистические таблицы для t и для Z обеспечивают критические значения как для одно-, так и для двусторонних тестов. То есть они предоставляют критические значения, которые отсекают всю область на одном или другом конце выборочного распределения, а также критические значения, которые отсекают области (половинного размера) на обоих концах выборочного распределения.

См. Также

Тест парных различий, когда сравниваются два образца

Ссылки