Точный тест

редактировать

В статистике точный (значимый) тест - это тест, в котором если нулевая гипотеза верна, тогда все допущения, на которых основан вывод распределения тестовой статистики, выполнены. Использование точного теста обеспечивает тест значимости, который сохраняет коэффициент ошибок типа I теста (α {\ displaystyle \ alpha}\ alpha ) на желаемый уровень значимости теста. Например, точный тест на уровне значимости из α = 5% {\ displaystyle \ alpha = 5 \%}{\ Displaystyle \ альфа = 5 \%} , при повторении теста на многих выборках, где нулевая гипотеза верна, отклонит не более 5% {\ displaystyle 5 \%}{\ displaystyle 5 \%} случаев. Это противоположно приближенному тесту, в котором желаемая частота ошибок типа I сохраняется только приблизительно (то есть: тест может отклонять более 5% времени), в то время как это приближение может быть сделано как можно ближе к α {\ displaystyle \ alpha}\ alpha по желанию, сделав размер выборки достаточно большим.

Точные тесты, основанные на дискретной статистике теста, могут быть консервативными тестами, т. Е. Реальный уровень отклонения ниже номинального уровня значимости α {\ displaystyle \ alpha}\ alpha . Например, это относится к точному тесту Фишера, а также к его более мощной альтернативе, тесту Босхлоо. Если статистика теста непрерывна, она точно достигнет уровня значимости.

Параметрические тесты, например, описанные в точной статистике, являются точными тестами, когда параметрические допущения полностью выполняются, но на практике термин точный (значимый) тест зарезервирован для те тесты, которые не основываются на параметрических допущениях - непараметрические тесты. Однако на практике в большинстве реализаций программного обеспечения непараметрического тестирования используются асимптотические алгоритмы для получения значения значимости, что делает выполнение теста неточным.

Таким образом, когда результат статистического анализа называется «точным тестом» или «точным p-значением », это должно подразумевать, что тест определен без параметрических предположений. и оценивается без использования приближенных алгоритмов. В принципе, однако, это также может означать, что параметрический тест использовался в ситуации, когда все параметрические допущения полностью выполняются, но в большинстве случаев невозможно полностью доказать это в реальной ситуации. Исключения, когда точно известно, что параметрические тесты точны, включают тесты, основанные на биномиальном распределении или распределении Пуассона. Иногда тест перестановки используется как синоним точного теста, но хотя все тесты перестановки являются точными тестами, не все точные тесты являются тестами перестановки.

Содержание

  • 1 Точные тесты
  • 2 Пример: критерий хи-квадрат Пирсона в сравнении с точным тестом
  • 3 Пример: точный критерий Фишера
  • 4 См. Также
  • 5 Ссылки

Точные тесты

Основное уравнение, лежащее в основе точных тестов:

Pr (точный) = ∑ y: T (y) ≥ T (x) Pr (y) {\ displaystyle \ Pr ({\ text {точный}}) = \ sum _ {\ mathbf {y} \,: \, T (\ mathbf {y}) \ geq T (\ mathbf {x)}} \ Pr (\ mathbf {y})}\ Pr (\ text {точный}) = \ sum _ {\ mathbf {y} \,: \, T (\ mathbf {y}) \ ge T (\ mathbf {x)}} \ Pr (\ mathbf {y })

где:

  • x- это фактически наблюдаемый результат,
  • Pr (y ) - вероятность при нулевой гипотезе потенциально наблюдаемого результата y,
  • T(y) - значение тестовой статистики для результат y, с большими значениями T, представляющими случаи, которые теоретически представляют большие отклонения от нулевой гипотезы,

и где сумма колеблется по всем исходам y (включая наблюдаемый) которые имеют то же значение, что и тестовая статистика, полученная для наблюдаемой выборки x, или большее значение.

Пример: критерий хи-квадрат Пирсона в сравнении с точным критерием

Простой пример повода для этой концепции можно увидеть, заметив, что критерий хи-квадрат Пирсона равен примерный тест. Предположим, что критерий хи-квадрат Пирсона используется для проверки того, является ли шестигранный кубик «справедливым», т.е. дает каждый из шести результатов одинаково часто. Если кубик брошен n раз, то каждый «ожидает» увидеть каждый результат n / 6 раз. Статистика теста:

∑ (наблюдаемое - ожидаемое) 2 ожидаемое = ∑ k = 1 6 (X k - n / 6) 2 n / 6, {\ displaystyle \ sum {\ frac {({\ text {замечено} } - {\ text {ожидаемый}}) ^ {2}} {\ text {ожидаемый}}} = \ sum _ {k = 1} ^ {6} {\ frac {(X_ {k} -n / 6) ^ {2}} {n / 6}},}\ сумма \ гидроразрыва {(\ текст {наблюдаемый} - \ текст {ожидаемый}) ^ 2} {\ текст {ожидаемый}} = \ сумма_ {к = 1} ^ 6 \ frac {(X_k - n / 6) ^ 2} {n / 6},

где X k - количество раз, когда наблюдается результат k. Если нулевая гипотеза «справедливости» верна, то распределение вероятностей статистических данных теста может быть максимально приближено к распределению хи-квадрат с 5 степенями свободы, увеличив размер выборки n. довольно. Но если n мало, то вероятности, основанные на распределениях хи-квадрат, могут быть не очень близкими приближениями. Для определения точной вероятности того, что эта тестовая статистика превышает определенное значение, затем требуется комбинаторное перечисление всех результатов эксперимента, которые приводят к такому большому значению тестовой статистики. Более того, возникает вопрос, следует ли использовать одну и ту же статистику теста. тест отношения правдоподобия может быть предпочтительнее как более мощный, а статистика теста может не быть монотонной функцией приведенной выше.

Пример: точный критерий Фишера

точный критерий Фишера, основанный на работе Рональда Фишера и Э. Дж. Г. Питман в 1930-е годы является точным, потому что распределение выборки (условное от маргиналов) известно точно. Сравните критерий хи-квадрат Пирсона, который (хотя и проверяет тот же самый ноль) не является точным, потому что распределение тестовой статистики является правильным только асимптотически.

См. Также

Ссылки

Последняя правка сделана 2021-05-19 09:26:00
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте