В статистике, a доверительный интервал биномиальной пропорции - это доверительный интервал для вероятности успеха, рассчитанной по результатам серии экспериментов «успех-неудача» (испытания Бернулли ). Другими словами, доверительный интервал биномиальной пропорции представляет собой интервальную оценку вероятности успеха p, когда известны только количество экспериментов n и количество успешных n S.
Существует несколько формул для биномиального доверительного интервала, но все они основаны на предположении о биномиальном распределении. В общем, биномиальное распределение применяется, когда эксперимент повторяется фиксированное количество раз, каждое испытание эксперимента имеет два возможных результата (успех и неудача), вероятность успеха одинакова для каждого испытания, а количество испытаний статистически независимый. Поскольку биномиальное распределение является дискретным распределением вероятностей (т. Е. Не непрерывным) и его трудно вычислить для большого количества испытаний, для вычисления этого доверительного интервала используются различные приближения, все со своими собственными компромиссами в точности и вычислительная интенсивность.
Простым примером биномиального распределения является набор различных возможных результатов и их вероятностей для количества орлов, наблюдаемых, когда монета подбрасывается десять раз. Наблюдаемая биномиальная пропорция - это доля флипов, которые оказываются решенными. Учитывая эту наблюдаемую пропорцию, доверительный интервал для истинной вероятности выпадения монеты орлом представляет собой диапазон возможных пропорций, которые могут содержать или не содержать истинную пропорцию. Например, 95% доверительный интервал для пропорции будет содержать истинную долю 95% случаев, когда используется процедура построения доверительного интервала.
Обычно используемая формула для биномиального доверительного интервала основана на аппроксимации распределения ошибок для биномиально распределенного наблюдения, , с нормальным распределением. Это приближение основано на центральной предельной теореме и ненадежно, если размер выборки мал или вероятность успеха близка к 0 или 1.
Используя нормальное приближение, вероятность успеха p оценивается как
или эквивалент
где - доля успехов в процессе испытания Бернулли, измеренная с помощью испытания, дающие успехи и сбои, и - квантиль стандартного нормального распределения (т. е. пробит ), что соответствует целевой частоте ошибок . Для уровня достоверности 95% ошибка , поэтому и .
Важный теоретический вывод этого доверительного интервала включает инверсия проверки гипотезы. В этой формулировке доверительный интервал представляет те значения параметра совокупности, которые имели бы большие p-значения, если бы они были протестированы как гипотетическая пропорция совокупности. Набор значений, , для которых допустимо нормальное приближение, можно представить как
где - квантиль стандартного нормального распределения . Поскольку тест в середине неравенства является тестом Вальда, нормальный интервал аппроксимации иногда называют интервалом Вальда, но впервые он был описан Пьером-Симоном Лапласом. в 1812 году.
Пусть существует простая случайная выборка , где каждый равен iid из Бернулли (p) распределение и вес - вес для каждого наблюдения. Стандартизируйте (положительные) веса так, чтобы они в сумме равнялись 1. пропорция взвешенной выборки : . Поскольку независимы и у каждого есть дисперсия, , поэтому выборочная дисперсия пропорции равна:
.
стандартная ошибка для - это квадратный корень из этой величины. Поскольку мы не знаем , мы должны оценить его. Хотя существует множество возможных оценок, обычным является использование , выборочное среднее, и вставка его в формулу. Это дает:
Для невзвешенных данных , что дает . SE становится , что приводит к знакомым формулам, показывающим, что расчет для взвешенные данные являются их прямым обобщением.
Интервал оценки Вильсона является улучшением по сравнению с нормальным интервалом аппроксимации, поскольку фактическая вероятность охвата ближе к номинальному значению. Он был разработан Эдвином Бидуэллом Уилсоном (1927).
Уилсон начал с нормального приближения к биному:
с аналитической формулой для стандартного отклонения выборки задается
Объединение двух и возведение радикала в квадрат дает уравнение, квадратичное по p:
Преобразование отношения в квадратное уравнение стандартной формы для p с учетом и n как известные значения из выборки (см. предыдущий раздел), а использование значения z, которое соответствует желаемой достоверности для оценки p, дает следующее:
где все значения в скобках являются известными величинами. Решение для p оценивает верхний и нижний пределы доверительного интервала для p. Следовательно, вероятность успеха p оценивается как
или эквивалент
Практическое наблюдение при использовании этого интервала состоит в том, что он имеет хорошие свойства даже для небольшого числа испытаний и / или с крайней вероятностью.
Интуитивно центральное значение этого интервала - это средневзвешенное значение и , где получает больший вес по мере увеличения размера выборки. Формально центральное значение соответствует использованию псевдосчета 1/2 z², количества стандартных отклонений доверительного интервала: добавьте это число как к количеству успехов, так и к количеству неудач, чтобы получить оценку соотношение. Для общих двух стандартных отклонений в каждом интервале направлений (примерно 95% охват, что само по себе составляет примерно 1,96 стандартных отклонений), это дает оценку , которое известно как «правило плюс четыре».
Хотя квадратичная функция может быть решена явно, в большинстве случаев уравнения Вильсона также могут быть решены численно с использованием итерации с фиксированной точкой
с .
Интервал Вильсона может быть получен из критерия хи-квадрат Пирсона. с двумя категориями. Результирующий интервал
затем можно решить для для получения интервала оценки Вильсона. Тест в середине неравенства представляет собой оценочный тест.
Интервал Вильсона может быть изменен с помощью поправки на непрерывность, чтобы для согласования минимальной вероятности охвата, а не средней вероятности, с номинальным значением.
Так же, как интервал Вильсона отражает критерий хи-квадрат Пирсона, интервал Вильсона с поправкой на непрерывность отражает эквивалентный критерий хи-квадрат Йейтса.
Следующие формулы для нижняя и верхняя границы интервала оценок Вильсона с поправкой на непрерывность получены из Newcombe ( 1998).
Однако, если p = 0, следует принимать как 0; если p = 1, равно 1.
Интервал Джеффриса имеет байесовское происхождение, но он обладает хорошими частотными свойствами. В частности, он имеет свойства покрытия, аналогичные свойствам интервала Вильсона, но это один из немногих интервалов с преимуществом равных хвостов (например, для 95% доверительного интервала вероятности интервала, лежащего выше или ниже истинного значения оба близки к 2,5%). Напротив, интервал Вильсона имеет систематическое смещение, так что он центрирован слишком близко к p = 0,5.
Интервал Джеффриса - это байесовский достоверный интервал, полученный при использовании non -информативный априор Джеффриса для биномиальной пропорции p. Априор Джеффриса для этой проблемы - это бета-распределение с параметрами (1/2, 1/2), это сопряженное априорное. После наблюдения x успешных результатов в n испытаниях, апостериорное распределение для p является бета-распределением с параметрами (x + 1/2, n - x + 1/2).
Когда x ≠ 0 и x ≠ n, интервал Джеффриса принимается равным 100 (1 - α)% равномерного апостериорного вероятностного интервала, т. Е. Квантилей α / 2 и 1 - α / 2. бета-распределения с параметрами (x + 1/2, n - x + 1/2). Эти квантили необходимо вычислять численно, хотя это достаточно просто с помощью современного статистического программного обеспечения.
Во избежание стремления вероятности охвата к нулю при p → 0 или 1, когда x = 0, верхний предел вычисляется, как и раньше, но нижний предел установлен на 0, а когда x = n - нижний предел. предел вычисляется, как и раньше, но верхний предел установлен на 1.
Интервал Клоппера – Пирсона - ранний и очень распространенный метод вычисления биномиальных доверительных интервалов. Этот метод часто называют «точным», поскольку он основан на кумулятивных вероятностях биномиального распределения (то есть на точном правильном распределении, а не на приближении). Однако в случаях, когда мы знаем размер популяции, интервалы могут быть не самыми маленькими. Например, для населения размером 20 с истинной долей 50% Клоппер-Пирсон дает [0,272, 0,728], ширина которого составляет 0,456 (и где границы находятся на 0,0280 от «следующих достижимых значений» 6/20 и 14. / 20); тогда как Wilson дает [0,299, 0,701], что имеет ширину 0,401 (и находится на 0,0007 от следующих возможных значений).
Интервал Клоппера – Пирсона можно записать как
или эквивалентно
с
где 0 ≤ x ≤ n - количество успехов, наблюдаемых в выборке, а Bin (n; θ) - биномиальная случайная величина с n попытками и вероятностью успеха θ.
То же самое можно сказать что интервал Клоппера – Пирсона равен с уровнем достоверности если - это нижняя грань из тех, что следующие проверки гипотез успешны со значимостью :
Из-за связи между биномиальным распределением и бета-распределением метод Клоппера – Пирсона интервал иногда представляется в альтернативном формате, который использует квантили из бета-распределения.
где x - количество успехов, n - количество попыток, а B (p; v, w) - p-й квантиль из бета-распределения с параметрами формы v и w.
Когда равно или доступны выражения в закрытой форме для границ интервала: когда интервал равен и когда это .
Бета-распределение, в свою очередь, связано с F-распределение, поэтому третью формулировку интервала Клоппера – Пирсона можно записать с использованием F-квантилей:
, где x - количество успехов, n - количество попыток, а F (c; d 1, d 2) - квантиль c из F-распределения с d 1 и d 2 степенями свободы.
Интервал Клоппера – Пирсона i s точный интервал, поскольку он основан непосредственно на биномиальном распределении, а не на каком-либо приближении к биномиальному распределению. Этот интервал никогда не бывает меньше номинального охвата для любой доли населения, но это означает, что он обычно консервативен. Например, истинная степень охвата 95% интервала Клоппера – Пирсона может быть значительно выше 95%, в зависимости от n и θ. Таким образом, интервал может быть шире, чем необходимо для достижения уверенности 95%. Напротив, стоит отметить, что другие доверительные границы могут быть уже, чем их номинальная доверительная ширина, т. Е. Интервал нормальной аппроксимации (или «стандартный») интервал, интервал Вильсона, интервал Агрести – Кулла и т.д. % фактически может охватывать менее 95%.
Определение интервала Клоппера – Пирсона также может быть изменено для получения точных доверительных интервалов для различных распределений. Например, это также может быть применено к случаю, когда выборки отбираются без замены из совокупности известного размера, вместо повторных выборок биномиального распределения. В этом случае основным распределением будет гипергеометрическое распределение.
Интервал Агрести – Кулля также является еще одним приблизительным биномиальным доверительным интервалом.
Учитывая успехов в испытаний, определите
и
Затем доверительный интервал для задается как
где - квантиль стандартного нормального распределения, как и раньше (например, 95% доверительный интервал требует , тем самым получая ). Согласно Браун, Цай и DasGupta, если взять вместо 1,96, получается «добавить 2 успеха. и 2 отказа », ранее описанный Agresti и Coull.
. Этот интервал можно резюмировать как использование регулировки центральной точки, из интервала оценок Вильсона, а затем примените нормальное приближение к этой точке.
Преобразование арксинуса имеет эффект вытягивания концов распределения. Хотя он может стабилизировать дисперсию (и, следовательно, доверительные интервалы) данных о доле, его использование подвергалось критике в нескольких контекстах.
Пусть X будет числом успешных результатов в n испытаниях и пусть p = X / n. Дисперсия p равна
Используя преобразование арксинуса, дисперсия арксинуса p равна
Итак, сам доверительный интервал имеет следующий вид :
где - квантиль стандартного нормального распределения.
Этот метод может использоваться для оценки дисперсии p, но его использование проблематично, когда p близко к 0 или 1.
Пусть p будет долей успешных результатов. Для 0 ≤ a ≤ 2
Это семейство является обобщением логит-преобразования, которое является частным случаем с a = 1 и может использоваться для преобразования пропорционального распределения данных в приблизительно нормальное распределение. Для набора данных необходимо оценить параметр a.
Правило трех используется, чтобы обеспечить простой способ определения приблизительного 95% доверительного интервала для p, в особом случае, когда никаких успехов () не наблюдалось. Интервал равен (0,3 / n).
По симметрии можно было ожидать только успехов (), интервал равен (1 - 3 / н, 1).
Существует несколько исследовательских работ, в которых сравниваются эти и другие доверительные интервалы для биномиальной пропорции. И Агрести, и Коул (1998), и Росс (2003) указывают, что точные методы, такие как интервал Клоппера – Пирсона, могут не работать так же хорошо, как некоторые приближения. Нормальное приближение и его представление в учебниках подвергалось критике, при этом многие статистики выступали за то, чтобы оно не использовалось.
Из перечисленных выше приближений методы интервалов Вильсона (с поправкой на непрерывность или без нее) оказались пригодными для использования. наиболее точный и надежный, хотя некоторые предпочитают подход Агрести – Коулла для больших объемов выборки.
Многие из этих интервалов могут быть рассчитаны в R с использованием таких пакетов, как "binom ", или в Python с использованием пакета " ebcic " (Калькулятор точного биномиального доверительного интервала).