Пробит

редактировать

График пробит-функции

В теории вероятностей и статистике функция пробит представляет собой квантильную функцию , связанную со стандартным нормальным распределением, которое обычно обозначается как N (0,1). Математически это обратная функция кумулятивной функции распределения стандартного нормального распределения, которая обозначается как $Φ (z) {\ displaystyle \ Phi (z)}$ $\ Phi (z)$ , поэтому пробит обозначается как $Φ - 1 (p) {\ displaystyle \ Phi ^ {- 1} (p)}$ $\ Phi ^ {{- 1}} (p)$ . Он имеет приложения в исследовательской статистической графике и специализированном регрессионном моделировании переменных двоичного отклика.

Во многом благодаря центральной предельной теореме стандартное нормальное распределение играет фундаментальную роль в теория вероятностей и статистика. Если мы рассмотрим известный факт, что стандартное нормальное распределение помещает 95% вероятности между -1,96 и 1,96 и симметрично относительно нуля, то следует, что

Φ (- 1,96) = 0,025 = 1 - Φ (1,96). {\ displaystyle \ Phi (-1.96) = 0,025 = 1- \ Phi (1.96). \, \!}

\ Phi (-1,96) = 0,025 = 1 - \ Phi (1.96). \, \!

Функция пробит дает «обратное» вычисление, генерируя значение случайного N (0,1) переменная, связанная с указанной кумулятивной вероятностью. Продолжая пример,

пробит ⁡ (0,025) = - 1,96 = - пробит ⁡ (0,975) {\ displaystyle \ operatorname {probit} (0,025) = - 1,96 = - \ operatorname {probit} (0,975)}

\ operatorname {probit} (0,025) = - 1,96 = - \ operatorname {probit} (0,975)

В общем,

Φ (пробит ⁡ (p)) = p {\ displaystyle \ Phi (\ operatorname {probit} (p)) = p}

\ Phi (\ operatorname {probit} (p)) = p

пробит ⁡ (Φ (z)) = z. {\ displaystyle \ operatorname {probit} (\ Phi (z)) = z.}

\ operatorname {probit} (\ Phi ( z)) = z.

Содержание

1 Концептуальная разработка
2 Диагностика отклонения распределения от нормальности
3 Вычисление
- 3.1 обыкновенное дифференциальное уравнение для пробит-функции
4 См. также
5 См. также
6 Ссылки

Концептуальная разработка

Идея пробит-функции была опубликована Честером Иттнером Блиссом в статье 1934 года в Science о том, как обрабатывать такие данные, как процент вредителей, убитых пестицидом . Блисс предложил преобразовать процент убитых в «вероятность способность это » (или «пробит»), которая линейно связана с современным определением (он произвольно определил ее как равную 0 для 0,0001 и 1 для 0,9999). Он включил таблицу, чтобы помочь другим исследователям преобразовать процент убитых в его пробит, которую они затем могли построить против логарифма дозы и, таким образом, надеялись получить более или менее прямую линию. Такая так называемая пробит-модель по-прежнему важна в токсикологии, а также в других областях. Такой подход оправдан, в частности, если вариацию ответа можно рационализировать как логнормальное распределение толерантности между испытуемыми на тесте, где толерантность конкретного субъекта - это доза, достаточная для получения интересующей реакции.

Метод, предложенный Блиссом, был перенесен в Пробит-анализ, важный текст по токсикологическому применению Д. Дж. Финни. Значения, представленные Финни, могут быть получены из пробитов, как они определены здесь, путем добавления значения 5. Это различие резюмирует Коллетт (стр. 55): «Первоначальное определение пробита [с добавлением 5] было в первую очередь для того, чтобы избежать необходимости работать с отрицательными вероятностями;... Это определение все еще используется в некоторых кругах, но в основных пакетах статистического программного обеспечения для того, что называется пробит-анализ, вероятности определяются без добавления 5 ". Следует отметить, что пробит-методология, включая численную оптимизацию для подбора пробит-функций, была введена до широкого распространения электронных вычислений. При использовании таблиц было удобно иметь равномерно положительные пробиты. Общие области применения не требуют положительных пробитов.

Диагностика отклонения распределения от нормальности

Помимо предоставления основы для важных типов регрессии, пробит-функция полезна в статистическом анализе для диагностики отклонения от нормальности в соответствии с методом QQ построение. Если набор данных на самом деле является выборкой из нормального распределения, график значений по сравнению с их пробит-оценками будет приблизительно линейным. Специфические отклонения от нормальности, такие как асимметрия, тяжелые хвосты или бимодальность, могут быть диагностированы на основе обнаружения специфических отклонений от линейности. В то время как график Q-Q можно использовать для сравнения с любым семейством распределений (не только с нормальным), нормальный график Q-Q является относительно стандартной процедурой исследовательского анализа данных, поскольку предположение о нормальности часто является отправной точкой для анализа.

Вычисление

CDF нормального распределения и его обратная функция недоступны в закрытой форме, и вычисления требуют осторожного использования числовых процедур. Однако функции широко доступны в программном обеспечении для статистического и вероятностного моделирования, а также в электронных таблицах. В Microsoft Excel, например, функция пробит доступна как norm.s.inv (p). В вычислительных средах, где доступны численные реализации функции обратной ошибки , пробит-функция может быть получена как

пробит ⁡ (p) = 2 erf - 1 ⁡ (2 p - 1). {\ displaystyle \ operatorname {probit} (p) = {\ sqrt {2}} \, \ operatorname {erf} ^ {- 1} (2p-1).}

\ operatorname {probit} (p) = {\ sqrt {2}} \, \ operatorname {erf} ^ {{- 1}} ( 2p-1).

Пример: MATLAB, где доступна функция erfinv. Язык Mathematica реализует InverseErf. Другие среды напрямую реализуют функцию пробит, как показано в следующем сеансе на языке программирования R.

>qnorm (0,025) [1] -1,959964>pnorm (-1,96) [1] 0,02499790

Подробности для вычисление обратной функции ошибок можно найти в [1]. Вичура дает быстрый алгоритм вычисления пробит-функции до 16 знаков после запятой; это используется в R для генерации случайных величин для нормального распределения.

Обыкновенное дифференциальное уравнение для пробит-функции

Другой способ вычисления основан на формировании нелинейного обыкновенного дифференциального уравнения ( ODE) для пробита по методу Штейнбрехера и Шоу. Сокращая пробит-функцию как $w (p) {\ displaystyle w (p)}$ $w (p)$ , ODE имеет вид

dwdp = 1 f (w) {\ displaystyle {\ frac {dw} { dp}} = {\ frac {1} {f (w)}}}

{\ frac {dw} {dp}} = {\ frac {1} {f (w)}}

где $f (w) {\ displaystyle f (w)}$ $f (w)$ - функция плотности вероятности для w.

В случае гауссиана:

dwdp = 2 π ew 2 2 {\ displaystyle {\ frac {dw} {dp}} = {\ sqrt {2 \ pi}} \ e ^ { \ frac {w ^ {2}} {2}}}

{\ frac {dw} {dp}} = {\ sqrt {2 \ pi}} \ e ^ {{{\ frac {w ^ {2}} {2}}}}

Снова дифференцируем:

d 2 wdp 2 = w (dwdp) 2 {\ displaystyle {\ frac {d ^ {2} w} {dp ^ {2}}} = w \ left ({\ frac {dw} {dp}} \ right) ^ {2}}

{\ frac {d ^ {2} w} {dp ^ {2}}} = w \ left ({\ frac {dw } {dp}} \ справа) ^ {2}

с центральными (начальными) условиями

w (1/2) = 0, {\ displaystyle w \ left (1/2 \ right) = 0,}

w \ left (1/2 \ right) = 0,

w ′ (1/2) = 2 π. {\ displaystyle w '\ left (1/2 \ right) = {\ sqrt {2 \ pi}}.}

w'\left(1/2\right)={\sqrt {2\pi }}.

Это уравнение может быть решено несколькими методами, включая классический подход степенных рядов. Исходя из этого, решения сколь угодно высокой точности могут быть разработаны на основе подхода Стейнбрехера к ряду для обратной функции ошибок. Решение степенного ряда дается выражением

w (p) = π 2 ∑ k = 0 ∞ dk (2 k + 1) (2 p - 1) (2 k + 1) {\ displaystyle w (p) = { \ sqrt {\ frac {\ pi} {2}}} \ sum _ {k = 0} ^ {\ infty} {\ frac {d_ {k}} {(2k + 1)}} (2p-1) ^ {(2k + 1)}}

w (p) = {\ sqrt {\ frac { \ pi} {2}}} \ sum _ {{k = 0}} ^ {{\ infty}} {\ frac {d_ {k}} {(2k + 1)}} (2p-1) ^ {{ (2k + 1)}}

где коэффициенты $dk {\ displaystyle d_ {k}}$ $d_ {k}$ удовлетворяют нелинейной рекуррентности

dk + 1 = π 4 = j = 0 kdjdk - j (j + 1) (2 j + 1) {\ displaystyle d_ {k + 1} = {\ frac {\ pi} {4}} \ sum _ {j = 0} ^ {k} {\ гидроразрыв {d_ {j} d_ {kj}} {(j + 1) (2j + 1)}}}

d _ {{k + 1}} = {\ гидроразрыв {\ pi} {4}} \ sum _ {{j = 0}} ^ {k} {\ frac {d_ {j} d _ {{kj}}} {(j + 1) (2j + 1)} }

с $d 0 = 1 {\ displaystyle d_ {0} = 1}$ $d_ {0} = 1$ . В этой форме соотношение $dk + 1 / dk → 1 {\ displaystyle d_ {k + 1} / d_ {k} \ rightarrow 1}$ $d _ {{k + 1}} / d_ { k} \ rightarrow 1$ as $k → ∞ {\ displaystyle k \ rightarrow \ infty}$ $k \ rightarrow \ infty$ .

См. также

Сравнение логит-функции с масштабированным пробитом (т.е. обратным CDF нормального распределения ), сравнивая

logit ⁡ (x) {\ displaystyle \ operatorname {logit} (x)}

\ operatorname {logit} (x)

vs.

Φ - 1 (x) / π 8 {\ displaystyle \ Phi ^ {- 1} (x) / {\ sqrt {\ frac {\ pi} {8}}}}

\ Phi ^ {- 1} (x) / {\ sqrt {\ frac {\ pi} {8}}}

, что делает уклоны одинаковыми в начале координат.

С пробит-функцией (и пробит-моделью ) тесно связаны функция logit и logit model. Обратная функция логистической функции дается выражением

logit ⁡ (p) = log ⁡ (p 1 - p). {\ displaystyle \ operatorname {logit} (p) = \ log \ left ({\ frac {p} {1-p}} \ right).}

\ operatorname {logit} (p) = \ log \ left ({\ frac {p} {1-p}} \ right).

Аналогично модели пробита, мы можем предположить, что такая величина линейно связана с набором предикторов, в результате чего логит-модель, в частности, основа модели логистической регрессии, наиболее распространенной формы регрессионного анализа для категориальные данные ответа. В современной статистической практике модели пробит- и логит-регрессии часто рассматриваются как случаи обобщенной линейной модели.

См. Также

графики компромисса ошибок обнаружения (графики DET, альтернатива ROC)
Логистическая регрессия (также известная как логит-модель)
Logit
Пробит-модель
Мультиномиальная пробит
График QQ
Непрерывная функция
Монотонная функция
Квантильная функция
Сигмоидная функция
Анализ Rankit, также разработанный Честером Блиссом
Оценка Ридита

Ссылки