Пробит-модель

редактировать

В статистике пробит-модель является типом регрессии, где зависимая переменная может принимать только два значения, например, женат или не женат. Это слово портманто, происходящее от проблема способность + un оно . Цель модели - оценить вероятность того, что наблюдение с определенными характеристиками попадет в определенную категорию; кроме того, классификация наблюдений на основе их предсказанных вероятностей является типом модели двоичной классификации.

A модель пробит - это популярная спецификация для модели двоичного ответа. Таким образом, он решает тот же набор проблем, что и логистическая регрессия, используя аналогичные методы. При рассмотрении в рамках обобщенной линейной модели пробит-модель использует функцию связи probit . Чаще всего его оценивают с использованием процедуры максимального правдоподобия, такая оценка называется пробит-регрессией .

Содержание
  • 1 Концептуальная основа
  • 2 Оценка модели
    • 2.1 Максимальная вероятность оценка
    • 2.2 Метод минимального хи-квадрат Берксона
    • 2.3 Выборка Гиббса
  • 3 Оценка модели
  • 4 Производительность при неправильной спецификации
  • 5 История
  • 6 См. также
  • 7 Ссылки
  • 8 Дополнительная литература
  • 9 Внешние ссылки
Концептуальная основа

Предположим, что переменная ответа Y является двоичной, то есть может иметь только два возможных результата, которые мы обозначим как 1 и 0. Например, Y может обозначать наличие / отсутствие определенного условия, успех / отказ какого-либо устройства, ответ да / нет в опросе и т. Д. У нас также есть вектор регрессоров X, которые предполагаются чтобы повлиять на результат Y. В частности, мы предполагаем, что модель принимает форму

Pr (Y = 1 ∣ X) = Φ (XT β), {\ displaystyle \ Pr (Y = 1 \ mid X) = \ Phi (X ^ {T} \ beta),}{\ displaystyle \ Pr (Y = 1 \ mid X) = \ Phi (X ^ {T} \ beta),}

где P r обозначает вероятность, а Φ - кумулятивная функция распределения (CDF ) стандартного нормального распределения. Параметры β обычно оцениваются с помощью максимального правдоподобия.

. Пробит-модель можно мотивировать как модель скрытых переменных. Предположим, что существует вспомогательная случайная величина

Y ∗ = XT β + ε, {\ displaystyle Y ^ {\ ast} = X ^ {T} \ beta + \ varepsilon,}{\ displaystyle Y ^ {\ ast} = X ^ {T} \ beta + \ varepsilon, }

где ε ~ N (0, 1). Тогда Y можно рассматривать как индикатор того, является ли эта скрытая переменная положительной:

Y = {1 Y ∗>0 0 в противном случае} = {1 XT β + ε>0 0 в противном случае} {\ displaystyle Y = \ left. {\ begin {cases} 1 Y ^ {*}>0 \\ 0 {\ text {else}} \ end {ases}} \ right \} = \ left. {\ begin {cases} 1 X ^ {T} \ beta + \ varepsilon>0 \\ 0 {\ text {else}} \ end {cases}} \ right \}}{\displaystyle Y=\left.{\begin{cases}1Y^{*}>0 \\ 0 {\ text {else}} \ end {cases}} \ right \} = \ left. {\ begin {cases} 1 X ^ {T} \ beta + \ varepsilon>0 \\ 0 {\ text {else}} \ end {ases}} \ right \}}

Использование стандартного нормального распределения не вызывает потеря общности по сравнению с использованием нормального распределения с произвольным средним и стандартным отклонением, поскольку добавление фиксированной величины к среднему можно компенсировать путем вычитания той же суммы из точки пересечения и умножения стандартного отклонения на фиксированная сумма может быть компенсирована путем умножения ng веса на такое же количество.

Чтобы убедиться, что эти две модели эквивалентны, обратите внимание, что

Pr (Y = 1 ∣ X) = Pr (Y ∗>0) = Pr (XT β + ε>0) = Pr (ε>- XT β) = Pr (ε < X T β) by symmetry of the normal distribution = Φ ( X T β) {\displaystyle {\begin{aligned}\Pr(Y=1\mid X)\\={}\Pr(Y^{\ast }>0) \\ = {} \ Pr (X ^ {T} \ beta + \ varepsilon>0) \\ = {} \ Pr (\ varepsilon>-X ^ {T} \ beta) \\ = {} \ Pr (\ varepsilon {\displaystyle {\begin{aligned}\Pr(Y=1\mid X)\\={}\Pr(Y^{\ast }>0) \\ = {} \ Pr (X ^ {T} \ beta + \ varepsilon>0) \\ = {} \ Pr (\ varepsilon>-X ^ {T} \ beta) \\ = {} \ Pr (\ varepsilon <X^{T}\beta){\text{by symmetry of the normal distribution}}\\={}\Phi (X^{T}\beta)\end{aligned}}}
Оценка модели

Оценка максимального правдоподобия

Предположим, что набор данных {yi, xi} i = 1 n {\ displaystyle \ {y_ {i}, x_ {i} \} _ {i = 1} ^ {n}}\{y_i,x_i\}_{i=1}^nсодержит n независимые статистические единицы, соответствующие модели выше.

Для единственного наблюдения, обусловленного вектором входных данных этого наблюдения, мы имеем:

P r (yi = 1 | xi) Знак равно Φ (xi ′ β) {\ displaystyle Pr (y_ {i} = 1 | x_ {i}) = \ Phi (x_ {i} '\ beta)}{\displaystyle Pr(y_{i}=1|x_{i})=\Phi (x_{i}'\beta)}
P r (yi = 0 | xi) Знак равно 1 - Φ (xi ′ β) {\ displaystyle Pr (y_ {i} = 0 | x_ {i}) = 1- \ Phi (x_ {i} '\ beta)}{\displaystyle Pr(y_{i}=0|x_{i})=1-\Phi (x_{i}'\beta)}

где xi { \ displaystyle x_ {i}}x_ {i} - вектор K × 1 {\ display стиль K \ times 1}{\ displaystyle K \ times 1} входы, а β {\ displaystyle \ beta}\ beta - это K × 1 {\ displaystyle K \ times 1}{\ displaystyle K \ times 1} вектор коэффициентов.

Тогда вероятность единичного наблюдения (yi, xi) {\ displaystyle (y_ {i}, x_ {i})}{\ displaystyle (y_ {i}, x_ {i})} равна

L (β; yi, xi) знак равно Φ (xi ′ β) yi [1 - Φ (xi ′ β)] (1 - yi) {\ displaystyle {\ mathcal {L}} (\ beta; y_ {i}, x_ {i}) = \ Phi (x_ {i} '\ beta) ^ {y_ {i}} [1- \ Phi (x_ {i}' \ beta)] ^ {(1-y_ {i})}}{\displaystyle {\mathcal {L}}(\beta ;y_{i},x_{i})=\Phi (x_{i}'\beta)^{y_{i}}[1-\Phi (x_{i}'\beta)]^{(1-y_{i})}}

Фактически, если yi = 1 {\ displaystyle y_ {i} = 1}y_ {i} = 1 , то L (β; yi, xi) = Φ (xi ′ β) {\ displaystyle { \ mathcal {L}} (\ beta; y_ {i}, x_ {i}) = \ Phi (x_ {i} '\ beta)}{\displaystyle {\mathcal {L}}(\beta ;y_{i},x_{i})=\Phi (x_{i}'\beta)}, и если yi = 0 {\ displaystyle y_ {i} = 0}y_{i}=0, тогда L (β; yi, xi) = 1 - Φ (xi ′ β) {\ displaystyle {\ mathcal {L}} (\ beta; y_ {i}, x_ {i}) = 1- \ Phi (x_ {i} '\ beta)}{\displaystyle {\mathcal {L}}(\beta ;y_{i},x_{i})=1-\Phi (x_{i}'\beta)}.

Поскольку наблюдения независимы и одинаково распределены, то вероятность всей выборки или совокупная вероятность, будет равно произведению вероятностей отдельных наблюдений:

L (β; Y, X) = ∏ i = 1 n (Φ (xi ′ β) yi [1 - Φ (xi ′ β)] ( 1 - йи)) {\ displaystyle { \ mathcal {L}} (\ beta; Y, X) = \ prod _ {i = 1} ^ {n} \ left (\ Phi (x_ {i} '\ beta) ^ {y_ {i}} [1 - \ Phi (x_ {i} '\ beta)] ^ {(1-y_ {i})} \ right)}{\displaystyle {\mathcal {L}}(\beta ;Y,X)=\prod _{i=1}^{n}\left(\Phi (x_{i}'\beta)^{y_{i}}[1-\Phi (x_{i}'\beta)]^{(1-y_{i})}\right)}

Таким образом, объединенная функция логарифмического правдоподобия равна

ln ⁡ L (β; Y, Икс) знак равно ∑ я знак равно 1 N (yi ln ⁡ Φ (xi ′ β) + (1 - yi) ln (1 - Φ (xi ′ β))) {\ displaystyle \ ln {\ mathcal {L}} (\ beta; Y, X) = \ sum _ {i = 1} ^ {n} {\ bigg (} y_ {i} \ ln \ Phi (x_ {i} '\ beta) + (1-y_ {i }) \ ln \! {\ big (} 1- \ Phi (x_ {i} '\ beta) {\ big)} {\ bigg)}}{\displaystyle \ln {\mathcal {L}}(\beta ;Y,X)=\sum _{i=1}^{n}{\bigg (}y_{i}\ln \Phi (x_{i}'\beta)+(1-y_{i})\ln \!{\big (}1-\Phi (x_{i}'\beta){\big)}{\bigg)}}

Оценщик β ^ {\ displaystyle {\ hat {\ beta}}}{\ hat {\ beta}} , которая максимизирует эту функцию, будет непротиворечивым, асимптотически нормальным и эффективным при условии, что E [XX '] существует и не является единичным. Можно показать, что эта функция логарифмического правдоподобия в целом вогнута по β, и поэтому стандартные численные алгоритмы оптимизации быстро сходятся к единственному максимуму.

Асимптотическое распределение для β ^ {\ displaystyle {\ hat {\ beta}}}{\ hat {\ beta}} дается как

n (β ^ - β) → d N (0, Ω - 1), {\ displaystyle {\ sqrt {n}} ({\ hat {\ beta}} - \ beta) \ {\ xrightarrow {d}} \ {\ mathcal {N}} (0, \, \ Omega ^ {- 1}),}\ sqrt {n} (\ hat \ beta - \ beta) \ \ xrightarrow {d} \ mathcal {N} (0, \, \ Omega ^ {-1}),

где

Ω = E ⁡ [φ 2 (X ′ β) Φ (X ′ β) (1 - Φ (X ′ β)) XX ′], Ω ^ Знак равно 1 N ∑ я знак равно 1 N φ 2 (xi ′ β ^) Φ (xi ′ β ^) (1 - Φ (xi ′ β ^)) xixi ′, {\ displaystyle \ Omega = \ operatorname {E} { \ bigg [} {\ frac {\ varphi ^ {2} (X '\ beta)} {\ Phi (X' \ beta) (1- \ Phi (X '\ beta))}} XX' {\ bigg] }, \ qquad {\ hat {\ Omega}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} {\ frac {\ varphi ^ {2} (x '_ { i} {\ hat {\ beta}})} {\ Phi (x '_ {i} {\ hat {\ beta}}) (1- \ Phi (x' _ {i} {\ hat {\ beta}) }))}} x_ {i} x '_ {i},}{\displaystyle \Omega =\operatorname {E} {\bigg [}{\frac {\varphi ^{2}(X'\beta)}{\Phi (X'\beta)(1-\Phi (X'\beta))}}XX'{\bigg ]},\qquad {\hat {\Omega }}={\frac {1}{n}}\sum _{i=1}^{n}{\frac {\varphi ^{2}(x'_{i}{\hat {\beta }})}{\Phi (x'_{i}{\hat {\beta }})(1-\Phi (x'_{i}{\hat {\beta }}))}}x_{i}x'_{i},}

и φ = Φ ′ {\ displaystyle \ varphi = \ Phi'}{\displaystyle \varphi =\Phi '}- функция плотности вероятности ( PDF ) стандартного нормального распределения.

Также доступны полупараметрические и непараметрические методы максимального правдоподобия для моделей пробит-типа и других связанных моделей.

Метод минимального хи-квадрат Берксона

Этот метод может быть применяется только тогда, когда имеется много наблюдений переменной ответа yi {\ displaystyle y_ {i}}y_ {i} , имеющей одинаковое значение вектора регрессоров xi {\ displaystyle x_ {i}}x_ {i} (такую ​​ситуацию можно назвать «много наблюдений на ячейку»). Более конкретно модель можно сформулировать следующим образом.

Предположим, что среди n наблюдений {yi, xi} i = 1 n {\ displaystyle \ {y_ {i}, x_ {i} \} _ {i = 1} ^ {n}}\{y_i,x_i\}_{i=1}^nсуществует только T различных значений регрессоров, которые можно обозначить как {x (1),…, x (T)} {\ displaystyle \ {x _ {(1)}, \ ldots, х _ {(Т)} \}}\ {x _ {(1)}, \ ldots, x _ {( T)} \} . Пусть nt {\ displaystyle n_ {t}}n_t будет количеством наблюдений с xi = x (t), {\ displaystyle x_ {i} = x _ {(t)}, }x_i = x _ {(t)}, и rt {\ displaystyle r_ {t}}r_ {t} количество таких наблюдений с yi = 1 {\ displaystyle y_ {i} = 1}y_ {i} = 1 . Мы предполагаем, что действительно существует «много» наблюдений для каждой «ячейки»: для каждой t, lim n → ∞ nt / n = ct>0 {\ displaystyle t, \ lim _ {n \ rightarrow \ infty} n_ {t} / n = c_ {t}>0}т, \ lim_ {n \ rightarrow \ infty} n_t / n = c_t>0 .

Обозначьте

p ^ t = rt / nt {\ displaystyle {\ hat {p}} _ {t} = r_ {t} / n_ {t}}\ hat {p} _t = r_t / n_t
σ ^ t 2 = 1 ntp ^ t (1 - p ^ t) φ 2 (Φ - 1 (p ^ t)) {\ displaystyle {\ hat {\ sigma}} _ {t} ^ {2} = {\ frac {1} {n_ {t}}} {\ frac {{\ hat {p}} _ {t} (1 - {\ hat {p}} _ {t})} { \ varphi ^ {2} {\ big (} \ Phi ^ {- 1} ({\ hat {p}} _ {t}) {\ big)}}}}\ hat \ sigma_t ^ 2 = \ frac {1} {n_t} \ frac {\ hat {p} _t (1- \ hat {p} _t)} {\ varphi ^ 2 \ big (\ Phi ^ {- 1} (\ hat {p} _t) \ big)}

Тогда минимальное значение Чи Берксона квадратная оценка - это оценка обобщенных наименьших квадратов в регрессии Φ - 1 (p ^ t) {\ displaystyle \ Phi ^ {- 1} ({\ hat {p}} _ {t})}\ Phi ^ {- 1} (\ hat {p} _t) на x (t) {\ displaystyle x _ {(t)}}x _ {(t)} с весами σ ^ t - 2 {\ displaystyle { \ hat {\ sigma}} _ {t} ^ {- 2}}\ hat \ sigma_t ^ {- 2} :

β ^ = (∑ t = 1 T σ ^ t - 2 x (t) x (t) ′) - 1 ∑ T знак равно 1 T σ ^ T - 2 Икс (T) Φ - 1 (p ^ t) {\ displaystyle {\ hat {\ beta}} = {\ Bigg (} \ sum _ { t = 1} ^ {T} {\ hat {\ sigma}} _ {t} ^ {- 2} x _ {(t)} x '_ {(t)} {\ Bigg)} ^ {- 1} \ сумма _ {t = 1} ^ {T} {\ hat {\ sigma}} _ {t} ^ {- 2} x _ {(t)} \ Phi ^ {- 1} ({\ hat {p}} _ {t})} \hat\beta = \Bigg( \sum_{t=1}^T \hat\sigma_t^{-2}x_{(t)}x'_{(t)} \Bigg)^{-1} \sum_{t=1}^T \hat\sigma_t^{-2}x_{(t)}\Phi^{-1}(\hat{p}_t)

Можно показать, что эта оценка непротиворечива (при n → ∞ и фиксированном T), асимптотически нормальна и эффективна. Его преимущество - наличие закрытой формулы для оценки. Однако этот анализ имеет смысл проводить только тогда, когда отдельные наблюдения недоступны, а только их агрегированные подсчеты rt {\ displaystyle r_ {t}}r_ {t} , nt {\ displaystyle n_ {t}}n_t и x (t) {\ displaystyle x _ {(t)}}x _ {(t)} (например, при анализе поведения при голосовании).

Выборка Гиббса

Выборка Гиббса пробит-модели возможна, потому что регрессионные модели обычно используют нормальные априорные распределения по весам, и это распределение сопряжено с нормальным распределением ошибки (и, следовательно, скрытые переменные Y). Модель может быть описана как

β ∼ N (b 0, B 0) yi ∗ ∣ xi, β ∼ N (xi ′ β, 1) yi = {1, если yi ∗>0 0, иначе {\ displaystyle {\ begin {align} {\ boldsymbol {\ beta}} \ sim {\ mathcal {N}} (\ mathbf {b} _ {0}, \ mathbf {B} _ {0}) \\ [3pt] y_ { i} ^ {\ ast} \ mid \ mathbf {x} _ {i}, {\ boldsymbol {\ beta}} \ sim {\ mathcal {N}} (\ mathbf {x} '_ {i} {\ boldsymbol {\ beta}}, 1) \\ [3pt] y_ {i} = {\ begin {cases} 1 {\ text {if}} y_ {i} ^ {\ ast}>0 \\ 0 {\ text {иначе}} \ end {case}} \ end {align}}} \begin{align} \boldsymbol\beta \sim \mathcal{N}(\mathbf{b}_0, \mathbf{B}_0) \\[3pt] y_i^\ast\mid\mathbf{x}_i,\boldsymbol\beta \sim \mathcal{N}(\mathbf{x}'_i\boldsymbol\beta, 1) \\[3pt] y_i = \begin{cases} 1 \text{if } y_i^\ast>0 \\ 0 \ text {иначе} \ end {cases} \ end {align}

Отсюда мы можем определить все необходимые условные плотности:

B = (B 0 - 1 + X ′ X) - 1 β ∣ y ∗ ∼ N (B (B 0 - 1 b 0 + X ′ y ∗), B) yi ∗ ∣ yi = 0, xi, β ∼ N (xi ′ β, 1) [yi ∗ < 0 ] y i ∗ ∣ y i = 1, x i, β ∼ N ( x i ′ β, 1) [ y i ∗ ≥ 0 ] {\displaystyle {\begin{aligned}\mathbf {B} =(\mathbf {B} _{0}^{-1}+\mathbf {X} '\mathbf {X})^{-1}\\[3pt]{\boldsymbol {\beta }}\mid \mathbf {y} ^{\ast }\sim {\mathcal {N}}(\mathbf {B} (\mathbf {B} _{0}^{-1}\mathbf {b} _{0}+\mathbf {X} '\mathbf {y} ^{\ast }),\mathbf {B})\\[3pt]y_{i}^{\ast }\mid y_{i}=0,\mathbf {x} _{i},{\boldsymbol {\beta }}\sim {\mathcal {N}}(\mathbf {x} '_{i}{\boldsymbol {\beta }},1)[y_{i}^{\ast }<0]\\[3pt]y_{i}^{\ast }\mid y_{i}=1,\mathbf {x} _{i},{\boldsymbol {\beta }}\sim {\mathcal {N}}(\mathbf {x} '_{i}{\boldsymbol {\beta }},1)[y_{i}^{\ast }\geq 0]\end{aligned}}}{\begin{aligned}{\mathbf {B}}=({\mathbf {B}}_{0}^{{-1}}+{\mathbf {X}}'{\mathbf {X}})^{{-1}}\\[3pt]{\boldsymbol \beta }\mid {\mathbf {y}}^{\ast }\sim {\mathcal {N}}({\mathbf {B}}({\mathbf {B}}_{0}^{{-1}}{\mathbf {b}}_{0}+{\mathbf {X}}'{\mathbf {y}}^{\ast }),{\mathbf {B}})\\[3pt]y_{i}^{\ast }\mid y_{i}=0,{\mathbf {x}}_{i},{\boldsymbol \beta }\sim {\mathcal {N}}({\mathbf {x}}'_{i}{\boldsymbol \beta },1)[y_{i}^{\ast }<0]\\[3pt]y_{i}^{\ast }\mid y_{i}=1,{\mathbf {x}}_{i},{\boldsymbol \beta }\sim {\mathcal {N}}({\mathbf {x}}'_{i}{\boldsymbol \beta },1)[y_{i}^{\ast }\geq 0]\end{aligned}}

Результат для β приведен в статье о байесовской линейной регрессии, хотя и указан с помощью diff другие обозначения.

Единственная хитрость заключается в последних двух уравнениях. Обозначение [yi ∗ < 0 ] {\displaystyle [y_{i}^{\ast }<0]}[y_i ^ \ ast <0] - это скобка Айверсона, иногда обозначаемая как I (yi ∗ < 0) {\displaystyle {\mathcal {I}}(y_{i}^{\ast }<0)}\ mathcal {I} (y_i ^ \ ast <0) или аналогичный. Это означает, что распределение должно быть усечено в заданном диапазоне и соответствующим образом масштабировано. В этом конкретном случае возникает усеченное нормальное распределение. Выборка из этого распределения зависит от того, насколько усечена. Если остается большая часть исходной массы, выборку можно легко выполнить с помощью выборки отклонения - просто выберите число из необрезанного распределения и отклоните его, если оно выходит за рамки ограничения, налагаемого усечением. Если выборка выполняется только из небольшой части однако исходная масса (например, если выборка происходит из одного из хвостов нормального распределения - например, если xi ′ β {\ displaystyle \ mathbf {x} '_ {i} {\ boldsymbol {\ beta}}}\mathbf{x}'_i\boldsymbol\betaсоставляет около 3 или более, и желательна отрицательная выборка), тогда это будет неэффективно, и возникнет необходимость вернуться к другому алгоритму выборки с. Общая выборка из усеченного нормального может быть достигнута с использованием приближений к нормальному CDF и пробит-функции, а R имеет функцию rtnorm ()для генерации усеченных нормальных выборок.

Оценка модели

Пригодность оцениваемой бинарной модели может быть оценена путем подсчета количества истинных наблюдений, равного 1, и числа, равного нулю, для которых модель назначает правильную предсказанную классификацию с помощью обработка любой оценочной вероятности выше 1/2 (или ниже 1/2) как присвоения прогноза 1 (или 0). Подробнее см. Логистическая регрессия § Пригодность модели.

Производительность при неправильной спецификации

Рассмотрим формулировку модели с латентными переменными пробит-модели. Когда дисперсия из ε {\ displaystyle \ varepsilon}\ varepsilon , обусловленная x {\ displaystyle x}x , не постоянна, а зависит от x {\ displaystyle x}x , тогда возникает проблема гетероскедастичности. Например, предположим, что y ∗ = β 0 + B 1 x 1 + ε {\ displaystyle y ^ {*} = \ beta _ {0} + B_ {1} x_ {1} + \ varepsilon}{\ displaystyle y ^ {*} = \ beta _ {0} + B_ {1} x_ {1} + \ varepsilon} и ε ∣ x ∼ N (0, x 1 2) {\ displaystyle \ varepsilon \ mid x \ sim N (0, x_ {1} ^ {2})}{\ displaystyle \ varepsilon \ mid x \ sim N (0, x_ {1} ^ {2})} где x 1 {\ displaystyle x_ {1}}x_{1}- непрерывная положительная независимая переменная. В условиях гетероскедастичности пробит-оценка для β {\ displaystyle \ beta}\ beta обычно непоследовательна, и большинство тестов для коэффициентов недействительны. Что еще более важно, оценка для P (y = 1 ∣ x) {\ displaystyle P (y = 1 \ mid x)}{\ displaystyle P (Y = 1 \ mid x)} также становится непоследовательной. Чтобы справиться с этой проблемой, исходная модель должна быть преобразована в гомоскедастическую. Например, в том же примере 1 [β 0 + β 1 x 1 + ε>0] {\ displaystyle 1 [\ beta _ {0} + \ beta _ {1} x_ {1} + \ varepsilon>0]}{\displaystyle 1[\beta _{0}+\beta _{1}x_{1}+\varepsilon>0]} можно переписать как 1 [β 0 / x 1 + β 1 + ε / x 1>0] {\ displaystyle 1 [\ beta _ {0} / x_ {1} + \ beta _ { 1} + \ varepsilon / x_ {1}>0]}{\displaystyle 1[\beta _{0}/x_{1}+\beta _{1}+\varepsilon /x_{1}>0]} , где ε / x 1 ∣ x ∼ N (0, 1) {\ displaystyle \ varepsilon / x_ {1} \ mid x \ sim N (0, 1)}{\ displaystyle \ varepsilon / x_ {1} \ mid x \ sim N (0,1)} . Следовательно, P (y = 1 ∣ x) = Φ (β 1 + β 0 / x 1) {\ displaystyle P (y = 1 \ mid x) = \ Phi (\ beta _ {1} + \ beta _ {0} / x_ {1})}{\ displaystyle P (y = 1 \ mid x) = \ Phi (\ beta _ {1} + \ beta _ {0} / x_ {1})} и пробит выполняется на (1, 1 / x 1) {\ displaystyle (1,1 / x_ {1})}{\ displaystyle (1,1 / x_ {1})} генерирует согласованную оценку для условной вероятности P (y = 1 ∣ x). {\ displaystyle P (y = 1 \ mid x).}{\ displaystyle P (y = 1 \ mid x).}

Когда предположение, что ε {\ displaystyle \ varepsilon}\ varepsilon нормально распределено, не выполняется, тогда функциональная форма ошибка спецификации возникает проблема: если модель все еще оценивается как пробит-модель, оценки коэффициентов β {\ displaystyle \ beta}\ beta несовместимы. Например, если ε {\ displaystyle \ varepsilon}\ varepsilon следует логистическому распределению в истинной модели, но модель оценивается пробит, оценки обычно будут меньше, чем истинное значение. Однако несоответствие оценок коэффициентов практически не имеет значения, поскольку оценки для, ∂ P (y = 1 ∣ x) / ∂ xi ′ {\ displaystyle \ partial P (y = 1 \ mid x) / \ partial x_ {i '}}{\displaystyle \partial P(y=1\mid x)/\partial x_{i'}}, будет близка к оценкам, данным истинной логит-моделью.

Чтобы избежать проблемы неправильной спецификации распределения, можно принять общее предположение о распределении ошибки термин, так что в модель может быть включено множество различных типов распределения. Стоимость - более тяжелые вычисления и меньшая точность увеличения количества параметров. В большинстве случаев на практике, когда форма распределения указана неверно, оценки для коэффициентов несовместимы, но оценки для условной вероятности и частичных эффектов все еще очень хороши.

Можно также использовать полупараметрические или непараметрические подходы, например, с помощью методов локального правдоподобия или непараметрических методов квази-правдоподобия, которые избегают допущений о параметрической форме для индексной функции и устойчивы к выбору функции связи (например, пробит или логит).

История

Пробит-модель обычно приписывается Честеру Блиссу, который ввел термин «пробит» в 1934 году, и Джону Гэддуму (1933)., систематизировавшие более ранние работы. Тем не менее, основная модель восходит к закону Вебера-Фехнера Густава Фехнера, опубликованному в Fechner (1860) harvtxt error: no target: CITEREFFechner1860 (help ) и неоднократно открывался заново до 1930-х годов; см. Finney (1971, глава 3.6) и Aitchison Brown (1957, Chapter 1.2) ошибка harvtxt: нет цели: CITEREFAitchisonBrown1957 (help ).

Быстрый метод вычисления оценки максимального правдоподобия для пробит-модели были предложены Рональдом Фишером в качестве приложения к работе Блисс в 1935 году.

См. Также
Литература
Дополнительная литература
  • Альберт, Дж. Х.; Чиб, С. (1993). «Байесовский анализ данных двоичных и полихотомических ответов». Журнал Американской статистической ассоциации. 88 (422): 669–679. doi : 10.1080 / 01621459.1993.10476321. JSTOR 2290350.
  • Амемия, Такеши (1985). «Модели качественного ответа». Advanced Econometrics. Oxford: Basil Blackwell. Pp. 267– 359. ISBN 0-631-13345-3.
  • Гуриеру, Кристиан (2000). «Простая дихотомия». Эконометрика качественных зависимых переменных. Нью-Йорк: Издательство Кембриджского университета. С. 6–37. ISBN 0-521-58985-1.
  • Ляо, Тим Футинг (1994). Интерпретация вероятностных моделей: логит-модели, пробит-модели и другие обобщенные линейные модели. Шалфей. ISBN 0-8039-4999-5.
  • МакКаллаг, Питер ; Джон Нелдер (1989). Обобщенные линейные модели. Лондон: Чепмен и Холл. ISBN 0-412-31760-5.
Внешние ссылки
Последняя правка сделана 2021-06-02 07:18:06
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте