Биномиальная регрессия

редактировать

В статистике, биномиальная регрессия является регрессионным анализом метод, в котором ответ (часто обозначаемый Y) имеет биномиальное распределение : это количество успехов в серии $n {\ displaystyle n}$ $n$ независимые испытания Бернулли, где каждое испытание имеет вероятность успеха $p {\ displaystyle p}$ $p$ . В биномиальной регрессии вероятность успеха связана с независимыми переменными : соответствующая концепция в обычной регрессии состоит в том, чтобы связать среднее значение ненаблюдаемой реакции с независимыми переменными.

Биномиальная регрессия тесно связана с двоичной регрессией : если ответом является двоичная переменная (два возможных результата), то это можно рассматривать как биномиальное распределение с $n = 1 {\ displaystyle n = 1}$ $n = 1$ испытание, в котором один из результатов рассматривается как «успех», а другой - как «неудача», с подсчетом результатов как 1 или 0: засчитывается успех как 1 успех из 1 испытания, а неудача - как 0 успехов из 1 испытания. Модели биномиальной регрессии по сути такие же, как модели двоичного выбора, один тип модели дискретного выбора. Основное различие заключается в теоретической мотивации.

В машинном обучении биномиальная регрессия рассматривается как частный случай вероятностной классификации и, следовательно, является обобщением двоичной классификации.

Содержание

1 Пример приложения
2 Модель дискретного выбора
3 Спецификация модели
4 Функции связи
5 Сравнение между моделями биномиальной регрессии и бинарным выбором
6 Интерпретация / вывод скрытых переменных
7 См. Также
8 Примечания
9 Ссылки

Пример приложения

В одном опубликованном примере применения биномиальной регрессии детали были следующими. Наблюдаемая переменная результата заключалась в том, произошла ли ошибка в производственном процессе. Существовали две объясняющие переменные: первая представляла собой простой фактор из двух случаев, показывающий, использовалась ли модифицированная версия процесса, а вторая - обычная количественная переменная, измеряющая чистоту материала, поставляемого для процесса.

Модель дискретного выбора

Модели дискретного выбора мотивируются с помощью теории полезности для обработки различных типов коррелированных и некоррелированных выборов, в то время как модели биномиальной регрессии обычно описываются в терминах обобщенной линейной модели, попытка обобщить различные типы моделей линейной регрессии. В результате модели дискретного выбора обычно описываются в первую очередь с помощью скрытой переменной, указывающей на «полезность» выбора, и со случайностью, вводимой через ошибочную переменную, распределенную в соответствии с конкретным распределение вероятностей. Обратите внимание, что сама скрытая переменная не наблюдается, а только фактический выбор, который предполагается, что был сделан, если чистая полезность была больше нуля. Однако в моделях бинарной регрессии не используются как скрытая переменная, так и переменная ошибки, и предполагается, что выбор сам по себе является случайной величиной с функцией связи , которая преобразует ожидаемое значение переменной выбора в значение, которое затем прогнозируется линейным предсказателем. Можно показать, что они эквивалентны, по крайней мере, в случае моделей двоичного выбора: функция связи соответствует квантильной функции распределения переменной ошибки, а функция обратной связи - переменной кумулятивная функция распределения (CDF) переменной ошибки. Скрытая переменная имеет эквивалент, если представить себе создание равномерно распределенного числа от 0 до 1, вычитание из него среднего (в форме линейного предиктора, преобразованного функцией обратной связи) и инвертирование знака. Затем у каждого есть число, вероятность которого больше 0 равна вероятности успеха в переменной выбора, и его можно рассматривать как скрытую переменную, указывающую, был ли выбран 0 или 1.

Спецификация модели

Предполагается, что результаты имеют биномиальное распределение. Их часто используют как обобщенную линейную модель, где предсказанные значения μ представляют собой вероятности того, что любое отдельное событие приведет к успеху. правдоподобие прогнозов затем определяется как

L (μ ∣ Y) = ∏ i = 1 n (1 yi = 1 (μ i) + 1 yi = 0 (1 - μ i)), {\ displaystyle L ({\ boldsymbol {\ mu}} \ mid Y) = \ prod _ {i = 1} ^ {n} \ left (1_ {y_ {i} = 1} (\ mu _ {i }) + 1_ {y_ {i} = 0} (1- \ mu _ {i}) \ right), \, \!}

L ({\ boldsymbol {\ mu}} \ mid Y) = \ prod _ {{i = 1}} ^ {n} \ left (1 _ {{y_ {i} = 1}} (\ mu _ {i}) + 1 _ {{y_ {i} = 0}} (1- \ mu _ {i}) \ right), \, \!

где 1 A - индикаторная функция , который принимает значение один, когда происходит событие A, и ноль в противном случае: в этой формулировке для любого данного наблюдения y i только один из двух членов внутри продукта участвует в зависимости от того, y i = 0 или 1. Функция правдоподобия более полно определяется путем определения формальных параметров μ i как параметризованных функций независимых переменных: это определяет вероятность с точки зрения уменьшенное количество параметров. Подгонка модели обычно достигается с помощью метода максимального правдоподобия для определения этих параметров. На практике использование формулировки в качестве обобщенной линейной модели позволяет воспользоваться преимуществами определенных алгоритмических идей, которые применимы ко всему классу более общих моделей, но не применимы ко всем задачам максимального правдоподобия.

Модели, используемые в биномиальной регрессии, часто могут быть расширены до полиномиальных данных.

Существует множество методов получения значений μ систематическими способами, которые позволяют интерпретировать модель; они обсуждаются ниже.

Связующие функции

Существует требование, чтобы моделирование, связывающее вероятности μ с независимыми переменными, имело форму, которая дает только значения в диапазоне от 0 до 1. Многие модели могут быть адаптированы. в виде

μ = g (η). {\ displaystyle {\ boldsymbol {\ mu}} = g ({\ boldsymbol {\ eta}}) \,.}

{\ boldsymbol {\ mu}} = g ({\ boldsymbol {\ eta}}) \,.

Здесь η - промежуточная переменная, представляющая линейную комбинацию независимых переменных, содержащую параметры регрессии.. Функция g является кумулятивной функцией распределения (cdf) некоторого распределения вероятностей. Обычно это распределение вероятностей имеет поддержку от минус бесконечности до плюс бесконечности, так что любое конечное значение η преобразуется функцией g в значение в диапазоне от 0 до 1.

В В случае логистической регрессии функция связи представляет собой журнал отношения шансов или логистическую функцию. В случае пробит ссылка представляет собой cdf нормального распределения. линейная вероятностная модель не является надлежащей спецификацией биномиальной регрессии, потому что прогнозы не обязательно должны находиться в диапазоне от нуля до единицы; он иногда используется для этого типа данных, когда интерпретация происходит в вероятностном пространстве или когда аналитику не хватает достаточного опыта для подбора или вычисления приблизительной линеаризации вероятностей для интерпретации.

Сравнение между моделями биномиальной регрессии и бинарного выбора

Модель бинарного выбора предполагает скрытую переменную Un, полезность (или чистую выгоду), которую человек n получает от совершения действия (в отличие от бездействия). Польза, которую получает человек от совершения действия, зависит от характеристик человека, некоторые из которых наблюдаются исследователем, а некоторые нет:

U n = β ⋅ sn + ε n {\ displaystyle U_ {n} = {\ boldsymbol {\ beta}} \ cdot \ mathbf {s_ {n}} + \ varepsilon _ {n}}

U_ {n} = {\ boldsymbol \ beta} \ cdot {\ mathbf {s_ { n}}} + \ varepsilon _ {n}

где $β {\ displaystyle {\ boldsymbol {\ beta}}}$ ${\ boldsymbol {\ beta}}$ представляет собой набор коэффициентов регрессии и $sn {\ displaystyle \ mathbf {s_ {n}}}$ ${\ mathbf {s_ {n}}}$ представляет собой набор независимых переменных ( также известные как «характеристики»), описывающие человека n, которые могут быть либо дискретными «фиктивными переменными », либо обычными непрерывными переменными. $ε n {\ displaystyle \ varepsilon _ {n}}$ $\ varepsilon _ {n}$ - случайная величина, определяющая «шум» или «ошибку» в прогнозе, предположительно распределенная в соответствии с некоторыми распространение. Обычно, если в распределении есть параметр среднего или дисперсии, его нельзя идентифицировать, поэтому для параметров устанавливаются удобные значения - по соглашению обычно означает 0, дисперсия 1.

человек выполняет действие, y n = 1, если U n>0. Предполагается, что ненаблюдаемый член ε n имеет логистическое распределение.

. В спецификации кратко написано:

- Un= βs n + ε n
- $Y n = {1, если U n>0, 0, если U n ≤ 0 {\ displaystyle Y_ {n} = {\ begin {cases} 1, {\ text {if}} U_ {n}>0, \\ 0, {\ text {if}} U_ {n} \ leq 0 \ end {cases}}}$ $Y_{n}={\begin{cases}1,{\text{if }}U_{n}>0, \\ 0, {\ text {if}} U_ {n} \ leq 0 \ end {cases}}$
- ε ∼ логистический, стандартный нормальный и т. Д.

Запишем это немного иначе:

- Un= βs n - е n
- $Y n = {1, если U n>0, 0, если U n ≤ 0 {\ displaystyle Y_ {n} = {\ begin {cases} 1, {\ text {if}} U_ {n }>0, \\ 0, {\ text {if}} U_ {n} \ leq 0 \ end {cases}}}$ $Y_{n}={\begin{cases}1,{\text{if }}U_{n}>0, \\ 0, {\ text {if}} U_ {n} \ leq 0 \ end {cases}}$
- e ∼ логистика, стандартный нормальный и т. Д.

Здесь мы сделали замену e n = −ε n. Это изменяет случайную переменную на несколько другую, определенную в отрицательной области. Как это бывает, обычно рассматриваемые нами распределения ошибок (например, логистическое распределение, стандартное нормальное распределение, стандартное t-распределение Стьюдента и т. Д.) Симметричны относительно 0, и, следовательно, распределение по e n идентично распределению по ε n.

Обозначим кумулятивную функцию распределения (CDF) для $e {\ displaystyle e}$ $e$ как $F e, {\ displaystyle F_ {e},}$ $F_ {e},$ и функция квантиля (обратный CDF) для $e {\ displaystyle e}$ $e$ как $F e - 1. {\ displaystyle F_ {e} ^ {- 1}.}$ $F_ {e} ^ {{- 1 }}.$

Обратите внимание, что

Pr (Y n = 1) = Pr (U n>0) = Pr (β ⋅ sn - en>0) = Pr (- ru>- β ⋅ sn) знак равно Pr (en ≤ β ⋅ sn) = F е (β ⋅ sn) {\ displaystyle {\ begin {align} \ Pr (Y_ {n} = 1) = \ Pr ( U_ {n}>0) \\ [6pt] = \ Pr ({\ boldsymbol {\ beta}} \ cdot \ mathbf {s_ {n}} -e_ {n}>0) \\ [6pt] = \ Pr (-e_ {n}>- {\ boldsymbol {\ beta}} \ cdot \ mathbf {s_ {n}}) \\ [6pt] = \ Pr (e_ {n} \ leq {\ boldsymbol {\ beta}} \ cdot \ mathbf {s_ {n}}) \\ [6pt] = F_ {e} ({\ boldsymbol {\ beta}} \ cdot \ mathbf {s_ {n}}) \ end {выровнено} }}

{\begin{aligned}\Pr(Y_{n}=1)=\Pr(U_{n}>0) \\ [6pt] = \ Pr ({\ boldsymbol \ beta} \ cdot {\ mathbf {s_ {n}}} - e_ {n}>0) \\ [6pt ] = \ Pr (-e_ {n}>- {\ boldsymbol \ beta} \ cdot {\ mathbf {s_ {n}}}) \\ [6pt] = \ Pr (e_ {n} \ leq {\ boldsymbol \ beta} \ cdot {\ mathbf {s_ {n}}}) \\ [6pt] = F_ {e} ({\ boldsymbol \ beta} \ cdot {\ mathbf {s_ {n}}}) \ end {align}}

Начиная с $Y n {\ displaystyle Y_ {n}}$ $Y_ {n}$ - это Бернулли испытание, где $E [Y n] = Pr (Y n = 1), {\ displaystyle \ mathbb {E} [Y_ {n}] = \ Pr (Y_ {n} = 1),}$ ${ \ mathbb {E}} [Y_ {n}] = \ Pr (Y_ {n} = 1),$ у нас есть

E [Y n] = F e (β ⋅ sn) {\ displaystyle \ mathbb {E} [Y_ {n}] = F_ {e} ({\ boldsymbol {\ beta }} \ cdot \ mathbf {s_ {n}})}

{\ mathbb {E}} [Y_ {n}] = F_ {e} ({\ boldsymbol \ beta} \ cdot {\ mathbf {s_ {n}}})

или эквивалентно

F e - 1 (E [Y n]) = β ⋅ sn. {\ displaystyle F_ {e} ^ {- 1} (\ mathbb {E} [Y_ {n}]) = {\ boldsymbol {\ beta}} \ cdot \ mathbf {s_ {n}}.}

F_ {e} ^ {- 1}} ({\ mathbb {E}} [ Y_ {n}]) = {\ boldsymbol \ beta} \ cdot {\ mathbf {s_ {n}}}.

Примечание что это в точности эквивалентно модели биномиальной регрессии, выраженной в формализме обобщенной линейной модели.

Если $en ∼ N (0, 1), {\ displaystyle e_ {n} \ sim {\ mathcal {N}} (0,1),}$ $e_ {n} \ sim {\ mathcal {N}} (0,1),$ т.е. распределено как стандартное нормальное распределение, тогда

Φ - 1 (E [Y n]) = β ⋅ sn {\ displaystyle \ Phi ^ {- 1} (\ mathbb {E} [Y_ { n}]) = {\ boldsymbol {\ beta}} \ cdot \ mathbf {s_ {n}}}

\ Phi ^ {{- 1}} ({\ mathbb {E}} [Y_ {n}]) = {\ boldsymbol \ beta} \ cdot {\ mathbf {s_ {n}}}

что в точности является пробит-моделью.

Если $en ∼ Logistic ⁡ (0, 1), {\ displaystyle e_ {n} \ sim \ operatorname {Logistic} (0,1),}$ $e_ {n} \ sim \ operatorname {Logistic} (0,1),$ т.е. распределено как стандартное логистическое распределение со средним значением 0 и параметром масштаба 1, тогда соответствующая функция квантиля является функцией логита, а

logit ⁡ (E [Y n]) = β ⋅ sn {\ displaystyle \ operatorname {logit} (\ mathbb {E} [Y_ {n}]) = {\ boldsymbol {\ beta}} \ cdot \ mathbf { s_ {n}}}

\ operatorname {logit} ({\ mathbb {E}} [Y_ {n}]) = {\ boldsymbol \ beta} \ cdot {\ m athbf {s_ {n}}}

что в точности является логит-моделью.

Обратите внимание, что два разных формализма - обобщенные линейные модели (GLM) и модели дискретного выбора - эквивалентны в случае простых моделей бинарного выбора, но могут быть расширены разными способами:

GLM может легко обрабатывать произвольно распределенные переменные ответа (зависимые переменные ), а не только категориальные переменные или порядковые переменные, которыми модели дискретного выбора ограничены по своей природе. GLM также не ограничивается функциями связывания, которые являются функциями квантилей некоторого распределения, в отличие от использования переменной ошибки, которая по предположению должна иметь распределение вероятностей.
С другой стороны, поскольку модели дискретного выбора описываются как типы генеративных моделей, концептуально легче распространить их на сложные ситуации с множественными, возможно, коррелированными вариантами выбора для каждого человека или другими вариациями.

Интерпретация / вывод скрытых переменных

A модель скрытых переменных, включающая биномиальную наблюдаемую переменную Y, может быть построена так, что Y связана со скрытой переменной Y * через

Y = {0, если Y ∗>0 1, если Y ∗ < 0. {\displaystyle Y={\begin{cases}0,{\t_dv{if }}Y^{*}>0 \\ 1, {\ t_dv {if}} Y ^ {*} <0.\end{cases}}}

Y={\begin{cases}0,{\t_dv{if }}Y^{*}>0 \\ 1, {\ t_dv {if}} Y ^ {*} <0.\end{cases}}

Затем латентная переменная Y * связана с набором регрессионных переменных X моделью

Y ∗ = X β + ϵ. {\ displaystyle Y ^ {*} = X \ beta + \ epsilon \.}

Y ^ {*} = X \ beta + \ epsilon \.

Это приводит к модели биномиальной регрессии.

Дисперсия не может быть идентифицирована, и когда она не представляет интереса, часто предполагается, что она равна единице. Если нормально распределено, тогда подходящей моделью является пробит, а если ϵ распределено по лог-Вейбуллу, тогда подходит логит. Если ϵ равномерно распределен, то подходит линейная вероятностная модель.

См. Также

Примечания

^ Сэнфорд Вайсберг (2005). «Биномиальная регрессия». Прикладная линейная регрессия. Wiley-IEEE. Стр. 253 –254. ISBN 0-471-66379-4.
^Cox Snell (1981), пример H, стр. 91

Ссылки

Cox, D. R. ; Snell, E.J. (1981). Прикладная статистика: принципы и примеры. Чепмен и Холл. ISBN 0-412-16570-8.