Логистическая регрессия

редактировать

Статистическая модель для двоичной зависимой переменной

В статистика, логистика модель (или модель логита ) используется для моделирования вероятности существования определенного класса или события, например, пройден / не пройден, выиграл / проиграл, жив / мертв или здоров / болен. Это может быть расширено для моделирования нескольких классов событий, таких как определение наличия на изображении кошки, собаки, льва и т. Д. Каждому обнаруживаемому на изображении объекту будет присвоена вероятность от 0 до 1 с суммой, равной единице.

Логистическая регрессия - это статистическая модель, которая в своей базовой форме использует логистическую функцию для моделирования двоичной зависимой переменной, хотя существует множество более сложных расширений. В регрессионном анализе, логистическая регрессия (или логит-регрессия ) - это оценка параметров логистической модели (форма двоичная регрессия ). Математически бинарная логистическая модель имеет зависимую переменную с двумя возможными значениями, например годен / не годен, которая представлена индикаторной переменной , где два значения помечены как «0» и «1». В логистической модели логарифм-шансы (логарифм от шансов ) для значения с меткой «1» представляет собой линейную комбинацию одной или нескольких независимых переменных («предикторов»); каждая независимая переменная может быть двоичной переменной (два класса, кодируемых индикаторной переменной) или непрерывной переменной (любое действительное значение). Соответствующая вероятность значения, помеченного «1», может варьироваться от 0 (обязательно значение «0») до 1 (безусловно, значение «1»), отсюда и маркировка; функция, которая преобразует логарифмические шансы в вероятность, является логистической функцией, отсюда и название. единица измерения для логарифмической шкалы шансов называется логит, от log istic un it, отсюда и альтернативные названия. Можно также использовать аналогичные модели с другой сигмовидной функцией вместо логистической функции, например, пробит-модель ; определяющей характеристикой логистической модели является то, что увеличение одной из независимых переменных мультипликативно увеличивает шансы данного результата с постоянной скоростью, при этом каждая независимая переменная имеет свой собственный параметр; для двоичной зависимой переменной это обобщает отношение шансов.

. В модели двоичной логистической регрессии зависимая переменная имеет два уровня (категориальный ). Выходы с более чем двумя значениями моделируются с помощью полиномиальной логистической регрессии и, если несколько категорий упорядочены, с помощью порядковой логистической регрессии (например, порядковый номер пропорционального шанса логистическая модель). Сама модель логистической регрессии просто моделирует вероятность выхода с точки зрения входных данных и не выполняет статистическую классификацию (это не классификатор), хотя ее можно использовать для создания классификатора, например, путем выбора порогового значения. значение и классификация входных данных с вероятностью выше порогового значения как один класс, ниже порогового значения как другой; это обычный способ создания бинарного классификатора . Коэффициенты обычно не вычисляются с помощью выражения в замкнутой форме, в отличие от линейного метода наименьших квадратов ; см. § Примерка модели. Логистическая регрессия как общая статистическая модель была первоначально разработана и популяризирована в первую очередь Джозефом Берксоном, начиная с Берксона (1944) harvtxt error: no target: CITEREFBerkson1944 (help ), где он придумал "логит"; см. § История.

Содержание

1 Приложения
2 Примеры
- 2.1 Логистическая модель
- 2.2 Вероятность сдачи экзамена по сравнению с часами обучения
3 Обсуждение
4 Логистическая регрессия по сравнению с другими подходами
5 Интерпретация скрытой переменной
6 Логистическая функция, шансы, отношение шансов и логит
- 6.1 Определение логистической функции
- 6.2 Определение обратной логистической функции
- 6.3 Интерпретация этих терминов
- 6.4 Определение шансов
- 6.5 Отношение шансов
- 6.6 Множественные объясняющие переменные
7 Подгонка модели
- 7.1 «Правило десяти»
- 7.2 Оценка максимального правдоподобия (MLE)
  - 7.2.1 Функция кросс-энтропии потерь
- 7.3 Итеративно пересчитываемые наименьшие квадраты (IRLS)
- 7.4 Оценка согласия
  - 7.4.1 Тесты на отклонение и отношение правдоподобия
  - R-квадрат
  - 7.4.3 Тест Хосмера – Лемешоу
8 Коэффициенты
- 8.1 Тест отношения правдоподобия
- 8.2 Статистика Вальда
- 8.3 Выборка случай-контроль
9 Формальные математические характеристики на
- 9.1 Настройка
- 9.2 Как обобщенная линейная модель
- 9.3 Как модель со скрытыми переменными
- 9.4 Двусторонняя модель со скрытыми переменными
  - 9.4.1 Пример
- 9.5 Как " лог-линейная модель
- 9.6 В качестве однослойного персептрона
- 9.7 В терминах биномиальных данных
10 Байесовская
11 История
12 Расширения
13 Программное обеспечение
14 См. также
15 Ссылки
16 Дополнительная литература
17 Внешние ссылки

Приложения

Логистическая регрессия используется в различных областях, включая машинное обучение, большинство областей медицины и социальных наук. Например, шкала оценки травм и тяжести травм (TRISS ), которая широко используется для прогнозирования смертности травмированных пациентов, была первоначально разработана Бойдом и др. с использованием логистической регрессии. Многие другие медицинские шкалы, используемые для оценки степени тяжести состояния пациента, были разработаны с использованием логистической регрессии. Логистическая регрессия может использоваться для прогнозирования риска развития данного заболевания (например, диабет ; ишемическая болезнь сердца ) на основе наблюдаемых характеристик пациента (возраст, пол, индекс массы тела, результаты различных анализов крови и т. д.). Другой пример может заключаться в том, чтобы предсказать, проголосует ли непальский избиратель за Конгресс Непала, Коммунистическую партию Непала или любую другую партию, на основании возраста, дохода, пола, расы, государства проживания, голосов на предыдущих выборах и т. Д. используется в инженерии, особенно для прогнозирования вероятности отказа данного процесса, системы или продукта. Он также используется в приложениях маркетинга, таких как прогнозирование склонности клиента к покупке продукта или прекращению подписки и т. Д. В экономике его можно использовать для прогнозирования вероятности того, что человек выбрав работу, и бизнес-приложение должно было бы прогнозировать вероятность того, что домовладелец не сможет выполнить свои обязательства по ипотеке . Условные случайные поля, расширение логистической регрессии для последовательных данных, используются в обработке естественного языка.

Примеры

Логистическая модель

Давайте попробуем понять логистическую регрессию, рассмотрев логистическую модель с заданными параметрами, а затем увидев, как можно оценить коэффициенты на основе данных. Рассмотрим модель с двумя предикторами, $x 1 {\ displaystyle x_ {1}}$ $x_{1}$ и $x 2 {\ displaystyle x_ {2}}$ $x_{2}$ , и одним двоичным (Бернулли) переменная ответа $Y {\ displaystyle Y}$ $Y$ , которую мы обозначаем $p = P (Y = 1) {\ displaystyle p = P (Y = 1)}$ $p=P(Y=1)$ . Мы предполагаем наличие линейной связи между переменными-предикторами и логарифмическими коэффициентами события, которое $Y = 1 {\ displaystyle Y = 1}$ $Y=1$ . Это линейное соотношение может быть записано в следующей математической форме (где ℓ - логарифм шансов, $b {\ displaystyle b}$ $b$ - основание логарифма, а $β i {\ displaystyle \ beta _ {i}}$ $\beta _{i}$ - параметры модели):

ℓ = log b ⁡ p 1 - p = β 0 + β 1 x 1 + β 2 x 2 {\ displaystyle \ ell = \ log _ {b} {\ frac {p} {1-p}} = \ beta _ {0} + \ beta _ {1} x_ {1} + \ beta _ {2} x_ {2}}

{\ displaystyle \ ell = \ log _ {b} {\ frac {p} {1-p}} = \ beta _ {0} + \ beta _ {1} x_ {1} + \ beta _ {2} x_ {2}}

Мы можем восстановить шансы, возведя в степень логарифмические шансы:

p 1 - p = b β 0 + β 1 x 1 + β 2 x 2 {\ displaystyle {\ frac {p } {1-p}} = b ^ {\ beta _ {0} + \ beta _ {1} x_ {1} + \ beta _ {2} x_ {2}}}

{\frac {p}{1-p}}=b^{\beta _{0}+\beta _{1}x_{1}+\beta _{2}x_{2}}

С помощью простых алгебраических манипуляций вероятность того, что $Y = 1 {\ displaystyle Y = 1}$ $Y=1$ равно

p = b β 0 + β 1 x 1 + β 2 x 2 b β 0 + β 1 x 1 + β 2 Икс 2 + 1 знак равно 1 1 + б - (β 0 + β 1 Икс 1 + β 2 Икс 2) {\ Displaystyle p = {\ frac {b ^ {\ beta _ {0} + \ beta _ {1} x_ {1} + \ beta _ {2} x_ {2}}} {b ^ {\ beta _ {0} + \ beta _ {1} x_ {1} + \ beta _ {2} x_ {2}} +1}} = {\ frac {1} {1 + b ^ {- (\ beta _ {0} + \ beta _ {1} x_ {1} + \ beta _ {2} x_ {2})}} }}

p={\frac {b^{\beta _{0}+\beta _{1}x_{1}+\beta _{2}x_{2}}}{b^{\beta _{0}+\beta _{1}x_{1}+\beta _{2}x_{2}}+1}}={\frac {1}{1+b^{-(\beta _{0}+\beta _{1}x_{1}+\beta _{2}x_{2})}}}

Приведенная выше формула показывает, что как только $β i {\ displaystyle \ beta _ {i}}$ $\beta _{i}$ зафиксировано, мы можем легко вычислить либо логарифмические шансы, что $Y = 1 {\ displaystyle Y = 1}$ $Y=1$ для данного наблюдения или вероятность того, что $Y = 1 {\ displaystyle Y = 1}$ $Y=1$ для данного наблюдения. Основным вариантом использования логистической модели является получение наблюдения $(x 1, x 2) {\ displaystyle (x_ {1}, x_ {2})}$ $(x_1,x_2)$ и оценка вероятность $p {\ displaystyle p}$ $p$ , что $Y = 1 {\ displaystyle Y = 1}$ $Y=1$ . В большинстве приложений основание $b {\ displaystyle b}$ $b$ логарифма обычно принимается равным e. Однако в некоторых случаях легче передать результаты, работая с основанием 2 или основанием 10.

Мы рассмотрим пример с $b = 10 {\ displaystyle b = 10}$ $b = 10$ и коэффициенты $β 0 = - 3 {\ displaystyle \ beta _ {0} = - 3}$ $\beta _{0}=-3$ , $β 1 = 1 {\ displaystyle \ beta _ {1} = 1}$ $\beta _{1}=1$ и $β 2 = 2 {\ displaystyle \ beta _ {2} = 2}$ $\beta _{2}=2$ . Чтобы быть конкретным, модель имеет вид

log 10 ⁡ p 1 - p = ℓ = - 3 + x 1 + 2 x 2 {\ displaystyle \ log _ {10} {\ frac {p} {1-p}} = \ ell = -3 + x_ {1} + 2x_ {2}}

\log _{10}{\frac {p}{1-p}}=\ell =-3+x_{1}+2x_{2}

где $p {\ displaystyle p}$ $p$ - вероятность события, при котором $Y = 1 { \ displaystyle Y = 1}$ $Y=1$ .

Это можно интерпретировать следующим образом:

$β 0 = - 3 {\ displaystyle \ beta _ {0} = - 3}$ $\beta _{0}=-3$ - y- перехватить. Это логарифм события, что $Y = 1 {\ displaystyle Y = 1}$ $Y=1$ , когда предикторы $x 1 = x 2 = 0 {\ displaystyle x_ {1} = x_ {2} = 0}$ ${\ displaystyle x_ {1} = x_ {2} = 0}$ . Возведя в степень, мы можем увидеть, что когда $x 1 = x 2 = 0 {\ displaystyle x_ {1} = x_ {2} = 0}$ ${\ displaystyle x_ {1} = x_ {2} = 0}$ вероятность того, что $Y = 1 {\ displaystyle Y = 1}$ $Y=1$ от 1 до 1000 или $10–3 {\ displaystyle 10 ^ {- 3}}$ $10^{-3}$ . Точно так же вероятность события, что $Y = 1 {\ displaystyle Y = 1}$ $Y=1$ , когда $x 1 = x 2 = 0 {\ displaystyle x_ {1} = x_ {2} = 0}$ ${\ displaystyle x_ {1} = x_ {2} = 0}$ можно вычислить как $1 / (1000 + 1) = 1/1001 {\ displaystyle 1 / (1000 + 1) = 1/1001}$ $1/(1000+1)=1/1001$ .
$β 1 = 1 { \ displaystyle \ beta _ {1} = 1}$ $\beta _{1}=1$ означает, что увеличение $x 1 {\ displaystyle x_ {1}}$ $x_{1}$ на 1 увеличивает логарифмические шансы на $1 {\ displaystyle 1}$ $1$ . Таким образом, если $x 1 {\ displaystyle x_ {1}}$ $x_{1}$ увеличивается на 1, шансы того, что $Y = 1 {\ displaystyle Y = 1}$ $Y=1$ увеличиваются на коэффициент $10 1 {\ displaystyle 10 ^ {1}}$ $10^{1}$ . Обратите внимание, что вероятность из $Y = 1 {\ displaystyle Y = 1}$ $Y=1$ также увеличилась, но не настолько, насколько увеличились шансы.
$β 2 = 2 {\ displaystyle \ beta _ {2} = 2}$ $\beta _{2}=2$ означает, что увеличение $x 2 {\ displaystyle x_ {2}}$ $x_{2}$ на 1 увеличивает журнал -odds по $2 {\ displaystyle 2}$ $2$ . Таким образом, если $x 2 {\ displaystyle x_ {2}}$ $x_{2}$ увеличивается на 1, шансы того, что $Y = 1 {\ displaystyle Y = 1}$ $Y=1$ увеличиваются на коэффициент $10 2. {\ displaystyle 10 ^ {2}.}$ $10^{2}.$ Обратите внимание, как влияние $x 2 {\ displaystyle x_ {2}}$ $x_{2}$ на логарифмические шансы вдвое больше, чем эффект $x 1 {\ displaystyle x_ {1}}$ $x_{1}$ , но влияние на шансы в 10 раз больше. Но влияние на вероятность из $Y = 1 {\ displaystyle Y = 1}$ $Y=1$ не в 10 раз больше, это только влияние на шансы В 10 раз больше.

Чтобы оценить параметры $β i {\ displaystyle \ beta _ {i}}$ $\beta _{i}$ на основе данных, необходимо выполнить логистическую регрессию.

Вероятность сдачи экзамена в зависимости от часов обучения

Чтобы ответить на следующий вопрос:

Группа из 20 студентов тратит от 0 до 6 часов на подготовку к экзамену. Как количество часов, потраченных на обучение, влияет на вероятность сдачи студентом экзамена?

Причина использования логистической регрессии для этой проблемы заключается в том, что значения зависимой переменной, пройден и не пройден, хотя и представлены «1» и «0», не являются количественными числами. Если проблема была изменена таким образом, что результат «прошел / не прошел» был заменен оценкой 0–100 (количественные числа), то можно было использовать простой регрессионный анализ .

В таблице показано количество часов, потраченных каждым студентом на обучение, а также его прохождение (1) или неудача (0).

Часы	0,50	0,75	1,00	1,25	1,50	1,75	1,75	2,00	2,25	2,50	2,75	3,00	3,25	3,50	4,00	4,25	4,50	4,75	5,00	5,50
Пройдено	0	0	0	0	0	0	1	0	1	0	1	0	1	0	1	1	1	1	1	1

График показывает вероятность сдачи экзамена в зависимости от количества часов обучения, с кривой логистической регрессии, подобранной к данным.

График кривой логистической регрессии, показывающий вероятность сдачи экзамена по сравнению с часами обучения.

Анализ логистической регрессии дает следующий результат.

	Коэффициент	Стандартная ошибка	z- значение	P-значение (Wald)
Intercept	-4.0777	1,7610	−2,316	0,0206
Часы	1,5046	0,6287	2,393	0,0167

Вывод показывает, что количество часов обучения в значительной степени связано с вероятностью сдачи экзамена ( $p = 0,0167 {\ displaystyle p = 0,0167}$ $p=0.0167$ , тест Вальда ). Выходные данные также предоставляют коэффициенты для $Intercept = - 4.0777 {\ displaystyle {\ text {Intercept}} = - 4.0777}$ ${\text{Intercept}}=-4.0777$ и $Hours = 1.5046 {\ displaystyle {\ text {Hours} } = 1,5046}$ ${\text{Hours}}=1.5046$ . Эти коэффициенты вводятся в уравнение логистической регрессии для оценки шансов (вероятности) сдачи экзамена:

Лог-шансы сдачи экзамена = 1,5046 ⋅ Часы - 4,0777 = 1,5046 ⋅ (Часы - 2,71) Шансы сдачи экзамена = exp ⁡ (1,5046 ⋅ часов - 4,0777) = exp ⁡ (1,5046 ⋅ (часов - 2,71)) Вероятность сдачи экзамена = 1 1 + exp ⁡ (- (1,5046 ⋅ часов - 4,0777)) {\ displaystyle {\ begin {align} { \ text {Лог-шансы сдачи экзамена}} = 1,5046 \ cdot {\ text {Часы}} - 4,0777 = 1,5046 \ cdot ({\ text {Часы}} - 2,71) \\ {\ text {Шансы на сдачу экзамена }} = \ exp \ left (1.5046 \ cdot {\ text {Hours}} - 4.0777 \ right) = \ exp \ left (1.5046 \ cdot ({\ text {Hours}} - 2,71) \ right) \\ { \ text {Вероятность сдачи экзамена}} = {\ frac {1} {1+ \ exp \ left (- \ left (1.5046 \ cdot {\ text {Hours}} - 4.0777 \ right) \ right)}} \ end {align}}}

{\begin{aligned}{\text{Log-odds of passing exam}}=1.5046\cdot {\text{Hours}}-4.0777=1.5046\cdot ({\text{Hours}}-2.71)\\{\text{Odds of passing exam}}=\exp \left(1.5046\cdot {\text{Hours}}-4.0777\right)=\exp \left(1.5046\cdot ({\text{Hours}}-2.71)\right)\\{\text{Probability of passing exam}}={\frac {1}{1+\exp \left(-\left(1.5046\cdot {\text{Hours}}-4.0777\right)\right)}}\end{aligned}}

Один дополнительный час обучения, по оценкам, увеличит логарифмические шансы успешного прохождения экзамена на 1,5046, поэтому умножение шансов на прохождение экзамена на $exp ⁡ (1,5046) ≈ 4,5. {\ displaystyle \ exp (1.5046) \ приблизительно 4.5.}$ $\exp(1.5046)\approx 4.5.$ Форма с пересечением по оси x (2.71) показывает, что это оценивает четные шансы (логарифм-шансы 0, шансы 1, вероятность 1/2) для студента, который учится 2,71 часа.

Например, для студента, который учится 2 часа, ввод значения $Часы = 2 {\ displaystyle {\ text {Hours}} = 2}$ ${\text{Hours}}=2$ в уравнении дает расчетная вероятность сдачи экзамена 0,26:

Вероятность сдачи экзамена = 1 1 + exp ⁡ (- (1,5046 ⋅ 2 - 4,0777)) = 0,26 {\ displaystyle {\ text {Вероятность сдачи экзамена}} = {\ frac {1} {1+ \ exp \ left (- \ left (1.5046 \ cdot 2-4.0777 \ right) \ right)}} = 0,26}

{\text{Probability of passing exam}}={\frac {1}{1+\exp \left(-\left(1.5046\cdot 2-4.0777\right)\right)}}=0.26

Аналогично, для студента, который учится 4 часа, оценочная вероятность сдача экзамена составляет 0,87:

Вероятность сдачи экзамена = 1 1 + exp ⁡ (- (1,5046 ⋅ 4 - 4,0777)) = 0,87 {\ displaystyle {\ text {Вероятность сдачи экзамена}} = {\ frac {1 } {1+ \ exp \ left (- \ left (1.5046 \ cdot 4-4.0777 \ right) \ right)}} = 0,87}

{\text{Probability of passing exam}}={\frac {1}{1+\exp \left(-\left(1.5046\cdot 4-4.0777\right)\right)}}=0.87

В этой таблице показана вероятность сдачи экзамена для нескольких значений часов обучения.

Часы. учебы	Сдача экзамена
Часы. учебы	Журналы	Запросы	Вероятность
1	−2,57	0,076 ≈ 1: 13,1	0,07
2	−1,07	0,34 ≈ 1: 2,91	0,26
3	0,44	1,55	0,61
4	1,94	6,96	0,87
5	3,45	31,4	0,97

Результат анализа логистической регрессии дает p -значение $p = 0,0167 {\ displaystyle p = 0,0167}$ $p=0.0167$ , которое основано на z-оценке Вальда. Вместо метода Вальда для расчета p-значения для логистической регрессии рекомендуется использовать критерий отношения правдоподобия (LRT), который для этих данных дает $p = 0,0006 {\ displaystyle p = 0.0006}$ ${\ displaystyle p = 0.0006}$ .

Обсуждение

Логистическая регрессия может быть биномиальной, порядковой или полиномиальной. Биномиальная или двоичная логистическая регрессия имеет дело с ситуациями, в которых наблюдаемый результат для зависимой переменной может иметь только два возможных типа: «0» и «1» (которые могут представлять, например, «мертвый» vs. «жив» или «победа» против «проигрыша»). Полиномиальная логистическая регрессия имеет дело с ситуациями, в которых результат может иметь три или более возможных типа (например, «болезнь A» против «болезни B» против «болезни C»), которые не упорядочены. Порядковая логистическая регрессия имеет дело с упорядоченными зависимыми переменными.

В бинарной логистической регрессии результат обычно кодируется как «0» или «1», поскольку это приводит к наиболее простой интерпретации. Если конкретный наблюдаемый результат для зависимой переменной является заслуживающим внимания возможным результатом (называемым «успехом», «экземпляром» или «случаем»), он обычно кодируется как «1», а противоположный результат (называемый «сбой» или «неэкземпляр» или «не случай») как «0». Двоичная логистическая регрессия используется для прогнозирования шансов наличия случая на основе значений независимых переменных (предикторов). Шансы определяются как вероятность того, что конкретный исход является случаем, деленный на вероятность того, что это не случай.

Как и другие формы регрессионного анализа, логистическая регрессия использует одну или несколько переменных-предикторов, которые могут быть непрерывными или категориальными. Однако, в отличие от обычной линейной регрессии, логистическая регрессия используется для прогнозирования зависимых переменных, которые принимают принадлежность к одной из ограниченного числа категорий (рассматривая зависимую переменную в биномиальном случае как результат Бернулли. испытание ), а не непрерывный результат. Учитывая эту разницу, предположения линейной регрессии нарушаются. В частности, остатки не могут быть нормально распределены. Кроме того, линейная регрессия может делать бессмысленные прогнозы для двоичной зависимой переменной. Что необходимо, так это способ преобразования двоичной переменной в непрерывную, которая может принимать любое реальное значение (отрицательное или положительное). Для этого биномиальная логистическая регрессия сначала вычисляет шансы события, происходящего для разных уровней каждой независимой переменной, а затем берет свой логарифм, чтобы создать непрерывный критерий как преобразованную версию зависимая переменная. Логарифм шансов - это логит вероятности, логит определяется следующим образом:

логит ⁡ p = ln ⁡ p 1 - p для 0 < p < 1. {\displaystyle \operatorname {logit} p=\ln {\frac {p}{1-p}}\quad {\text{for }}0

\operatorname {logit} p=\ln {\frac {p}{1-p}}\quad {\text{for }}0<p<1\,.

Хотя зависимая переменная в логистической регрессии Бернулли, логит неограниченного масштаба. Логит-функция - это функция связи в таком виде обобщенной линейной модели, то есть

logit ⁡ E ⁡ (Y) = β 0 + β 1 x {\ displaystyle \ operatorname {logit} \ operatorname { \ mathcal {E}} (Y) = \ beta _ {0} + \ beta _ {1} x}

\operatorname {logit} \operatorname {\mathcal {E}} (Y)=\beta _{0}+\beta _{1}x

Y - это распределенная Бернулли переменная ответа, а x - переменная-предиктор; значения β - линейные параметры.

Затем логит вероятности успеха подбирается для предикторов. Прогнозируемое значение логита преобразуется обратно в прогнозируемые шансы с помощью обратного натурального логарифма - экспоненциальной функции . Таким образом, хотя наблюдаемая зависимая переменная в бинарной логистической регрессии представляет собой переменную 0 или 1, логистическая регрессия оценивает шансы, как непрерывную переменную, того, что зависимая переменная является «успехом». В некоторых приложениях все, что нужно, - это ставки. В других случаях требуется конкретный прогноз типа «да» или «нет» для определения того, является ли зависимая переменная «успехом»; это категориальное предсказание может быть основано на вычисленных шансах на успех, при этом предсказанные шансы выше некоторого выбранного значения отсечения переводятся в предсказание успеха.

Предположение о линейных эффектах предиктора можно легко ослабить с помощью таких методов, как сплайн-функции.

Логистическая регрессия по сравнению с другими подходами

Логистическая регрессия измеряет взаимосвязь между категориальной зависимой переменной и одну или несколько независимых переменных путем оценки вероятностей с использованием логистической функции , которая является кумулятивной функцией распределения логистического распределения. Таким образом, он обрабатывает тот же набор проблем, что и пробит-регрессия, используя аналогичные методы, причем последний использует вместо этого кумулятивную кривую нормального распределения. Эквивалентно, в интерпретации скрытых переменных этих двух методов, первый предполагает стандартное логистическое распределение ошибок, а второй - стандартное нормальное распределение ошибок.

Логистический регрессию можно рассматривать как частный случай обобщенной линейной модели и, таким образом, аналог линейной регрессии. Однако модель логистической регрессии основана на совершенно иных предположениях (о взаимосвязи между зависимыми и независимыми переменными) от предположений линейной регрессии. В частности, ключевые различия между этими двумя моделями можно увидеть в следующих двух особенностях логистической регрессии. Во-первых, условное распределение $y ∣ x {\ displaystyle y \ mid x}$ $y\mid x$ является распределением Бернулли, а не распределением Гаусса, поскольку зависимое переменная двоичная. Во-вторых, прогнозируемые значения являются вероятностями и поэтому ограничиваются (0,1) с помощью функции логистического распределения, поскольку логистическая регрессия предсказывает вероятность конкретных результатов, а не сами результаты.

Логистическая регрессия является альтернативой методу Фишера 1936 года, линейному дискриминантному анализу. Если допущения линейного дискриминантного анализа верны, обусловленность может быть отменена для получения логистической регрессии. Однако обратное неверно, поскольку логистическая регрессия не требует многомерного нормального допущения дискриминантного анализа.

Интерпретация скрытых переменных

Логистическая регрессия может пониматься просто как нахождение $β {\ displaystyle \ beta}$ $\beta$ наиболее подходящие параметры:

y = {1 β 0 + β 1 x + ε>0 0 else {\ displaystyle y = {\ begin {cases} 1 \ beta _ {0} + \ beta _ {1} x + \ varepsilon>0 \\ 0 {\ text {else}} \ end {cases}}}

y={\begin{cases}1\beta _{0}+\beta _{1}x+\varepsilon>0 \\ 0 {\ text {else} } \ end {cases}}

где $ε {\ displaystyle \ varepsilon}$ $\varepsilon$ - ошибка, распределенная стандартным логистическим распределением. (Если вместо этого используется стандартное нормальное распределение, это пробит модель.)

Соответствующая скрытая переменная: $y ′ = β 0 + β 1 x + ε {\ displaystyle y '= \ beta _ {0} + \ beta _ { 1} х + \ varepsilon}$ $y'=\beta _{0}+\beta _{1}x+\varepsilon$ . Член ошибки $ε {\ displaystyle \ varepsilon}$ $\varepsilon$ не наблюдается, поэтому $y ′ {\ displaystyle y '}$ $y'$ также ненаблюдаем, поэтому он называется «скрытый» (наблюдаемые данные представляют собой значения $y {\ displaystyle y}$ $y$ и $x {\ displaystyle x}$ $x$ ). Однако, в отличие от обычной регрессии, параметры $β {\ displaystyle \ beta}$ $\beta$ не могут быть выражены какой-либо прямой формулой $y {\ displaystyle y}$ $y$ и $x {\ displaystyle x}$ $x$ значений в наблюдаемых данных. Вместо этого они должны быть найдены с помощью итеративного процесса поиска, обычно реализуемого программой, которая находит максимум сложного «выражения вероятности», которое является функцией всех наблюдаемых $y {\ displaystyle y}$ $y$ и $x {\ displaystyle x}$ $x$ значения. Подход к оценке объясняется ниже.

Логистическая функция, шансы, отношение шансов и логит

Рисунок 1. Стандартная логистическая функция

σ (t) {\ displaystyle \ sigma (t)}

\sigma (t)

; обратите внимание, что

σ (t) ∈ (0, 1) {\ displaystyle \ sigma (t) \ in (0,1)}

\sigma (t)\in (0,1)

для всех

t {\ displaystyle t}

t

Определение логистической функции

Объяснение логистической регрессии можно начать с объяснения стандартной логистической функции . Логистическая функция - это сигмовидная функция, которая принимает любой реальный ввод $t {\ displaystyle t}$ $t$ , ( $t ∈ R {\ displaystyle t \ in \ mathbb {R}}$ $t\in \mathbb {R}$ ) и выводит значение от нуля до единицы; для логита это интерпретируется как получение входных данных логарифм-шансы и получение на выходе вероятности. Стандартная логистическая функция $σ: R → (0, 1) {\ displaystyle \ sigma: \ mathbb {R} \ rightarrow (0,1)}$ $\sigma :\mathbb {R} \rightarrow (0,1)$ определяется следующим образом:

σ (t) = etet + 1 = 1 1 + e - t {\ displaystyle \ sigma (t) = {\ frac {e ^ {t}} {e ^ {t} +1}} = {\ frac {1} {1 + e ^ {- t}}}}

\sigma (t)={\frac {e^{t}}{e^{t}+1}}={\frac {1}{1+e^{-t}}}

График логистической функции на t-интервале (−6,6) показан на рисунке 1.

Предположим, что $t {\ displaystyle t}$ $t$ - линейная функция одной независимой переменной $x {\ displaystyle x}$ $x$ (случай, когда $t {\ displaystyle t}$ $t$ - линейная комбинация нескольких независимых переменных, обрабатывается аналогично). Тогда мы можем выразить $t {\ displaystyle t}$ $t$ следующим образом:

t = β 0 + β 1 x {\ displaystyle t = \ beta _ {0} + \ beta _ {1 } x}

t=\beta _{0}+\beta _{1}x

И общая логистическая функция $p: R → (0, 1) {\ displaystyle p: \ mathbb {R} \ rightarrow (0,1)}$ ${\ displaystyle p: \ mathbb {R} \ rightarrow (0,1)}$ теперь может быть записывается как:

p (x) = σ (t) = 1 1 + e - (β 0 + β 1 x) {\ displaystyle p (x) = \ sigma (t) = {\ frac {1} { 1 + e ^ {- (\ beta _ {0} + \ beta _ {1} x)}}}}

p(x)=\sigma (t)={\frac {1}{1+e^{-(\beta _{0}+\beta _{1}x)}}}

В логистической модели $p (x) {\ displaystyle p (x)}$ $p(x)$ интерпретируется как вероятность того, что зависимая переменная $Y {\ displaystyle Y}$ $Y$ будет равна успеху / случаю, а не неудаче / отсутствию. Ясно, что переменные ответа $Y i {\ displaystyle Y_ {i}}$ $Y_{i}$ не имеют одинакового распределения: $P (Y i = 1 ∣ X) {\ displaystyle P (Y_ {i} = 1 \ mid X)}$ $P(Y_{i}=1\mid X)$ отличается от одной точки данных $X i {\ displaystyle X_ {i}}$ $X_{i}$ от другой, хотя они независимая заданная матрица проекта $X {\ displaystyle X}$ $X$ и общие параметры $β {\ displaystyle \ beta}$ $\beta$ .

Определение обратной логистической функции

Теперь мы можем определить функцию logit (логарифм шансов) как обратную $g = σ - 1 {\ displaystyle g = \ sigma ^ {- 1}}$ $g=\sigma ^{-1}$ стандартной логистической функции. Легко видеть, что он удовлетворяет:

g (p (x)) = σ - 1 (p (x)) = logit ⁡ p (x) = ln ⁡ (p (x) 1 - p (x)) знак равно β 0 + β 1 Икс, {\ Displaystyle g (p (x)) = \ sigma ^ {- 1} (p (x)) = \ operatorname {logit} p (x) = \ ln \ left ({ \ frac {p (x)} {1-p (x)}} \ right) = \ beta _ {0} + \ beta _ {1} x,}

{\ displaystyle g (p (x)) = \ sigma ^ {- 1} (p (x)) = \ operatorname {logit} p (x) = \ ln \ left ({\ frac {p (x)} {1-p (x)}} \ right) = \ beta _ {0} + \ beta _ {1} x,}

и, что то же самое, после возведения в степень обе стороны мы имеем шансы:

p (x) 1 - p (x) = e β 0 + β 1 x. {\ displaystyle {\ frac {p (x)} {1-p (x)}} = e ^ {\ beta _ {0} + \ beta _ {1} x}.}

{\frac {p(x)}{1-p(x)}}=e^{\beta _{0}+\beta _{1}x}.

Толкование этих терминов

В приведенных выше уравнениях используются следующие члены:

$g {\ displaystyle g}$ $g$ - логит-функция. Уравнение для $g (p (x)) {\ displaystyle g (p (x))}$ ${\ displaystyle g (p (x))}$ показывает, что logit (т. Е. Логарифм шансов или натуральный логарифм шансы) эквивалентно выражению линейной регрессии.
$ln {\ displaystyle \ ln}$ $\ln$ обозначает натуральный логарифм.
$p (x) {\ displaystyle p (x)}$ $p(x)$ - вероятность того, что зависимая переменная соответствует случаю, при некоторой линейной комбинации предикторов. Формула для $p (x) {\ displaystyle p (x)}$ $p(x)$ показывает, что вероятность того, что зависимая переменная равна случаю, равна значению логистической функции выражения линейной регрессии. Это важно, поскольку показывает, что значение выражения линейной регрессии может изменяться от отрицательной до положительной бесконечности, и все же после преобразования результирующее выражение для вероятности $p (x) {\ displaystyle p (x)}$ $p(x)$ находится в диапазоне от 0 до 1.
$β 0 {\ displaystyle \ beta _ {0}}$ $\beta _{0}$ - отрезок из уравнения линейной регрессии (значение критерий, когда предиктор равен нулю).
$β 1 x {\ displaystyle \ beta _ {1} x}$ $\beta _{1}x$ - коэффициент регрессии, умноженный на некоторое значение предиктора.
base $e {\ displaystyle e}$ $e$ обозначает экспоненциальную функцию.

Определение шансов

Шансы зависимой переменной, равной случаю (при некоторой линейной комбинации $x {\ displaystyle x}$ $x$ предикторов) эквивалентен экспоненциальной функции выражения линейной регрессии. Это иллюстрирует, как logit служит функцией связи между вероятностью и выражением линейной регрессии. Учитывая, что логит находится в диапазоне от отрицательной до положительной бесконечности, он обеспечивает адекватный критерий для проведения линейной регрессии, а логит легко конвертируется обратно в шансы.

Итак, мы определяем шансы зависимой переменной, равные случаю (при некоторой линейной комбинации $x {\ displaystyle x}$ $x$ предикторов) следующим образом:

шансы = e β 0 + β 1 x. {\ displaystyle {\ text {odds}} = e ^ {\ beta _ {0} + \ beta _ {1} x}.}

{\text{odds}}=e^{\beta _{0}+\beta _{1}x}.

Отношение шансов

Для непрерывной независимой переменной шансы соотношение может быть определено как:

ИЛИ = шансы ⁡ (x + 1) шансы ⁡ (x) = (F (x + 1) 1 - F (x + 1)) (F (x) 1 - F (x)) знак равно е β 0 + β 1 (Икс + 1) е β 0 + β 1 Икс = е β 1 {\ Displaystyle \ mathrm {ИЛИ} = {\ гидроразрыва {\ OperatorName {odds} (х + 1)} { \ operatorname {odds} (x)}} = {\ frac {\ left ({\ frac {F (x + 1)} {1-F (x + 1)}} \ right)} {\ left ({\ frac {F (x)} {1-F (x)}} \ right)}} = {\ frac {e ^ {\ beta _ {0} + \ beta _ {1} (x + 1)}} { e ^ {\ beta _ {0} + \ beta _ {1} x}}} = e ^ {\ beta _ {1}}}

\mathrm {OR} ={\frac {\operatorname {odds} (x+1)}{\operatorname {odds} (x)}}={\frac {\left({\frac {F(x+1)}{1-F(x+1)}}\right)}{\left({\frac {F(x)}{1-F(x)}}\right)}}={\frac {e^{\beta _{0}+\beta _{1}(x+1)}}{e^{\beta _{0}+\beta _{1}x}}}=e^{\beta _{1}}

Эта экспоненциальная зависимость дает интерпретацию для $β 1 {\ displaystyle \ beta _ {1}}$ $\beta _{1}$ : коэффициент умножается на $e β 1 {\ displaystyle e ^ {\ beta _ {1}}}$ $e ^ {\ beta _ {1}}$ для каждого увеличения на 1 единицу. в x.

Для двоичной независимой переменной отношение шансов определяется как $adbc {\ displaystyle {\ frac {ad} {bc}}}$ ${\frac {ad}{bc}}$ где a, b, c и d - ячейки в таблице непредвиденных обстоятельств 2 × 2 .

Множественное объяснение Или переменные

Если есть несколько независимых переменных, приведенное выше выражение $β 0 + β 1 x {\ displaystyle \ beta _ {0} + \ beta _ {1} x}$ $\beta _{0}+\beta _{1}x$ можно изменить на $β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β mxm = β 0 + ∑ i = 1 m β ixi {\ displaystyle \ beta _ {0} + \ beta _ { 1} x_ {1} + \ beta _ {2} x_ {2} + \ cdots + \ beta _ {m} x_ {m} = \ beta _ {0} + \ sum _ {i = 1} ^ {m } \ beta _ {i} x_ {i}}$ $\beta _{0}+\beta _{1}x_{1}+\beta _{2}x_{2}+\cdots +\beta _{m}x_{m}=\beta _{0}+\sum _{i=1}^{m}\beta _{i}x_{i}$ . Затем, когда это используется в уравнении, связывающем логарифм шансов успеха со значениями предикторов, линейная регрессия будет множественной регрессией с m пояснителями; все параметры $β j {\ displaystyle \ beta _ {j}}$ $\beta _{j}$ для всех j = 0, 1, 2,..., m оцениваются.

Опять же, более традиционные уравнения:

log ⁡ p 1 - p = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β mxm {\ displaystyle \ log {\ frac { p} {1-p}} = \ beta _ {0} + \ beta _ {1} x_ {1} + \ beta _ {2} x_ {2} + \ cdots + \ beta _ {m} x_ {m }}

\log {\frac {p}{1-p}}=\beta _{0}+\beta _{1}x_{1}+\beta _{2}x_{2}+\cdots +\beta _{m}x_{m}

p = 1 1 + b - (β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β mxm) {\ displaystyle p = {\ frac {1} {1 + b ^ {- (\ beta _ {0} + \ beta _ {1} x_ {1} + \ beta _ {2} x_ {2} + \ cdots + \ beta _ {m} x_ {m})}}} }

p={\frac {1}{1+b^{-(\beta _{0}+\beta _{1}x_{1}+\beta _{2}x_{2}+\cdots +\beta _{m}x_{m})}}}

где обычно $b = e {\ displaystyle b = e}$ $b=e$ .

Подгонка модели

Логистическая регрессия - важный алгоритм машинного обучения. Цель состоит в том, чтобы смоделировать вероятность того, что случайная величина $Y {\ displaystyle Y}$ $Y$ будет равна 0 или 1 с учетом экспериментальных данных.

Рассмотрим обобщенную линейную модель функция, параметризованная с помощью $θ {\ displaystyle \ theta}$ $\theta$ ,

h θ (X) = 1 1 + e - θ TX = Pr (Y = 1 ∣ X; θ) {\ displaystyle h _ {\ theta} ( X) = {\ frac {1} {1 + e ^ {- \ theta ^ {T} X}}} = \ Pr (Y = 1 \ mid X; \ theta)}

h_{\theta }(X)={\frac {1}{1+e^{-\theta ^{T}X}}}=\Pr(Y=1\mid X;\theta)

Следовательно,

Pr (Y = 0 ∣ X; θ) = 1 - час θ (X) {\ displaystyle \ Pr (Y = 0 \ mid X; \ theta) = 1-h _ {\ theta} (X)}

\Pr(Y=0\mid X;\theta)=1-h_{\theta }(X)

и поскольку $Y ∈ {0, 1} {\ displaystyle Y \ in \ {0,1 \}}$ $Y\in \{0,1\}$ , мы видим, что $Pr (y ∣ X; θ) {\ displaystyle \ Pr (y \ mid X; \ theta)}$ $\Pr(y\mid X;\theta)$ определяется как $Pr (y ∣ X; θ) = h θ (X) y (1 - h θ (X)) (1 - y). {\ displaystyle \ Pr (y \ mid X; \ theta) = h _ {\ theta} (X) ^ {y} (1-h _ {\ theta} (X)) ^ {(1-y)}.}$ ${\ displaystyle \ Pr (y \ mid X; \ theta) = h _ {\ theta} (X) ^ {y} (1-h _ {\ theta} (X)) ^ {(1-y)}.}$ Теперь вычисляем функцию правдоподобия , предполагая, что все наблюдения в выборке независимо распределены Бернулли,

L (θ ∣ y; x) = Pr (Y ∣ X; θ) Знак равно ∏ я Pr (yi ∣ xi; θ) знак равно ∏ ih θ (xi) yi (1 - час θ (xi)) (1 - yi) {\ displaystyle {\ begin {выровнено} L (\ theta \ mid y; x) = \ Pr (Y \ mid X; \ theta) \\ = \ prod _ {i} \ Pr (y_ {i} \ mid x_ {i}; \ theta) \\ = \ prod _ { i} h _ {\ theta} (x_ {i}) ^ {y_ {i}} (1-h _ {\ theta} (x_ {i})) ^ {(1-y_ {i})} \ end {выровнено }}}

{\ Displaystyle {\ begin {выровнено} L (\ theta \ mid y; x) = \ Pr (Y \ mid X; \ theta) \\ = \ prod _ {i} \ Pr (y_ {i} \ mid x_ {i}; \ theta) \\ = \ prod _ {i} h _ {\ theta} (x_ {i}) ^ {y_ {i}} (1- h _ {\ theta} (x_ {i})) ^ {(1-y_ {i})} \ end {align}}}

Как правило, логарифм правдоподобия максимизируется,

N - 1 log ⁡ L (θ ∣ y; x) = N - 1 ∑ i = 1 N log ⁡ Pr (yi ∣ xi; θ) { \ Displaystyle N ^ {- 1} \ log L (\ theta \ mid y; x) = N ^ {- 1} \ sum _ {i = 1} ^ {N} \ log \ Pr (y_ {i} \ mid x_{i};\theta)}

N^{-1}\log L(\theta \mid y;x)=N^{-1}\sum _{i=1}^{N}\log \Pr(y_{i}\mid x_{i};\theta)

which is maximized using optimization techniques such as gradient descent.

Assuming the $( x, y) {\displaystyle (x,y)}$ $(x,y)$ pairs are drawn uniformly from the underlying distribution, then i n the limit of large N,

lim N → + ∞ N − 1 ∑ i = 1 N log ⁡ Pr ( y i ∣ x i ; θ) = ∑ x ∈ X ∑ y ∈ Y Pr ( X = x, Y = y) log ⁡ Pr ( Y = y ∣ X = x ; θ) = ∑ x ∈ X ∑ y ∈ Y Pr ( X = x, Y = y) ( − log ⁡ Pr ( Y = y ∣ X = x) Pr ( Y = y ∣ X = x ; θ) + log ⁡ Pr ( Y = y ∣ X = x)) = − D KL ( Y ∥ Y θ) − H ( Y ∣ X) {\displaystyle {\begin{aligned}\lim \limits _{N\rightarrow +\infty }N^{-1}\sum _{i=1}^{N}\log \Pr(y_{i}\mid x_{i};\theta)=\sum _{x\in {\mathcal {X}}}\sum _{y\in {\mathcal {Y}}}\Pr(X=x,Y=y)\log \Pr(Y=y\mid X=x;\theta)\\[6pt]={}\sum _{x\in {\mathcal {X}}}\sum _{y\in {\mathcal {Y}}}\Pr(X=x,Y=y)\left(-\log {\frac {\Pr(Y=y\mid X=x)}{\Pr(Y=y\mid X=x;\theta)}}+\log \Pr(Y=y\mid X=x)\right)\\[6pt]={}-D_{\text{KL}}(Y\parallel Y_{\theta })-H(Y\mid X)\end{aligned}}}

{\begin{aligned}\lim \limits _{N\rightarrow +\infty }N^{-1}\sum _{i=1}^{N}\log \Pr(y_{i}\mid x_{i};\theta)=\sum _{x\in {\mathcal {X}}}\sum _{y\in {\mathcal {Y}}}\Pr(X=x,Y=y)\log \Pr(Y=y\mid X=x;\theta)\\[6pt]={}\sum _{x\in {\mathcal {X}}}\sum _{y\in {\mathcal {Y}}}\Pr(X=x,Y=y)\left(-\log {\frac {\Pr(Y=y\mid X=x)}{\Pr(Y=y\mid X=x;\theta)}}+\log \Pr(Y=y\mid X=x)\right)\\[6pt]={}-D_{\text{KL}}(Y\parallel Y_{\theta })-H(Y\mid X)\end{aligned}}

where $H ( X ∣ Y) {\displaystyle H(X\mid Y)}$ $H(X\mid Y)$ is the conditional entropy and $D KL {\displaystyle D_{\text{KL}}}$ $D_{\text{KL}}$ is the Kullback–Leibler divergence. Это приводит к интуиции, что, максимизируя логарифмическую вероятность модели, вы сводите к минимуму отклонение KL вашей модели от максимального распределения энтропии. Интуитивно ищите модель, которая делает наименьшее количество предположений в своих параметрах.

"Rule of ten"

A widely used rule of thumb, the "one in ten rule ", states that logistic regression models give stable values for the explanatory variables if based on a minimum of about 10 events per explanatory variable (EPV); где событие обозначает случаи, относящиеся к менее частой категории в зависимой переменной. Thus a study designed to use $k {\ displaystyle k}$ $k$ объясняющие переменные для события (например, инфаркт миокарда ), которое, как ожидается, произойдет в пропорции $p {\ displaystyle p}$ $p$ участников в исследовании потребуется всего $10 k / p {\ displaystyle 10k / p}$ $10k/p$ участников. Тем не менее, есть серьезные споры о надежности этого правила, которое основано на исследованиях моделирования и не имеет надежного теоретического обоснования. По мнению некоторых авторов, правило слишком консервативное, некоторые обстоятельства; при этом авторы заявляют: «Если мы (несколько субъективно) считаем охват доверительного интервала менее 93 процентов, ошибку типа I более 7 процентов или относительную систематическую ошибку более 15 процентов как проблемные, наши результаты показывают, что проблемы довольно часты с 2–4 EPV, редко встречается при 5–9 EPV и все еще наблюдается при 10–16 EPV. Худшие случаи каждой проблемы не были серьезными при 5–9 EPV и обычно сопоставимы с таковыми при 10–16 EPV ».

Другие получили результаты, которые не согласуются с вышеизложенным, с использованием других критериев. Полезным критерием является то, будет ли подобранная модель, как ожидается, достичь той же прогностической дискриминации в новой выборке, которую она достигла в образце для разработки модели. Для этого критерия может потребоваться 20 событий для каждой переменной-кандидата. Кроме того, можно утверждать, что 96 наблюдений необходимы только для оценки точки пересечения модели с достаточной точностью, чтобы предел ошибки в прогнозируемых вероятностях составлял ± 0,1 при уровне достоверности 0,95.

Оценка максимального правдоподобия (MLE)

Коэффициенты регрессии обычно оцениваются с использованием оценки максимального правдоподобия. В отличие от линейной регрессии с нормально распределенными остатками, невозможно найти выражение в замкнутой форме для значений коэффициентов, которые максимизируют функцию правдоподобия, поэтому вместо этого следует использовать итерационный процесс; например метод Ньютона. Этот процесс начинается с предварительного решения, его немного изменяют, чтобы посмотреть, можно ли его улучшить, и повторяют это изменение до тех пор, пока улучшения не прекратятся, после чего процесс считается сходимым.

В некоторых случаях, модель может не достичь сходимости. Несходимость модели указывает на то, что коэффициенты не имеют смысла, поскольку итерационный процесс не смог найти подходящие решения. Неспособность сойтись может произойти по ряду причин: наличие большого отношения предикторов к случаям, мультиколлинеарность, разреженность или полное разделение.

Наличие большого отношения от переменных к наблюдениям приводит к чрезмерно консервативной статистике Вальда (обсуждается ниже) и может привести к несходимости. Регуляризованная логистическая регрессия специально предназначена для использования в этой ситуации.
Мультиколлинеарность относится к недопустимо высоким корреляциям между предикторами. По мере увеличения мультиколлинеарности коэффициенты остаются несмещенными, но увеличиваются стандартные ошибки и уменьшается вероятность сходимости модели. Чтобы обнаружить мультиколлинеарность среди предикторов, можно провести линейный регрессионный анализ с интересующими предикторами с единственной целью изучения статистики толерантности, используемой для оценки того, является ли мультиколлинеарность неприемлемо высокой.
Разрезанность данных означает наличие большая доля пустых ячеек (ячеек с нулевым счетчиком). Нулевое количество ячеек особенно проблематично для категориальных предикторов. С непрерывными предикторами модель может вывести значения для нулевого количества ячеек, но это не относится к категориальным предикторам. Модель не будет сходиться при нулевом количестве ячеек для категориальных предикторов, потому что натуральный логарифм нуля является неопределенным значением, поэтому окончательное решение модели не может быть достигнуто. Чтобы решить эту проблему, исследователи могут свернуть категории теоретически значимым образом или добавить константу ко всем ячейкам.
Другой числовой проблемой, которая может привести к отсутствию сходимости, является полное разделение, которое относится к случаю, когда предикторы отлично предсказывают критерий - все случаи точно классифицируются. В таких случаях следует повторно изучить данные, поскольку существует вероятность ошибки.
Можно также использовать полупараметрические или непараметрические подходы, например, с помощью методов локальной вероятности или непараметрической квазиправдоподобия., что позволяет избежать предположений о параметрической форме для функции индекса и устойчиво к выбору функции связи (например, пробит или логит).

Функция потери кросс-энтропии

В приложениях машинного обучения, где логистические регрессия используется для двоичной классификации, MLE минимизирует функцию потерь перекрестной энтропии .

Метод наименьших квадратов с итеративным перевесом (IRLS)

Двоичная логистическая регрессия ( $y = 0 {\ displaystyle y = 0}$ $y = 0$ или $y = 1 { \ displaystyle y = 1}$ ${\ displaystyle y = 1}$ ) можно, например, рассчитать с использованием метода наименьших квадратов с повторным взвешиванием (IRLS), что эквивалентно максимизации логарифмического правдоподобия Бернулли. распределенный процесс с использованием метода Ньютона. Если задача записана в форме векторной матрицы с параметрами $w T = [β 0, β 1, β 2,…] {\ displaystyle \ mathbf {w} ^ {T} = [\ beta _ {0}, \ beta _ {1}, \ beta _ {2}, \ ldots]}$ $\mathbf {w} ^{T}=[\beta _{0},\beta _{1},\beta _{2},\ldots ]$ , независимые переменные $x (i) = [1, x 1 (i), x 2 (i),…] T {\ displaystyle \ mathbf {x} (i) = [1, x_ {1} (i), x_ {2} (i), \ ldots] ^ {T}}$ $\mathbf {x} (i)=[1,x_{1}(i),x_{2}(i),\ldots ]^{T}$ и ожидаемое значение распределения Бернулли $μ (i) = 1 1 + e - w T x (i) {\ displaystyle \ mu (i) = {\ frac {1} {1 + e ^ {- \ mathbf { w} ^ {T} \ mathbf {x} (i)}}}}$ $\mu (i)={\frac {1}{1+e^{-\mathbf {w} ^{T}\mathbf {x} (i)}}}$ , параметры $w {\ displaystyle \ mathbf {w}}$ $\mathbf {w}$ можно найти с помощью следующий итерационный алгоритм:

wk + 1 = (XTS k X) - 1 XT (S k X wk + y - μ k) {\ displaystyle \ mathbf {w} _ {k + 1} = \ left (\ mathbf {X} ^ {T} \ mathbf {S} _ {k} \ mathbf {X} \ right) ^ {- 1} \ mathbf {X} ^ {T} \ left (\ mathbf {S} _ {k } \ mathbf {X} \ mathbf {w} _ {k} + \ mathbf {y} - \ mathbf {\ boldsymbol {\ mu}} _ {k} \ right)}

\mathbf {w} _{k+1}=\left(\mathbf {X} ^{T}\mathbf {S} _{k}\mathbf {X} \right)^{-1}\mathbf {X} ^{T}\left(\mathbf {S} _{k}\mathbf {X} \mathbf {w} _{k}+\mathbf {y} -\mathbf {\boldsymbol {\mu }} _{k}\right)

где $S = diag ⁡ (μ (я) (1 - μ (я))) {\ Displaystyle \ mathbf {S} = \ operatornam e {diag} (\ mu (i) (1- \ mu (i)))}$ $\mathbf {S} =\operatorname {diag} (\mu (i)(1-\mu (i)))$ - диагональная матрица взвешивания, $μ = [μ (1), μ (2),… ] {\ displaystyle {\ boldsymbol {\ mu}} = [\ mu (1), \ mu (2), \ ldots]}$ ${\boldsymbol {\mu }}=[\mu (1),\mu (2),\ldots ]$ вектор ожидаемых значений,

X = [1 x 1 (1) x 2 (1)… 1 x 1 (2) x 2 (2)… ⋮ ⋮ ⋮] {\ displaystyle \ mathbf {X} = {\ begin {bmatrix} 1 x_ {1} (1) x_ { 2} (1) \ ldots \\ 1 x_ {1} (2) x_ {2} (2) \ ldots \\\ vdots \ vdots \ vdots \ end {bmatrix}}}

\mathbf {X} ={\begin{bmatrix}1x_{1}(1)x_{2}(1)\ldots \\1x_{1}(2)x_{2}(2)\ldots \\\vdots \vdots \vdots \end{bmatrix}}

Матрица регрессора и $y (i) = [y (1), y (2),…] T {\ displaystyle \ mathbf {y} (i) = [y (1), y (2), \ ldots] ^ {T}}$ $\mathbf {y} (i)=[y(1),y(2),\ldots ]^{T}$ вектор переменных ответа. Более подробную информацию можно найти в литературе.

Оценка качества соответствия

Качество соответствия в моделях линейной регрессии обычно измеряется с использованием R. Поскольку у этого нет прямого аналога в логистической регрессии, вместо него можно использовать различные методы, включая следующие.

Тесты на отклонение и отношение правдоподобия

В линейном регрессионном анализе рассматривается разделение дисперсии с помощью вычислений суммы квадратов - дисперсия критерия по существу делится на дисперсию учитывается предикторами и остаточной дисперсией. В анализе логистической регрессии отклонение используется вместо вычисления суммы квадратов. Отклонение аналогично вычислению суммы квадратов в линейной регрессии и является мерой отсутствия соответствия данным в модели логистической регрессии. Когда доступна «насыщенная» модель (модель с теоретически идеальным соответствием), отклонение рассчитывается путем сравнения данной модели с насыщенной моделью. Это вычисление дает критерий отношения правдоподобия :

D = - 2 ln ⁡ вероятность подобранной модели вероятность насыщенной модели. {\ displaystyle D = -2 \ ln {\ frac {\ text {вероятность подобранной модели}} {\ text {вероятность насыщенной модели}}}.}

D=-2\ln {\frac {\text{likelihood of the fitted model}}{\text{likelihood of the saturated model}}}.

В приведенном выше уравнении D представляет отклонение и ln представляет собой натуральный логарифм. Логарифм этого отношения правдоподобия (отношение подобранной модели к насыщенной модели) даст отрицательное значение, следовательно, потребуется отрицательный знак. Можно показать, что D соответствует приблизительному распределению хи-квадрат. Меньшие значения указывают на лучшее соответствие, поскольку подобранная модель меньше отклоняется от насыщенной модели. При оценке по распределению хи-квадрат незначительные значения хи-квадрат указывают на очень небольшую необъяснимую дисперсию и, следовательно, хорошее соответствие модели. И наоборот, значительное значение хи-квадрат указывает на то, что значительная величина дисперсии необъяснима.

Когда насыщенная модель недоступна (общий случай), отклонение вычисляется просто как −2 · (логарифмическая вероятность подобранной модели), и ссылка на логарифмическую вероятность насыщенной модели может быть удалена из всех это следует без вреда.

Два показателя отклонения особенно важны в логистической регрессии: нулевое отклонение и отклонение модели. Нулевое отклонение представляет собой разницу между моделью только с точкой пересечения (что означает «без предикторов») и насыщенной моделью. Отклонение модели представляет собой разницу между моделью с хотя бы одним предиктором и насыщенной моделью. В этом отношении нулевая модель обеспечивает основу для сравнения моделей предикторов. Учитывая, что отклонение является мерой разницы между данной моделью и насыщенной моделью, меньшие значения указывают на лучшее соответствие. Таким образом, чтобы оценить вклад предиктора или набора предикторов, можно вычесть отклонение модели из нулевого отклонения и оценить разницу по a $χ s - p 2, {\ displaystyle \ chi _ {sp} ^ { 2},}$ $\chi _{s-p}^{2},$ распределение хи-квадрат с степенями свободы, равными разнице в количестве оцениваемых параметров.

Пусть

D null = - 2 ln вероятность нулевой модели правдоподобия насыщенной модели D подобранная = - 2 ln вероятность подобранной модели вероятность насыщенной модели. {\ displaystyle {\ begin {align} D _ {\ text {null}} = - 2 \ ln {\ frac {\ text {вероятность нулевой модели}} {\ text {вероятность насыщенной модели}}} \\ [6pt] D _ {\ text {fit}} = - 2 \ ln {\ frac {\ text {вероятность подобранной модели}} {\ text {вероятность насыщенной модели}}}. \ End {align}}}

{\begin{aligned}D_{\text{null}}=-2\ln {\frac {\text{likelihood of null model}}{\text{likelihood of the saturated model}}}\\[6pt]D_{\text{fitt ed}}=-2\ln {\frac {\text{likelihood of fitted model}}{\text{likelihood of the saturated model}}}.\end{aligned}}

Тогда разница обоих составляет:

D нуль - D подобран = - 2 (ln ⁡ вероятность нулевой модели, вероятность насыщенной модели - ln вероятность подобранной модели, вероятность насыщенной модели) = - 2 ln ⁡ (вероятность нулевой модели вероятность насыщенной модели) (вероятность подобранной модели вероятность насыщенной модели) = - 2 ln вероятность нулевой модели вероятность подобранной модели. {\ displaystyle {\ begin {align} D _ {\ text {null}} - D _ {\ text {fit}} = - 2 \ left (\ ln {\ frac {\ text {вероятность нулевой модели}} {\ text {вероятность насыщенной модели}}} - \ ln {\ frac {\ text {вероятность соответствия модели}} {\ text {вероятность насыщенной модели}}} \ right) \\ [6pt] = - 2 \ ln {\ frac {\ left ({\ dfrac {\ text {вероятность нулевой модели}} {\ text {вероятность насыщенной модели}}} \ right)} {\ left ({\ dfrac {\ text {вероятность подобранной модели}} {\ text {вероятность насыщенной модели}}} \ right)}} \\ [6pt] = - 2 \ ln {\ frac {\ text {вероятность нулевой модели}} {\ text {вероятность подобранной модели}}}. \ end {align}}}

{\ displaystyle {\ begin {align} D _ {\ text {null}} - D _ {\ text {fit}} = - 2 \ left (\ ln {\ frac {\ text {вероятность нулевая модель}} {\ text {вероятность насыщенной модели}}} - \ ln {\ frac {\ text {вероятность подобранной модели}} {\ text {вероятность появления s насыщенная модель}}} \ right) \\ [6pt] = - 2 \ ln {\ frac {\ left ({\ dfrac {\ text {вероятность нулевой модели}} {\ text {вероятность насыщенной модели}} } \ right)} {\ left ({\ dfrac {\ text {вероятность подобранной модели}} {\ text {вероятность насыщенной модели}}} \ right)}} \\ [6pt] = - 2 \ ln {\ frac {\ text {вероятность нулевой модели}} {\ text {вероятность соответствия модели}}}. \ end {align}}}

Если отклонение модели значительно меньше нулевого отклонения, то можно сделать вывод, что предиктор или набор предикторов значительно улучшили соответствие модели. Это аналогично F-критерию, используемому в анализе линейной регрессии для оценки значимости прогноза.

Псевдо-R-квадрат

В линейной регрессии для оценки используется множественная корреляция в квадрате. степень согласия, поскольку она представляет собой долю дисперсии критерия, которая объясняется предикторами. В логистическом регрессионном анализе нет согласованной аналогичной меры, но есть несколько конкурирующих мер, каждая из которых имеет ограничения.

На этой странице рассматриваются четыре наиболее часто используемых индекса и один менее часто используемый:

Отношение правдоподобия R² L
R² Кокса и Снелла CS
Nagelkerke R² N
McFadden R2 McF
Tjur R² T

R²Lопределяется Коэном:

RL 2 = D null - D соответствует D значение NULL. {\ displaystyle R _ {\ text {L}} ^ {2} = {\ frac {D _ {\ text {null}} - D _ {\ text {fit}}} {D _ {\ text {null}}}}. }

R _ {\ text {L}} ^ {2} = {\ frac {D _ {\ text {null}} - D _ {\ text {fit}}} {D _ {\ text {null}}}}.

Это наиболее аналогичный показатель квадрату множественных корреляций в линейной регрессии. Он представляет собой пропорциональное уменьшение отклонения, при котором отклонение рассматривается как мера отклонения, аналогичная, но не идентичная дисперсии в анализе линейной регрессии. Одним из ограничений отношения правдоподобия R² является то, что оно не связано монотонно с отношением шансов, а это означает, что оно не обязательно увеличивается по мере увеличения отношения шансов и не обязательно уменьшается по мере уменьшения отношения шансов.

R²CS- альтернативный индекс качества соответствия, связанный со значением R² из линейной регрессии. Он задается следующим образом:

R CS 2 = 1 - (L 0 LM) 2 / n = 1 - e 2 (ln ⁡ (L 0) - ln ⁡ (LM)) / n {\ displaystyle {\ begin { выровнено} R _ {\ text {CS}} ^ {2} = 1- \ left ({\ frac {L_ {0}} {L_ {M}}} \ right) ^ {2 / n} \\ [5pt ] = 1-e ^ {2 (\ ln (L_ {0}) - \ ln (L_ {M})) / n} \ end {align}}}

{\begin{aligned}R_{\text{CS}}^{2}=1-\left({\frac {L_{0}}{L_{M}}}\right)^{2/n}\\[5pt]=1-e^{2(\ln(L_{0})-\ln(L_{M}))/n}\end{aligned}}

где L M и {{mvar | L 0 } - вероятности для подгоняемой модели и нулевой модели соответственно. Индекс Кокса и Снелла проблематичен, поскольку его максимальное значение составляет $1 - L 0 2 / n {\ displaystyle 1-L_ {0} ^ {2 / n}}$ $1-L_{0}^{2/n}$ . Наибольшее значение этого верхнего предела может составлять 0,75, но оно может легко достигать 0,48, когда предельная доля наблюдений мала.

R²Nобеспечивает корректировку R² Кокса и Снеллиуса, так что максимальное значение равно 1. Тем не менее, коэффициенты Кокса и Снелла и отношение правдоподобия R²s показывают большее соответствие друг с другом, чем любой из них с коэффициентом Нагелькерке R2. Конечно, это может быть не так для значений, превышающих 0,75, поскольку индекс Кокса и Снелла ограничен этим значением. Отношение правдоподобия R² часто предпочтительнее альтернатив, поскольку оно наиболее аналогично R² в линейной регрессии, не зависит от базовой ставки (R² Кокса и Снелла и Нагелькерке увеличиваются по мере увеличения доли случаев от 0 до 0,5) и варьируется от 0 до 1.

R²McF определяется как

R McF 2 = 1 - ln ⁡ (LM) ln ⁡ (L 0), {\ displaystyle R _ {\ text {McF }} ^ {2} = 1 - {\ frac {\ ln (L_ {M})} {\ ln (L_ {0})}},}

R_{\text{McF}}^{2}=1-{\frac {\ln(L_{M})}{\ln(L_{0})}},

и предпочтительнее R² CS пользователя Allison. Тогда два выражения R² McF и R² CS связаны соответственно соотношением

R CS 2 = 1 - (1 L 0) 2 (R McF 2) n R McF 2 Знак равно - N 2 ⋅ пер ⁡ (1 - R CS 2) пер ⁡ L 0 {\ displaystyle {\ begin {matrix} R _ {\ text {CS}} ^ {2} = 1- \ left ({\ dfrac {1 } {L_ {0}}} \ right) ^ {\ frac {2 (R _ {\ text {McF}} ^ {2})} {n}} \\ [1.5em] R _ {\ text {McF}} ^ {2} = - {\ dfrac {n} {2}} \ cdot {\ dfrac {\ ln (1-R _ {\ text {CS}} ^ {2})} {\ ln L_ {0}}} \ end {matrix}}}

{\begin{matrix}R_{\text{CS}}^{2}=1-\left({\dfrac {1}{L_{0}}}\right)^{\frac {2(R_{\text{McF}}^{2})}{n}}\\[1.5em]R_{\text{McF}}^{2}=-{\dfrac {n}{2}}\cdot {\dfrac {\ln(1-R_{\text{CS}}^{2})}{\ln L_{0}}}\end{matrix}}

Однако сейчас Эллисон предпочитает R² T, который является относительно новым показателем, разработанным Tjur. Его можно рассчитать в два этапа:

Для каждого уровня зависимой переменной найдите среднее значение предсказанных вероятностей события.
Возьмите абсолютное значение разницы между этими средними значениями

A слово предостережения при интерпретации статистики псевдо-R². Причина, по которой эти индексы соответствия называются псевдо-R², заключается в том, что они не представляют пропорционального уменьшения ошибки, как это делает R² в линейной регрессии. Линейная регрессия предполагает гомоскедастичность, что дисперсия ошибки одинакова для всех значений критерия. Логистическая регрессия всегда будет гетероскедастической - дисперсии ошибок различаются для каждого значения прогнозируемой оценки. Для каждого значения прогнозируемой оценки будет свое значение пропорционального уменьшения ошибки. Следовательно, неуместно думать о R² как о пропорциональном сокращении ошибки в универсальном смысле логистической регрессии.

Тест Хосмера – Лемешоу

Тест Хосмера – Лемешоу использует статистику теста, которая асимптотически следует $χ 2 {\ displaystyle \ chi ^ {2}}$ $\chi ^{2}$ распределению, чтобы оценить, соответствует ли наблюдаемая частота событий ожидаемой частоте событий в подгруппы модельной популяции. Некоторые статистики считают этот тест устаревшим из-за его зависимости от произвольного биннинга предсказанных вероятностей и относительной низкой мощности.

Коэффициенты

После подбора модели исследователи, вероятно, захотят изучить вклад отдельных предикторов. Для этого они захотят изучить коэффициенты регрессии. В линейной регрессии коэффициенты регрессии представляют изменение критерия для каждого изменения единицы в предикторе. Однако в логистической регрессии коэффициенты регрессии представляют изменение логита для каждого изменения единицы в предикторе. Учитывая, что логит не является интуитивно понятным, исследователи, вероятно, сосредоточатся на влиянии предсказателя на экспоненциальную функцию коэффициента регрессии - отношения шансов (см. определение ). В линейной регрессии значимость коэффициента регрессии оценивается путем вычисления t-критерия. В логистической регрессии существует несколько различных тестов, предназначенных для оценки значимости отдельного предиктора, в первую очередь тест отношения правдоподобия и статистика Вальда.

Тест отношения правдоподобия

Рассмотренный выше тест отношения правдоподобия для оценки соответствия модели также является рекомендуемой процедурой для оценки вклада отдельных «предикторов» в данную модель.. В случае модели с одним предиктором, просто сравнивают отклонение модели предиктора с отклонением от нулевой модели на распределении хи-квадрат с одной степенью свободы. Если модель предиктора имеет значительно меньшее отклонение (c.f хи-квадрат с использованием разницы в степенях свободы двух моделей), то можно сделать вывод, что существует значимая связь между "предиктором" и результатом. Хотя некоторые общие статистические пакеты (например, SPSS) действительно предоставляют статистику теста отношения правдоподобия, без этого требовательного к вычислениям теста было бы труднее оценить вклад отдельных предикторов в случае множественной логистической регрессии. Чтобы оценить вклад отдельных предикторов, можно ввести предикторы иерархически, сравнивая каждую новую модель с предыдущей, чтобы определить вклад каждого предиктора. Статистики спорят о целесообразности так называемых «пошаговых» процедур. Есть опасения, что они могут не сохранить номинальные статистические свойства и могут ввести в заблуждение.

Статистика Вальда

В качестве альтернативы, при оценке вклада отдельных предикторов в данную модель, можно исследовать значимость статистика Вальда. Статистика Вальда, аналогичная t-критерию линейной регрессии, используется для оценки значимости коэффициентов. Статистика Вальда представляет собой отношение квадрата коэффициента регрессии к квадрату стандартной ошибки коэффициента и асимптотически распределяется как распределение хи-квадрат.

W j = β j 2 SE β j 2 {\ displaystyle W_ {j} = {\ frac {\ beta _ {j} ^ {2}} {SE _ {\ beta _ {j}} ^ {2}}}}

W_{j}={\frac {\beta _{j}^{2}}{SE_{\beta _{j}}^{2}}}

Хотя несколько статистических пакетов (например, SPSS, SAS) сообщают статистику Вальда для оценки вклада отдельных предикторов, статистика Вальда имеет ограничения. Когда коэффициент регрессии велик, стандартная ошибка коэффициента регрессии также имеет тенденцию быть больше, увеличивая вероятность ошибки типа II. Статистика Вальда также имеет тенденцию к смещению, когда данные скудны.

Выборка случай-контроль

Предположим, случаи редки. Тогда мы могли бы пожелать отбирать их чаще, чем их распространенность в популяции. Например, предположим, что есть заболевание, которым страдает 1 человек из 10 000, и для сбора данных нам необходимо пройти полное обследование. Проведение тысяч медицинских осмотров здоровых людей для получения данных только по нескольким больным может оказаться слишком дорогостоящим. Таким образом, мы можем оценить большее количество больных, возможно, все редкие исходы. Это также ретроспективная выборка, или, что то же самое, ее называют несбалансированными данными. Как показывает практический опыт, выборка контролей с частотой, в пять раз превышающей количество наблюдений, даст достаточные контрольные данные.

Логистическая регрессия уникальна тем, что ее можно оценивать на несбалансированных данных, а не на случайно выбранных данных, и по-прежнему дают правильные оценки коэффициентов влияния каждой независимой переменной на результат. То есть, если мы сформируем логистическую модель из таких данных, если модель верна для генеральной совокупности, все параметры $β j {\ displaystyle \ beta _ {j}}$ $\beta _{j}$ будут правильно, за исключением $β 0 {\ displaystyle \ beta _ {0}}$ $\beta _{0}$ . Мы можем исправить $β 0 {\ displaystyle \ beta _ {0}}$ $\beta _{0}$ , если знаем истинную распространенность следующим образом:

β ^ 0 ∗ = β ^ 0 + log ⁡ π 1 - π - журнал ⁡ π ~ 1 - π ~ {\ displaystyle {\ widehat {\ beta}} _ {0} ^ {*} = {\ widehat {\ beta}} _ {0} + \ log {\ frac {\ pi} {1- \ pi}} - \ log {{\ tilde {\ pi}} \ over {1 - {\ tilde {\ pi}}}}}

{\widehat {\beta }}_{0}^{*}={\widehat {\beta }}_{0}+\log {\frac {\pi }{1-\pi }}-\log {{\tilde {\pi }} \over {1-{\tilde {\pi }}}}

где $π {\ displaystyle \ pi }$ $\ pi$ - истинная распространенность, а $π ~ {\ displaystyle {\ tilde {\ pi}}}$ ${\ tilde {\ pi}}$ - распространенность в выборке.

Формальная математическая спецификация

Существуют различные эквивалентные спецификации логистической регрессии, которые вписываются в разные типы более общих моделей. Эти разные спецификации позволяют делать разные полезные обобщения.

Настройка

Базовая настройка логистической регрессии выглядит следующим образом. Нам дан набор данных, содержащий N точек. Каждая точка i состоит из набора из m входных переменных x 1, i... x m, i (также называемых независимых переменных, переменных-предикторов, функций, или атрибуты) и двоичной выходной переменной Y i (также известной как зависимая переменная, переменная ответа, выходная переменная или класс), т.е. может принимать только два возможных значения: 0 (часто означает «нет» или «неудача») или 1 (часто означает «да» или «успех»). Целью логистической регрессии является использование набора данных для создания модели прогнозирования переменной результата.

Некоторые примеры:

Наблюдаемые результаты - это наличие или отсутствие определенного заболевания (например, диабета) у группы пациентов, а объясняющие переменные могут быть характеристиками пациентов, которые считаются соответствующими (пол, раса, возраст, артериальное давление, индекс массы тела и т. д.).
Наблюдаемые результаты - это голоса (например, Демократический или республиканец ) группы людей, участвующих в выборах, а независимые переменные - это демографические характеристики каждого человека (например, пол, раса, возраст, доход и т. д.). В таком случае один из двух результатов произвольно кодируется как 1, а другой - как 0.

Как и в линейной регрессии, предполагается, что переменные результата Y i зависят от независимых переменных x 1, i... x m, i.

Объясняющие переменные

Как показано выше в приведенных выше примерах, поясняющие переменные могут быть любого типа : вещественные, двоичные, категориальные и т. Д. Основное различие между непрерывными переменными (такими как доход, возраст и кровяное давление ) и дискретные переменные (например, пол или раса). Дискретные переменные, относящиеся к более чем двум возможным вариантам выбора, обычно кодируются с использованием фиктивных переменных (или индикаторных переменных ), то есть отдельные независимые переменные, принимающие значение 0 или 1, создаются для каждого возможного значение дискретной переменной, где 1 означает «переменная имеет данное значение», а 0 означает «переменная не имеет этого значения».

Например, четырехсторонняя дискретная переменная группы крови с возможными значениями «A, B, AB, O» может быть преобразована в четыре отдельные двусторонние фиктивные переменные, » is-A, is-B, is-AB, is-O ", где только один из них имеет значение 1, а все остальные имеют значение 0. Это позволяет сопоставить отдельные коэффициенты регрессии для каждого возможного значения дискретная переменная. (В таком случае только три из четырех фиктивных переменных независимы друг от друга в том смысле, что, как только значения трех переменных известны, четвертая определяется автоматически. Таким образом, необходимо кодировать только три из четырех возможностей в качестве фиктивных переменных. Это также означает, что когда все четыре возможности закодированы, общая модель не может быть идентифицируемой при отсутствии дополнительных ограничений, таких как ограничение регуляризации. Теоретически это может вызвать проблемы, но в действительности почти все модели логистической регрессии снабжены ограничениями регуляризации.)

Переменные результата

Формально результаты Y i описываются как данные с распределением Бернулли, где каждый результат определяется ненаблюдаемой вероятностью p i, которая специфична для данного результата, но связана с независимыми переменными. Это может быть выражено в любой из следующих эквивалентных форм:

Y i ∣ x 1, i,…, xm, i ∼ Bernoulli ⁡ (pi) E ⁡ [Y i ∣ x 1, i,…, xm, i ] = pi Pr (Y i = y ∣ x 1, i,…, xm, i) = {pi, если y = 1 1 - pi, если y = 0 Pr (Y i = y ∣ x 1, i,…, xm, я) = piy (1 - pi) (1 - y) {\ displaystyle {\ begin {выровнено} Y_ {i} \ mid x_ {1, i}, \ ldots, x_ {m, i} \ \ sim \ operatorname {Bernoulli} (p_ {i}) \\\ operatorname {\ mathcal {E}} [Y_ {i} \ mid x_ {1, i}, \ ldots, x_ {m, i}] = p_ { i} \\\ Pr (Y_ {i} = y \ mid x_ {1, i}, \ ldots, x_ {m, i}) = {\ begin {cases} p_ {i} {\ text {если }} y = 1 \\ 1-p_ {i} {\ text {if}} y = 0 \ end {cases}} \\\ Pr (Y_ {i} = y \ mid x_ {1, i}, \ ldots, x_ {m, i}) = p_ {i} ^ {y} (1-p_ {i}) ^ {(1-y)} \ end {align}}}

{\ displaystyle {\ begin {align} Y_ {i} \ mid x_ {1, i}, \ ldots, x_ {m, i} \ \ sim \ operatorname {Bernoulli} (p_ {i}) \\\ operatorname {\ mathcal {E}} [Y_ {i} \ mid x_ {1, i}, \ ldots, x_ {m, i}] = p_ {i} \\\ Pr (Y_ {i} = y \ mid x_ {1, i}, \ ldots, x_ {m, i}) = {\ begin {cases} p_ {i} {\ text {if}} y = 1 \\ 1-p_ {i} {\ text {if}} y = 0 \ end {case}} \\\ Pr (Y_ {i} = y \ mid x_ {1, i}, \ ldots, x_ {m, i}) = p_ {i} ^ {y} (1-p_ {i}) ^ {(1-y)} \ end {выровнено }}}

Значения этих четыре строки:

Первая строка выражает распределение вероятностей для каждого Y i : с учетом независимых переменных, оно следует распределению Бернулли с параметрами p i, вероятность результата 1 для испытания i. Как отмечалось выше, каждое отдельное испытание имеет собственную вероятность успеха, так же как каждое испытание имеет свои собственные объясняющие переменные. Вероятность успеха p i не наблюдается, только результат отдельного испытания Бернулли с использованием этой вероятности.
Вторая строка выражает тот факт, что ожидаемое значение каждого Y i равна вероятности успеха p i, которая является общим свойством распределения Бернулли. Другими словами, если мы запустим большое количество испытаний Бернулли с одинаковой вероятностью успеха p i, а затем возьмем среднее значение для всех результатов 1 и 0, то результат будет близок к p <335.>я. Это связано с тем, что при таком усреднении просто вычисляется доля наблюдаемых успехов, которые, как мы ожидаем, сойдутся с основной вероятностью успеха.
Третья строка записывает функцию вероятности-массы распределение Бернулли, определяющее вероятность увидеть каждый из двух возможных результатов.
Четвертая строка - это еще один способ записи функции вероятности массы, который позволяет избежать написания отдельных случаев и более удобен для определенных типов расчеты. Это основано на том факте, что Y i может принимать только значение 0 или 1. В каждом случае один из показателей будет равен 1, «выбирая» значение под ним, а другой - 0 », аннулирование "значения под ним. Следовательно, результатом будет либо p i, либо 1 - p i, как в предыдущей строке.

Функция линейного предиктора

Основная идея логистической регрессии заключается в использовании механизм, уже разработанный для линейной регрессии путем моделирования вероятности p i с использованием функции линейного предиктора, то есть линейной комбинации пояснительной переменные и набор коэффициентов регрессии, которые относятся к рассматриваемой модели, но одинаковы для всех испытаний. Функция линейного предиктора $f (i) {\ displaystyle f (i)}$ $f (i)$ для конкретной точки данных i записывается как:

f (i) = β 0 + β 1 x 1, я + ⋯ + β mxm, я, {\ displaystyle f (i) = \ beta _ {0} + \ beta _ {1} x_ {1, i} + \ cdots + \ beta _ {m} x_ {m, i},}

f(i)=\beta _{0}+\beta _{1}x_{1,i}+\cdots +\beta _{m}x_{m,i},

где $β 0,…, β m {\ displaystyle \ beta _ {0}, \ ldots, \ beta _ {m}}$ $\beta _{0},\ldots,\beta _{m}$ являются регрессией коэффициенты, указывающие относительное влияние конкретной независимой переменной на результат.

Модель обычно принимают в более компактном виде:

Коэффициенты регрессии β 0, β 1,..., β m сгруппированы в один вектор β размером m + 1.
Для каждой точки данных i, дополнительная пояснительная псевдопеременная x 0, i добавляется с фиксированным значением 1, соответствующим коэффициенту точки пересечения β 0.
. Полученные независимые переменные x 0, i, x 1, i,..., x m, i затем группируются в один вектор Xiразмера m + 1.

Это позволяет записать функцию линейного предиктора следующим образом:

f (i) = β ⋅ X i, {\ displaystyle f (i) = {\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i},}

f(i)={\boldsymbol {\beta }}\cdot \mathbf {X} _{i},

используя обозначение для скалярное произведение между двумя векторами.

Как обобщенная линейная модель

Конкретная модель, используемая логистической регрессией, которая отличает ее от стандартной линейной регрессии и от других типов регрессионного анализа, используемый для результатов с двоичным значением, - это способ связи вероятности конкретного результата с функцией линейного предиктора:

logit ⁡ (E ⁡ [Y i ∣ x 1, i,…, хм, я]) знак равно логит ⁡ (пи) знак равно пер ⁡ (пи 1 - пи) = β 0 + β 1 Икс 1, я + ⋯ + β mxm, я {\ displaystyle \ operatorname {logit} (\ Operatorname {\ mathcal {E}} [Y_ {i} \ mid x_ {1, i}, \ ldots, x_ {m, i}]) = \ operatorname {logit} (p_ {i}) = \ ln \ left ({\ гидроразрыв {p_ {i}} {1-p_ {i}}} \ right) = \ beta _ {0} + \ beta _ {1} x_ {1, i} + \ cdots + \ beta _ {m} x_ {m, i}}

\operatorname {logit} (\operatorname {\mathcal {E}} [Y_{i}\mid x_{1,i},\ldots,x_{m,i}])=\operatorname {logit} (p_{i})=\ln \left({\frac {p_{i}}{1-p_{i}}}\right)=\beta _{0}+\beta _{1}x_{1,i}+\cdots +\beta _{m}x_{m,i}

Написано с использованием более компактной записи, описанной выше, это:

logit ⁡ (E ⁡ [Y i ∣ X i]) = logit ⁡ (pi) = ln ⁡ (pi 1 - пи) знак равно β ⋅ Икс я {\ Displaystyle \ OperatorName {logit} (\ operatorname {\ mathcal {E}} [Y_ {i} \ mid \ mathbf {X} _ {i}]) = \ OperatorName {logit} ( число Пи}) = \ ln \ left ({\ frac {p_ {i}} {1-p_ {i}}} \ right) = {\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}}

\operatorname {logit} (\operatorname {\mathcal {E}} [Y_{i}\mid \mathbf {X} _{i}])=\operatorname {logit} (p_{i})=\ln \left({\frac {p_{i}}{1-p_{i}}}\right)={\boldsymbol {\beta }}\cdot \mathbf {X} _{i}

Эта формулировка выражает логистическую регрессию как тип обобщенной линейной модели, которая прогнозирует переменные с различными типами распределений вероятностей путем подгонки линейной функции-предиктора вышеуказанной формы к некоторому виду произвольное преобразование ожидаемого значения переменной.

Интуиция для преобразования с использованием функции логита (натуральный логарифм шансов) была объяснена выше. Он также имеет практический эффект преобразования вероятности (которая ограничена от 0 до 1) в переменную, которая находится в диапазоне $(- ∞, + ∞) {\ displaystyle (- \ infty, + \ infty)}$ $(-\infty,+\infty)$ - таким образом согласовывая потенциальный диапазон функции линейного прогнозирования в правой части уравнения.

Обратите внимание, что и вероятности p i, и коэффициенты регрессии не наблюдаются, и средства их определения не являются частью самой модели. Обычно они определяются какой-либо процедурой оптимизации, например оценка максимального правдоподобия, которая находит значения, которые наилучшим образом соответствуют наблюдаемым данным (т. Е. Дают наиболее точные прогнозы для уже наблюдаемых данных), обычно при условии регуляризации условий, которые стремятся исключить маловероятные значения, например чрезвычайно большие значения для любого из коэффициентов регрессии. Использование условия регуляризации эквивалентно выполнению максимальной апостериорной (MAP) оценки, расширению максимальной вероятности. (Регуляризация чаще всего выполняется с использованием регуляризующей функции в квадрате, что эквивалентно помещению гауссовского априорного распределения с нулевым средним для коэффициентов, но другие регуляризаторы также возможно.) Независимо от того, используется ли регуляризация, обычно невозможно найти решение в закрытой форме; вместо этого должен использоваться итеративный численный метод, такой как итеративно перевывешенный метод наименьших квадратов (IRLS) или, что чаще в наши дни, квазиньютоновский метод, такой как L -BFGS метод.

Интерпретация оценок параметра β j заключается в аддитивном влиянии на логарифм шансов для изменения единицы в независимой переменной j. В случае дихотомической объясняющей переменной, например, пол $e β {\ displaystyle e ^ {\ beta}}$ $e^{\beta }$ - это оценка вероятности получения результата, скажем, для мужчин, сравниваемых с самками.

Эквивалентная формула использует обратную логит-функцию, которая является логистической функцией, то есть:

E ⁡ [Y i ∣ X i] = pi = logit - 1 ⁡ (β ⋅ Икс я) знак равно 1 1 + е - β ⋅ Икс я {\ displaystyle \ operatorname {\ mathcal {E}} [Y_ {i} \ mid \ mathbf {X} _ {i}] = p_ {i} = \ operatorname {logit} ^ {- 1} ({\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}) = {\ frac {1} {1 + e ^ {- {\ boldsymbol { \ beta}} \ cdot \ mathbf {X} _ {i}}}}}

\operatorname {\mathcal {E}} [Y_{i}\mid \mathbf {X} _{i}]=p_{i}=\operatorname {logit} ^{-1}({\boldsymbol {\beta }}\cdot \mathbf {X} _{i})={\frac {1}{1+e^{-{\boldsymbol {\beta }}\cdot \mathbf {X} _{i}}}}

Формулу также можно записать как распределение вероятностей (в частности, используя функцию массы вероятности ):

Pr (Y i = y ∣ X i) = piy (1 - pi) 1 - y = (e β ⋅ X i 1 + e β ⋅ X i) y (1 - e β ⋅ X я 1 + е β ⋅ Икс я) 1 - Y знак равно е β ⋅ Икс я ⋅ Y 1 + е β ⋅ Икс я {\ displaystyle \ Pr (Y_ {i} = y \ mid \ mathbf {X} _ {i}) = {p_ {i}} ^ {y} (1-p_ {i}) ^ {1-y} = \ left ({\ frac {e ^ {{\ boldsymbol {\ beta}} \ cdot \ mathbf { X} _ {i}}} {1 + e ^ {{\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}}}} \ right) ^ {y} \ left (1 - {\ frac {e ^ {{\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}}} {1 + e ^ {{\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}}}} \ right) ^ {1-y} = {\ frac {e ^ {{\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i} \ cdot y}} {1 + e ^ {{\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}}}}}

{ \ Displaystyle \ Pr (Y_ {i} = y \ mid \ mathbf {X} _ {i}) = {p_ {i}} ^ {y} (1-p_ {i}) ^ {1-y} = \ left ({\ frac {e ^ {{\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}}} {1 + e ^ {{\ boldsymbol {\ beta}} \ cdot \ mathbf {X} } _ {i}}}} \ right) ^ {y} \ left (1 - {\ frac {e ^ {{\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}}} {1 + e ^ {{\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}}}} \ right) ^ {1-y} = {\ frac {e ^ {{\ boldsymbol {\ beta} } \ cdot \ mathbf {X} _ {i} \ cdot y}} {1 + e ^ {{\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}}}}}

В качестве модели скрытых переменных

Вышеуказанное модель имеет эквивалентную формулировку как модель со скрытыми переменными. Эта формулировка является общей в теории моделей дискретного выбора и упрощает распространение на некоторые более сложные модели с множественными коррелированными вариантами выбора, а также сравнение логистической регрессии с тесно связанной пробит-моделью ..

Представьте себе, что для каждого испытания i существует непрерывная скрытая переменная Yi(т.е. ненаблюдаемая случайная величина ), которая распределяется следующим образом:

Y i ∗ = β ⋅ Икс я + ε {\ displaystyle Y_ {i} ^ {\ ast} = {\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i} + \ varepsilon \,}

Y_{i}^{\ast }={\boldsymbol {\beta }}\cdot \mathbf {X} _{i}+\varepsilon \,

где

ε ∼ Логистика ⁡ (0, 1) {\ Displaystyle \ varepsilon \ sim \ operatorname {Logistic} (0,1) \,}

\varepsilon \sim \operatorname {Logistic} (0,1)\,

т.е. скрытая переменная может быть записана непосредственно в терминах функции линейного предсказания и аддитивной случайной переменной ошибки, которая распределяется в соответствии со стандартным логистическим распределением.

Тогда Y i можно рассматривать как индикатор того, является ли эта скрытая переменная положительной:

Y i = {1, если Y i ∗>0, т.е. - ε < β ⋅ X i, 0 otherwise. {\displaystyle Y_{i}={\begin{cases}1{\text{if }}Y_{i}^{\ast }>0 \ {\ text {ie}} - \ varepsilon <{\boldsymbol {\beta }}\cdot \mathbf {X} _{i},\\0{\text{otherwise.}}\end{cases}}}

Y_{i}={\begin{cases}1{\text{if }}Y_{i}^{\ast }>0 \ {\ text {ie}} - \ varepsilon <{\boldsymbol {\beta }}\cdot \mathbf {X} _{i},\\0{\text{otherwise.}}\end{cases}}

Выбор моделирования конкретной переменной ошибки y со стандартным логистическим распределением, а не с общим логистическим распределением с произвольными значениями местоположения и масштаба, кажется ограничивающим, но на самом деле это не так. Следует иметь в виду, что мы можем сами выбирать коэффициенты регрессии и очень часто можем использовать их для компенсации изменений параметров распределения переменной ошибки. Например, распределение переменных логистической ошибки с ненулевым параметром местоположения μ (который устанавливает среднее значение) эквивалентно распределению с нулевым параметром местоположения, где μ добавлен к коэффициенту пересечения. Обе ситуации дают одно и то же значение для Y i независимо от настроек независимых переменных. Точно так же произвольный параметр масштабирования s эквивалентен установке параметра масштабирования на 1 и последующему делению всех коэффициентов регрессии на s. В последнем случае результирующее значение Y i будет в s раз меньше, чем в первом случае, для всех наборов независимых переменных, но, что важно, оно всегда будет оставаться на той же стороне 0, и, следовательно, приводят к тому же выбору Y i.

(Обратите внимание, что это предсказывает, что несоответствие параметра масштаба не может быть перенесено в более сложные модели, где доступно более двух вариантов.)

Оказывается, эта формулировка в точности эквивалентна к предыдущей, сформулированной в терминах обобщенной линейной модели и без каких-либо скрытых переменных. Это можно показать следующим образом, используя тот факт, что кумулятивная функция распределения (CDF) стандартного логистического распределения является логистической функцией , которая является обратной логит-функции , т.е.

Pr (ε < x) = logit − 1 ⁡ ( x) {\displaystyle \Pr(\varepsilon

\Pr(\varepsilon <x)=\operatorname {logit} ^{-1}(x)

Тогда:

Pr (Y i = 1 ∣ X i) = Pr (Y i ∗>0 ∣ X i) = Pr (β ⋅ X i + ε>0) = Pr (ε>- β ⋅ X i) = Pr (ε < β ⋅ X i) (because the logistic distribution is symmetric) = logit − 1 ⁡ ( β ⋅ X i) = p i (see above) {\displaystyle {\begin{aligned}\Pr(Y_{i}=1\mid \mathbf {X} _{i})=\Pr(Y_{i}^{\ast }>0 \ mid \ mathbf {X} _ {i}) \\ [5pt] = \ Pr ({\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i} + \ varepsilon>0) \\ [5pt] = \ Pr (\ varepsilon>- {\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}) \\ [5pt] = \ Pr (\ varepsilon <{\boldsymbol {\beta }}\cdot \mathbf {X} _{i}){\text{(because the logistic distribution is symmetric)}}\\[5pt]=\operatorname {logit} ^{-1}({\boldsymbol {\beta }}\cdot \mathbf {X} _{i})\\[5pt]=p_{i}{\text{(see above)}}\end{aligned}}}

{\begin{aligned}\Pr(Y_{i}=1\mid \mathbf {X} _{i})=\Pr(Y_{i}^{\ast }>0 \ mid \ mathbf {X} _ {i}) \\ [5pt] = \ Pr ({\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i} + \ varepsilon>0) \\ [5pt] = \ Pr (\ varepsilon>- {\ boldsymbol {\ beta}} \ cdot \ mathbf { X} _ {i}) \\ [5pt] = \ Pr (\ varepsilon <{\boldsymbol {\beta }}\cdot \mathbf {X} _{i}){\text{(because the logistic distribution is symmetric)}}\\[5pt]=\operatorname {logit} ^{-1}({\boldsymbol {\beta }}\cdot \mathbf {X} _{i})\\[5pt]=p_{i}{\text{(see above)}}\end{aligned}}

Эта формулировка - стандартная для моделей дискретного выбора - проясняет взаимосвязь между логистической регрессией («логит модель ") и пробит-модель, в которой используется переменная ошибки, распределенная в соответствии с переход к стандартному нормальному распределению вместо стандартного логистического распределения. Как логистическое, так и нормальное распределения симметричны базовой унимодальной форме «колоколообразной кривой». Единственное отличие состоит в том, что логистическое распределение имеет несколько более тяжелые хвосты, что означает, что оно менее чувствительно к внешним данным (и, следовательно, несколько более надежно для моделирования неверных спецификаций или ошибочных данных)..

Модель двусторонних латентных переменных

Еще одна формулировка использует две отдельные скрытые переменные:

Y i 0 ∗ = β 0 ⋅ X i + ε 0 Y i 1 ∗ = β 1 ⋅ Икс я + ε 1 {\ Displaystyle {\ begin {align} Y_ {i} ^ {0 \ ast} = {\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {я } + \ varepsilon _ {0} \, \\ Y_ {i} ^ {1 \ ast} = {\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i} + \ varepsilon _ {1} \, \ end {align}}}

{\begin{aligned}Y_{i}^{0\ast }={\boldsymbol {\beta }}_{0}\cdot \mathbf {X} _{i}+\varepsilon _{0}\,\\Y_{i}^{1\ast }={\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i}+\varepsilon _{1}\,\end{aligned}}

где

ε 0 ∼ EV 1 ⁡ (0, 1) ε 1 ∼ EV 1 ⁡ (0, 1) {\ displaystyle {\ begin {выравнивается } \ varepsilon _ {0} \ sim \ operatorname {EV} _ {1} (0,1) \\\ varepsilon _ {1} \ sim \ operatorname {EV} _ {1} (0,1) \ конец {выровнено}}}

{\ begin { выровнено} \ varepsilon _ {0} \ sim \ operatorname {EV} _ {1} (0,1) \\\ varepsilon _ {1} \ sim \ o peratorname {EV} _ {1} (0,1) \ end {align}}

где EV 1 (0,1) - стандартный тип 1 распределение экстремальных значений : т.е.

Pr (ε 0 = x) Знак равно Pr (ε 1 знак равно Икс) знак равно е - хе - е - х {\ Displaystyle \ Pr (\ varepsilon _ {0} = х) = \ Pr (\ varepsilon _ {1} = х) = е ^ {- х } e ^ {- e ^ {- x}}}

\ Pr (\ varepsilon _ {0} = x) = \ Pr (\ varepsilon _ {1} = x) = e ^ {- x} e ^ {- e ^ {- x}}

Тогда

Y i = {1, если Y i 1 ∗>Y i 0 ∗, 0 в противном случае. {\ displaystyle Y_ {i} = {\ begin {cases} 1 {\ text {if}} Y_ {i} ^ {1 \ ast}>Y_ {i} ^ {0 \ ast}, \\ 0 {\ text {в противном случае.}} \ end {case}}}

Y_{i}={\begin{cases}1{\text{if }}Y_{i}^{1\ast }>Y_ {i} ^ {0 \ ast}, \\ 0 {\ text {в противном случае.}} \ end {ases}}

Эта модель имеет отдельную скрытую переменную и отдельную набор коэффициентов регрессии для каждого возможного результата зависимой переменной. Причина этого разделения заключается в том, что оно позволяет легко расширить логистическую регрессию на многозначные категориальные переменные, как в модели полиномиального логита. модели, естественно моделировать каждый возможный результат, используя другой набор коэффициентов регрессии. Также возможно мотивировать каждую из отдельных скрытых переменных как теоретическую полезность, связанную с выполнением соответствующего выбора, и, таким образом, мотивировать логистическую регрессию с точки зрения теории полезности (с точки зрения полезности t Согласно теории, рациональный субъект всегда выбирает выбор с наибольшей связанной полезностью.) Это подход, используемый экономистами при формулировании моделей дискретного выбора, поскольку он обеспечивает теоретически прочную основу и облегчает интуитивное понимание модели, что, в свою очередь, упрощает рассмотрение различных видов расширений. (См. Пример ниже.)

Выбор распределения экстремальных значений типа 1 кажется довольно произвольным, но он заставляет математику работать, и может быть возможно оправдать его использование через теория рационального выбора.

Оказывается, что эта модель эквивалентна предыдущей модели, хотя это кажется неочевидным, поскольку теперь существует два набора коэффициентов регрессии и переменных ошибок, а переменные ошибок имеют разные распространение. Фактически, эта модель сводится непосредственно к предыдущей со следующими заменами:

β = β 1 - β 0 {\ displaystyle {\ boldsymbol {\ beta}} = {\ boldsymbol {\ beta}} _ {1} - {\ boldsymbol {\ beta}} _ {0}}

{\boldsymbol {\beta }}={\boldsymbol {\beta }}_{1}-{\boldsymbol {\beta }}_{0}

ε = ε 1 - ε 0 {\ displaystyle \ varepsilon = \ varepsilon _ {1} - \ varepsilon _ {0}}

\varepsilon =\varepsilon _{1}-\varepsilon _{0}

Интуиция для это происходит из-за того, что, поскольку мы выбираем на основе максимального из двух значений, имеет значение только их разница, а не точные значения - и это эффективно удаляет одну степень свободы. Другой важный факт заключается в том, что разница двух переменных типа 1 с распределением экстремальных значений является логистическим распределением, то есть $ε = ε 1 - ε 0 ∼ Logistic ⁡ (0, 1). {\ displaystyle \ varepsilon = \ varepsilon _ {1} - \ varepsilon _ {0} \ sim \ operatorname {Logistic} (0,1).}$ $\varepsilon =\varepsilon _{1}-\varepsilon _{0}\sim \operatorname {Logistic} (0,1).$ Мы можем продемонстрировать эквивалент следующим образом:

Pr (Y i = 1 ∣ X i) = Pr (Y i 1 ∗>Y i 0 ∗ ∣ X i) = Pr (Y i 1 ∗ - Y i 0 ∗>0 ∣ X i) = Pr (β 1 ⋅ X i + ε 1 - (β 0 ⋅ X i + ε 0)>0) = Pr ((β 1 ⋅ X i - β 0 ⋅ X i) + (ε 1 - ε 0)>0) = Pr (( β 1 - β 0) ⋅ X i + (ε 1 - ε 0)>0) = Pr ((β 1 - β 0) ⋅ X i + ε>0) (замените ε, как указано выше) = Pr (β ⋅ X i + ε>0) (замените β, как указано выше) = Pr (ε>- β ⋅ X i) (теперь такая же, как в модели выше) = Pr (ε < β ⋅ X i) = logit − 1 ⁡ ( β ⋅ X i) = p i {\displaystyle {\begin{aligned}\Pr(Y_{i}=1\mid \mathbf {X} _{i})={}\Pr \left(Y_{i}^{1\ast }>Y_ {i} ^ {0 \ ast} \ mid \ mathbf {X} _ {i} \ right) \\ [5pt] = {} \ Pr \ left (Y_ {i} ^ {1 \ ast} -Y_ {i} ^ {0 \ ast}>0 \ mid \ mathbf {X} _ {i} \ right) \\ [5pt] = {} \ Pr \ left ({\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ { i} + \ varepsilon _ {1} - \ left ({\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i} + \ varepsilon _ {0} \ right)>0 \ right) \\ [5pt] = {} \ Pr \ left (({\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i} - {\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}) + (\ vareps ilon _ {1} - \ varepsilon _ {0})>0 \ right) \\ [5pt] = {} \ Pr (({\ boldsymbol {\ beta}} _ {1} - {\ boldsymbol {\ бета}} _ {0}) \ cdot \ mathbf {X} _ {i} + (\ varepsilon _ {1} - \ varepsilon _ {0})>0) \\ [5pt] = {} \ Pr (({\ boldsymbol {\ beta}} _ {1} - {\ boldsymbol {\ beta}} _ {0}) \ cdot \ mathbf {X} _ {i} + \ varepsilon>0) {\ text { (замените}} \ varepsilon {\ text {как указано выше)}} \\ [5pt] = {} \ Pr ({\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i} + \ varepsilon>0) {\ text {(replace}} {\ boldsymbol {\ beta}} {\ text {как указано выше)}} \\ [5pt] = {} \ Pr (\ varepsilon>- {\ boldsymbol {\ beta }} \ cdot \ mathbf {X} _ {i}) {\ text {(теперь такая же, как в модели выше)}} \\ [5pt] = {} \ Pr (\ varepsilon <{\boldsymbol {\beta }}\cdot \mathbf {X} _{i})\\[5pt]={}\operatorname {logit} ^{-1}({\boldsymbol {\beta }}\cdot \mathbf {X} _{i})\\[5pt]={}p_{i}\end{aligned}}}

{\begin{aligned}\Pr(Y_{i}=1\mid \mathbf {X} _{i})={}\Pr \left(Y_{i}^{1\ast }>Y_ {i} ^ {0 \ ast} \ mid \ mathbf {X} _ {i} \ right) \\ [5pt] = {} \ Pr \ left (Y_ {i} ^ {1 \ ast} -Y_ {i} ^ {0 \ ast}>0 \ mid \ mathbf {X} _ {i} \ right) \\ [5pt] = {} \ Pr \ left ({\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i} + \ varepsilon _ {1} - \ left ({\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i} + \ varepsilon _ {0 } \ right)>0 \ right) \\ [5pt] = {} \ Pr \ left (({\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i} - { \ boldsymbol {\ быть ta}} _ {0} \ cdot \ mathbf {X} _ {i}) + (\ varepsilon _ {1} - \ varepsilon _ {0})>0 \ right) \\ [5pt] = {} \ Pr (({\ boldsymbol {\ beta}} _ {1} - {\ boldsymbol {\ beta}} _ {0}) \ cdot \ mathbf {X} _ {i} + (\ varepsilon _ {1} - \ varepsilon _ {0})>0) \\ [5pt] = {} \ Pr (({\ boldsymbol {\ beta}} _ {1} - {\ boldsymbol {\ beta}} _ {0}) \ cdot \ mathbf {X} _ {i} + \ varepsilon>0) {\ text {(replace}} \ varepsilon {\ text {как указано выше)}} \\ [5pt] = {} \ Pr ({ \ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i} + \ varepsilon>0) {\ text {(replace}} {\ boldsymbol {\ beta}} {\ text {как указано выше)}} \\ [5pt] = {} \ Pr (\ varepsilon>- {\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}) {\ text {(теперь такая же, как в модели выше)} } \\ [5pt] = {} \ Pr (\ varepsilon <{\boldsymbol {\beta }}\cdot \mathbf {X} _{i})\\[5pt]={}\operatorname {logit} ^{-1}({\boldsymbol {\beta }}\cdot \mathbf {X} _{i})\\[5pt]={}p_{i}\end{aligned}}

Пример

В качестве примера рассмотрим выборы на уровне провинции, где выбор делается между правоцентристской партией и левой центристская партия и сепаратистская партия (например, Parti Québécois, которая хочет, чтобы Квебек отделился от Канады ). Затем мы использовали бы три скрытые переменные, по одной для каждого выбора. Затем, в соответствии с теорией полезности, мы можем интерпретировать скрытые переменные как выражающие полезность, которая возникает в результате принятия каждого из вариантов выбора. Мы также можем интерпретировать коэффициенты регрессии как показывающие силу, которую связанный фактор (т. Е. Объясняющая переменная) имеет в содействии полезности, или, точнее, количество, на которое изменение единицы в объясняющей переменной изменяет полезность данного выбора. Избиратель может ожидать, что правоцентристская партия снизит налоги, особенно для богатых. Это не дало бы людям с низким доходом никакой выгоды, то есть никаких изменений в полезности (поскольку они обычно не платят налоги); принесет умеренную выгоду (то есть несколько больше денег или умеренное повышение полезности) для людей среднего уровня; принесет значительные выгоды людям с высокими доходами. С другой стороны, можно ожидать, что левоцентристская партия повысит налоги и компенсирует их повышением благосостояния и другой помощью для нижних и средних классов. Это принесет значительную положительную пользу людям с низким доходом, возможно, слабую пользу людям со средним доходом и значительную отрицательную пользу людям с высокими доходами. Наконец, сепаратистская партия не будет предпринимать никаких прямых действий в отношении экономики, а просто отделится. Избиратель с низким или средним доходом может в основном не ожидать от этого явной выгоды или убытка от полезности, но избиратель с высоким доходом может ожидать отрицательной полезности, поскольку он / она, вероятно, будет владеть компаниями, которым будет труднее вести бизнес. такая среда и, вероятно, потеряете деньги.

Эти интуиции можно выразить следующим образом:

Расчетная сила коэффициента регрессии для различных исходов (партийный выбор) и различных значений независимых переменных
	Центр-справа	В центре-слева	Сецессионист
Высокий доход	сильный +	сильный -	сильный -
средний доход	умеренный +	слабый +	нет
малообеспеченный	нет	сильный +	нет

Это ясно показывает что

Для каждого выбора должны существовать отдельные наборы коэффициентов регрессии. Если сформулировать это с точки зрения полезности, это очень легко увидеть. Разные варианты по-разному влияют на чистую полезность; кроме того, эффекты различаются сложным образом, что зависит от характеристик каждого человека, поэтому должны быть отдельные наборы коэффициентов для каждой характеристики, а не просто одна дополнительная характеристика для каждого выбора.
Даже если доход есть непрерывная переменная, ее влияние на полезность слишком сложно, чтобы рассматривать ее как единственную переменную. Либо ее необходимо напрямую разделить на диапазоны, либо необходимо добавить более высокие степени дохода, чтобы эффективно выполнить полиномиальную регрессию по доходу.

В качестве «лог-линейной» модели

Еще одна формулировка объединяет описанную выше формулировку двусторонних латентных переменных с исходной формулировкой выше без латентных переменных и в процессе обеспечивает ссылку на одну из стандартных формулировок полиномиального логита.

Здесь, вместо записи logit вероятностей p i в качестве линейного предиктора мы разделяем линейный предиктор на два, по одному для каждого из двух результатов:

ln ⁡ Pr ( Y я знак равно 0) знак равно β 0 ⋅ Икс я - пер ⁡ Z пер ⁡ Pr (Y я = 1) = β 1 ⋅ Икс я - пер ⁡ Z {\ displaystyle {\ begin {align} \ ln \ Pr (Y_ { i} = 0) = {\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i} - \ ln Z \\\ ln \ Pr (Y_ {i} = 1) = {\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i} - \ ln Z \ end {align}}}

{\begin{aligned}\ln \Pr(Y_{i}=0)={\boldsymbol {\beta }}_{0}\cdot \mathbf {X} _{i}-\ln Z\\\ln \Pr(Y_{i}=1)={\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i}-\ln Z\end{aligned}}

Обратите внимание, что были введены два отдельных набора коэффициентов регрессии, просто как в модели с двусторонней скрытой переменной, и два уравнения представляют собой форму, которая записывает логарифм связанной вероятности в качестве линейного предиктора с дополнительным членом $- ln ⁡ Z {\ displaystyle - \ ln Z}$ $-\ln Z$ в конце. Этот член, как оказалось, служит нормализующим коэффициентом , гарантирующим, что результат является распределением. Это можно увидеть, возведя в степень обе стороны:

Pr (Y i = 0) = 1 Z e β 0 ⋅ X i Pr (Y i = 1) = 1 Z e β 1 ⋅ X i {\ displaystyle {\ begin {выровнено} \ Pr (Y_ {i} = 0) = {\ frac {1} {Z}} e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i }} \\ [5pt] \ Pr (Y_ {i} = 1) = {\ frac {1} {Z}} e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X } _ {i}} \ end {align}}}

{\begin{aligned}\Pr(Y_{i}=0)={\frac {1}{Z}}e^{{\boldsymbol {\beta }}_{0}\cdot \mathbf {X} _{i}}\\[5pt]\Pr(Y_{i}=1)={\frac {1}{Z}}e^{{\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i}}\end{aligned}}

В этой форме ясно, что цель Z - гарантировать, что результирующее распределение по Y i действительно будет распределение вероятностей, т. е. сумма равна 1. Это означает, что Z - это просто сумма всех ненормированных вероятностей, и при делении каждой вероятности на Z вероятности становятся «нормализованными ». То есть:

Z = е β 0 ⋅ Икс я + е β 1 ⋅ Икс я {\ displaystyle Z = e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ { i}} + e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}}

Z=e^{{\boldsymbol {\beta }}_{0}\cdot \mathbf {X} _{i}}+e^{{\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i}}

, и в результате получаются уравнения

Pr (Y i = 0) = е β 0 ⋅ X, т.е. β 0 ⋅ X i + e β 1 ⋅ X i Pr (Y i = 1) = e β 1 X, то есть β 0 X i + e β 1 ⋅ X i. {\ displaystyle {\ begin {align} \ Pr (Y_ {i} = 0) = {\ frac {e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i }}} {e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}} + e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}}} \\ [5pt] \ Pr (Y_ {i} = 1) = {\ frac {e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}} {e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}} + e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}}}. \ End {align}}}

{\ displaystyle {\ begin {align} \ Pr (Y_ { i} = 0) = {\ frac {e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}}} {e ^ {{\ boldsymbol {\ beta} } _ {0} \ cdot \ mathbf {X} _ {i}} + e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}}} \\ [ 5pt] \ Pr (Y_ {i} = 1) = {\ frac {e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}} {e ^ { {\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}} + e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i }}}}. \ end {align}}}

Или обычно:

Pr (Y i = c) = e β c ⋅ X i ∑ он β час ⋅ Икс я {\ Displaystyle \ Pr (Y_ {я} = с) = {\ гидроразрыва {е ^ {{\ boldsymbol {\ beta}} _ {с} \ cdot \ mathbf {X} _ {я} }} {\ sum _ {h} e ^ {{\ boldsymbol {\ beta}} _ {h} \ cdot \ mathbf {X} _ {i}}}}}

\Pr(Y_{i}=c)={\frac {e^{{\boldsymbol {\beta }}_{c}\cdot \mathbf {X} _{i}}}{\sum _{h}e^{{\boldsymbol {\beta }}_{h}\cdot \mathbf {X} _{i}}}}

Это ясно показывает, как обобщить эту формулировку к более чем двум исходам, как в полиномиальный логит. Обратите внимание, что эта общая формулировка является в точности функцией softmax, как в

Pr (Y i = c) = softmax ⁡ (c, β 0 ⋅ X i, β 1 ⋅ X i,…). {\ displaystyle \ Pr (Y_ {i} = c) = \ operatorname {softmax} (c, {\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}, {\ boldsymbol { \ beta}} _ {1} \ cdot \ mathbf {X} _ {i}, \ dots).}

\Pr(Y_{i}=c)=\operatorname {softmax} (c,{\boldsymbol {\beta }}_{0}\cdot \mathbf {X} _{i},{\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i},\dots).

Чтобы доказать, что это эквивалентно предыдущей модели, обратите внимание, что указанная выше модель является завышенной, в что $Pr (Y i = 0) {\ displaystyle \ Pr (Y_ {i} = 0)}$ $\Pr(Y_{i}=0)$ и $Pr (Y i = 1) {\ displaystyle \ Pr (Y_ { i} = 1)}$ $\ Pr (Y_ {i} = 1)$ нельзя указать независимо: скорее, $Pr (Y i = 0) + Pr (Y i = 1) = 1 {\ displaystyle \ Pr (Y_ {i} = 0) + \ Pr (Y_ {i} = 1) = 1}$ $\Pr(Y_{i}=0)+\Pr(Y_{i}=1)=1$ , поэтому знание одного автоматически определяет другое. В результате модель неидентифицируемая, в которой несколько комбинаций β0и β1будут давать одинаковые вероятности для всех возможных независимых переменных. Фактически, можно увидеть, что добавление любого постоянного вектора к ним обоим даст одинаковые вероятности:

Pr (Y i = 1) = e (β 1 + C) ⋅ X ie (β 0 + C) ⋅ X i + e (β 1 + C) ⋅ X i = e β 1 ⋅ X, т.е. C ⋅ X, т.е. β 0 ⋅ X, т.е. C ⋅ X i + e β 1 ⋅ X, т.е. C ⋅ X i = e C ⋅ X, т.е. β 1 ⋅ X, то есть C ⋅ X i (e β 0 X i + e β 1 ⋅ X i) = e β 1 X, то есть β 0 ⋅ X i + e β 1 ⋅ X i. {\ Displaystyle {\ begin {align} \ Pr (Y_ {i} = 1) = {\ frac {e ^ {({\ boldsymbol {\ beta}} _ {1} + \ mathbf {C}) \ cdot \ mathbf {X} _ {i}}} {e ^ {({\ boldsymbol {\ beta}} _ {0} + \ mathbf {C}) \ cdot \ mathbf {X} _ {i}} + e ^ {({\ boldsymbol {\ beta}} _ {1} + \ mathbf {C}) \ cdot \ mathbf {X} _ {i}}}} \\ [5pt] = {\ frac {e ^ {{ \ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}} e ^ {\ mathbf {C} \ cdot \ mathbf {X} _ {i}}} {e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}} e ^ {\ mathbf {C} \ cdot \ mathbf {X} _ {i}} + e ^ {{\ boldsymbol { \ beta}} _ {1} \ cdot \ mathbf {X} _ {i}} e ^ {\ mathbf {C} \ cdot \ mathbf {X} _ {i}}}} \\ [5pt] = { \ frac {e ^ {\ mathbf {C} \ cdot \ mathbf {X} _ {i}} e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}} } {e ^ {\ mathbf {C} \ cdot \ mathbf {X} _ {i}} (e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}} + e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}})}} \\ [5pt] = {\ frac {e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}} {e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}} + e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}}}. \ end {выравнивается}} }

{\begin{aligned}\Pr(Y_{i}=1)={\frac {e^{({\boldsymbol {\beta }}_{1}+\mathbf {C})\cdot \mathbf {X} _{i}}}{e^{({\boldsymbol {\beta }}_{0}+\mathbf {C})\cdot \mathbf {X} _{i}}+e^{({\boldsymbol {\beta }}_{1}+\mathbf {C})\cdot \mathbf {X} _{i}}}}\\[5pt]={\frac {e^{{\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i}}e^{\mathbf {C} \cdot \mathbf {X} _{i}}}{e^{{\boldsymbol {\beta }}_{0}\cdot \mathbf {X} _{i}}e^{\mathbf {C} \cdot \mathbf {X} _{i}}+e^{{\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i}}e^{\mathbf {C} \cdot \mathbf {X} _{i}}}}\\[5pt]={\frac {e^{\mathbf {C} \cdot \mathbf {X} _{i}}e^{{\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i}}}{e^{\mathbf {C} \cdot \mathbf {X} _{i}}(e^{{\boldsymbol {\beta }}_{0}\cdot \mathbf {X} _{i}}+e^{{\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i}})}}\\[5pt]={\frac {e^{{\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i}}}{e^{{\boldsymbol {\beta }}_{0}\cdot \mathbf {X} _{i}}+e^{{\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i}}}}.\end{aligned}}

В результате мы можем упростить дело и восстановить идентифицируемость, выбрав произвольное значение для одного из двух векторов. Мы решили установить $β 0 = 0. {\ displaystyle {\ boldsymbol {\ beta}} _ {0} = \ mathbf {0}.}$ ${\boldsymbol {\beta }}_{0}=\mathbf {0}.$ Тогда

e β 0 ⋅ X i = e 0 ⋅ X i = 1 {\ displaystyle e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}} = e ^ {\ mathbf {0} \ cdot \ mathbf {X} _ {i}} = 1}

e^{{\boldsymbol {\beta }}_{0}\cdot \mathbf {X} _{i}}=e^{\mathbf {0} \cdot \mathbf {X} _{i}}=1

и поэтому

Pr (Y i = 1) = e β 1 ⋅ X i 1 + e β 1 ⋅ X i = 1 1 + e - β 1 ⋅ X i = pi {\ displaystyle \ Pr (Y_ {i} = 1) = {\ frac {e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}} {1 + e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}}} = {\ frac {1} {1 + e ^ {- {\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}}} = p_ {i}}

\Pr(Y_{i}=1)={\frac {e^{{\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i}}}{1+e^{{\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i}}}}={\frac {1}{1+e^{-{\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i}}}}=p_{i}

, что показывает, что эта формулировка действительно эквивалентна предыдущей формулировке. (Как и в формулировке двусторонней скрытой переменной, любые настройки, где $β = β 1 - β 0 {\ displaystyle {\ boldsymbol {\ beta}} = {\ boldsymbol {\ beta}} _ {1} - { \ boldsymbol {\ beta}} _ {0}}$ ${\boldsymbol {\beta }}={\boldsymbol {\beta }}_{1}-{\boldsymbol {\beta }}_{0}$ даст эквивалентные результаты.)

Обратите внимание, что большинство методов лечения модели полиномиального логита начинается либо с расширения «лог-линейная» формулировка, представленная здесь, или формулировка двусторонней скрытой переменной, представленная выше, поскольку обе ясно показывают способ, которым модель может быть расширена для многосторонних результатов. В целом представление со скрытыми переменными более распространено в эконометрике и политологии, где господствуют модели дискретного выбора и теория полезности, в то время как "лог-линейная" формулировка здесь более распространена в информатике, например машинное обучение и обработка естественного языка.

Как однослойный перцептрон

Модель имеет эквивалентную формулировку

pi = 1 1 + e - (β 0 + β 1 x 1, i + ⋯ + β kxk, i). {\ displaystyle p_ {i} = {\ frac {1} {1 + e ^ {- (\ beta _ {0} + \ beta _ {1} x_ {1, i} + \ cdots + \ beta _ {k } x_ {k, i})}}}. \,}

p_ {i} = {\ frac {1} {1 + e ^ {- (\ beta _ {0} + \ beta _ {1} x_ {1, i} + \ cdots + \ beta _ {k} x_ {k, i})}}}. \,

Эту функциональную форму обычно называют однослойной перцептроном или однослойной искусственной нейронной сетью. Однослойная нейронная сеть вычисляет непрерывный результат вместо пошаговой функции . Производная p i по X = (x 1,..., x k) вычисляется из общей формы:

y = 1 1 + e - f (X) {\ displaystyle y = {\ frac {1} {1 + e ^ {- f (X)}}}}

y={\frac {1}{1+e^{-f(X)}}}

где f (X) - аналитический функция в X. При таком выборе однослойная нейронная сеть идентична модели логистической регрессии. Эта функция имеет непрерывную производную, что позволяет использовать ее в обратном распространении. Эта функция также является предпочтительной, потому что ее производная легко вычисляется:

d y d X = y (1 - y) d f d X. {\ displaystyle {\ frac {\ mathrm {d} y} {\ mathrm {d} X}} = y (1-y) {\ frac {\ mathrm {d} f} {\ mathrm {d} X}}. \,}

{\frac {\mathrm {d} y}{\mathrm {d} X}}=y(1-y){\frac {\mathrm {d} f}{\mathrm {d} X}}.\,

В терминах биномиальных данных

Тесно связанная модель предполагает, что каждое i связано не с одним испытанием Бернулли, а с n iнезависимыми одинаково распределенными испытаниями, где наблюдение Y i - это количество наблюдаемых успехов (сумма отдельных случайных величин, распределенных по Бернулли), и, следовательно, следует биномиальному распределению :

Y i ∼ Bin ⁡ (ni, pi), для я = 1,…, n {\ displaystyle Y_ {i} \, \ sim \ operatorname {Bin} (n_ {i}, p_ {i}), {\ text {for}} i = 1, \ dots, n}

Y_{i}\,\sim \operatorname {Bin} (n_{i},p_{i}),{\text{ for }}i=1,\dots,n

Примером этого распределения является доля семян (p i), которые прорастают после посадки n i.

В терминах ожидаемых значений эта модель выражается следующим образом:

p i = E ⁡ [Y i n i | Икс i], {\ displaystyle p_ {i} = \ operatorname {\ mathcal {E}} \ left [\ left. {\ Frac {Y_ {i}} {n_ {i}}} \, \ right | \, \ mathbf {X} _ {i} \ right] \,,}

p_{i}=\operatorname {\mathcal {E}} \left[\left.{\frac {Y_{i}}{n_{i}}}\,\right|\,\mathbf {X} _{i}\right]\,,

, так что

logit ⁡ (E ⁡ [Y ini | X i]) = logit ⁡ (pi) = ln ⁡ (pi 1 - пи) знак равно β ⋅ Икс я, {\ displaystyle \ operatorname {logit} \ left (\ operatorname {\ mathcal {E}} \ left [\ left. {\ frac {Y_ {i}} {n_ {i}}}} \, \ right | \, \ mathbf {X} _ {i} \ right] \ right) = \ operatorname {logit} (p_ {i}) = \ ln \ left ({\ frac {p_ {i}} { 1-p_ {i}}} \ right) = {\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i} \,,}

\operatorname {logit} \left(\operatorname {\mathcal {E}} \left[\left.{\frac {Y_{i}}{n_{i}}}\,\right|\,\mathbf {X} _{i}\right]\right)=\operatorname {logit} (p_{i})=\ln \left({\frac {p_{i}}{1-p_{i}}}\right)={\boldsymbol {\beta }}\cdot \mathbf {X} _{i}\,,

Или, что эквивалентно:

Pr (Y i = y ∣ X i) знак равно (niy) piy (1 - pi) ni - y = (niy) (1 1 + e - β ⋅ X i) y (1 - 1 1 + e - β ⋅ X i) ni - y. {\ displaystyle \ Pr (Y_ {i} = y \ mid \ mathbf {X} _ {i}) = {n_ {i} \ select y} p_ {i} ^ {y} (1-p_ {i}) ^ {n_ {i} -y} = {n_ {i} \ select y} \ left ({\ frac {1} {1 + e ^ {- {\ boldsymbol {\ beta}} \ cdot \ mathbf {X}) _ {i}}}} \ right) ^ {y} \ left (1 - {\ frac {1} {1 + e ^ {- {\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i }}}} \ right) ^ {n_ {i} -y} \,.}

\Pr(Y_{i}=y\mid \mathbf {X} _{i})={n_{i} \choose y}p_{i}^{y}(1-p_{i})^{n_{i}-y}={n_{i} \choose y}\left({\frac {1}{1+e^{-{\boldsymbol {\beta }}\cdot \mathbf {X} _{i}}}}\right)^{y}\left(1-{\frac {1}{1+e^{-{\boldsymbol {\beta }}\cdot \mathbf {X} _{i}}}}\right)^{n_{i}-y}\,.

Эта модель может быть адаптирована с использованием тех же методов, что и описанная выше более базовая модель.

Байесовский

Сравнение логистической функции с масштабированной обратной пробит-функцией (т.е. CDF нормального распределения ), сравнивая

σ (x) {\ displaystyle \ sigma (x)}

\sigma (x)

vs.

Φ (π 8 x) {\ displaystyle \ Phi ({\ sqrt {\ frac {\ pi} {8}}} x)}

\ Phi ({\ sqrt {\ frac {\ pi} {8}}} х)

, что делает уклоны одинаковыми в начале координат. Это показывает более тяжелые хвосты логистического распределения.

В контексте байесовской статистики предшествующие распределения обычно помещаются в коэффициенты регрессии, обычно в форма гауссовых распределений. В логистической регрессии не существует сопряженного предшествующего функции правдоподобия . Когда байесовский вывод был выполнен аналитически, это затрудняло вычисление апостериорного распределения, за исключением очень малых измерений. Однако теперь автоматическое программное обеспечение, такое как OpenBUGS, JAGS, PyMC3 или Stan, позволяет вычислять эти апостериорные компоненты с помощью моделирования, поэтому о супружестве не вызывает беспокойства. Однако, когда размер выборки или количество параметров велико, полное байесовское моделирование может быть медленным, и люди часто используют приближенные методы, такие как вариационные байесовские методы и распространение математических ожиданий.

История

Подробная история логистической регрессии приведена в Cramer (2002). Логистическая функция была разработана как модель роста населения и названа «логистической» Пьером Франсуа Ферхюльстом в 1830-х и 1840-х годах под руководством Адольфа Кетле ; подробнее см. Логистическая функция § История. В своей самой ранней статье (1838 г.) Ферхюльст не уточнил, как он подгоняет кривые к данным. В своей более подробной статье (1845) Ферхюльст определил три параметра модели, заставив кривую проходить через три наблюдаемые точки, что дало плохие прогнозы.

Логистическая функция была независимо разработана в химии как модель автокатализ (Вильгельм Оствальд, 1883). Автокаталитическая реакция - это реакция, в которой один из продуктов сам по себе является катализатором той же реакции, в то время как подача одного из реагентов является фиксированной. Это естественным образом приводит к логистическому уравнению по той же причине, что и рост населения: реакция является самоусиливающейся, но ограниченной.

Логистическая функция была независимо заново открыта как модель роста населения в 1920 году Раймондом Перлом и Лоуэллом Ридом, опубликованным как Pearl Reed (1920). ошибка harvtxt: нет цели: CITEREFPearlReed1920 (help ), что привело к его использованию в современной статистике. Первоначально они не знали о работе Ферхюльста и предположительно узнали о ней от Л. Гюстав дю Паскье, но они не поверили ему и не приняли его терминологию. Удный Юле в 1925 году признал приоритет Verhulst, и термин «логистика» был возрожден и с тех пор используется. Перл и Рид сначала применили модель к населению Соединенных Штатов, а также сначала подогнали кривую, проведя ее через три точки; как и в случае с Verhulst, это снова дало плохие результаты.

В 1930-х годах пробит-модель была разработана и систематизирована Честером Иттнером Блиссом, который ввел термин «пробит». "в Bliss (1934) harvtxt error: нет цели: CITEREFBliss1934 (help ), и John Gaddum в Gaddum (1933) Ошибка harvtxt: нет цели: CITEREFGaddum1933 (help ), и модель соответствует оценке максимального правдоподобия по Рональду А. Фишеру в Fisher (1935) ошибка harvtxt: нет цели: CITEREFFisher1935 (help ), как дополнение к работе Блисс. Пробит-модель в основном использовалась в биопроб, и ей предшествовали более ранние работы, датированные 1860 годом; см. Пробит-модель § История. Пробит-модель повлияла на последующее развитие логит-модели, и эти модели конкурировали друг с другом.

Логистическая модель, вероятно, впервые была использована в качестве альтернативы пробит-модели в биотесте Эдвином Бидвеллом Уилсоном и его ученица Джейн Вустер в Wilson Worcester (1943). Однако разработка логистической модели в качестве общей альтернативы пробит-модели была в основном связана с работой Джозефа Берксона на протяжении многих десятилетий, начиная с Berkson (1944) harvtxt error: нет цели: CITEREFBerkson1944 (help ), где он придумал "logit" по аналогии с "probit" и продолжил до Berkson (1951) harvtxt error: no target: CITEREFBerkson1951 (помощь ) и последующие годы. Логит-модель изначально отвергалась как уступающая пробит-модели, но «постепенно достигла равенства с логит-моделью», особенно в период с 1960 по 1970 г. К 1970 году логит-модель достигла паритета с пробит-моделью, которая использовалась в статистических журналах, а затем превзошел его. Эта относительная популярность была обусловлена принятием логита за пределами биотеста, а не вытеснением пробита в рамках биотеста, и его неформальным использованием на практике; Популярность логита объясняется вычислительной простотой, математическими свойствами и универсальностью логит-модели, что позволяет использовать ее в различных областях.

За это время были внесены различные усовершенствования, в частности, Дэвидом Коксом, поскольку in Cox (1958).

Модель полиномиального логита была представлена независимо в Cox (1966) и Thiel (1969), что значительно расширило область применения и популярность модели логита. В 1973 году Дэниел Макфадден связал полиномиальный логит с теорией дискретного выбора, в частности, аксиомой выбора Люса, показывая, что полиномиальный логит следует из предположения независимость от нерелевантных альтернатив и интерпретация вероятностей альтернатив как относительных предпочтений; это дало теоретическую основу для логистической регрессии.

Расширения

Существует большое количество расширений:

Полиномиальная логистическая регрессия (или полиномиальный логит ) обрабатывает случай многосторонней категориальной зависимой переменной (с неупорядоченными значениями, также называемой «классификацией»). Обратите внимание, что общий случай наличия зависимых переменных с более чем двумя значениями называется политомической регрессией.
Упорядоченная логистическая регрессия (или упорядоченный логит ) обрабатывает порядковые зависимые переменные ( упорядоченные значения).
Смешанный логит - это расширение полиномиального логита, которое позволяет корреляции между вариантами выбора зависимой переменной.
Расширением логистической модели на наборы взаимозависимых переменных является условное случайное поле.
Условная логистическая регрессия обрабатывает сопоставленные или стратифицированные данные, когда страты небольшие. Он в основном используется при анализе наблюдательных исследований.

Программное обеспечение

Большинство статистических программ может выполнять бинарную логистическую регрессию.

SPSS
- [1] для базовой логистической регрессии.
Stata
SAS
- PROC LOGISTIC для базовой логистической регрессии.
- PROC CATMOD когда все переменные являются категориальными.
- PROC GLIMMIX для многоуровневой модели логистическая регрессия.
R
- glm в пакете статистики (с использованием family = binomial)
- lrmв rms пакете
- GLMNET для эффективной реализации регуляризованной логистической регрессии
- lmer для смешанной логистической регрессии
- команда пакета Rfast gm_logisticдля быстрой и тяжелые вычисления с использованием крупномасштабных данных.
- пакет arm для байесовской логистической регрессии
Python
- Logit в модуле Statsmodels.
- LogisticRegression в модуле Scikit-learn.
- LogisticRegressor в модуле TensorFlow.
- Полный пример логистической регрессии в учебном пособии Theano [2]
- Байесовская логистическая регрессия с предшествующим кодом ARD, учебник
- Вариационная байесовская логистическая регрессия с предшествующим кодом ARD, учебник
- код Байесовской логистической регрессии , учебник
NCSS
- Логистическая регрессия в NCSS
Matlab
- mnrfitв (с «неправильным» кодом 2 вместо 0)
- fminunc / fmincon, fitglm, mnrfit, fitclinear, mleмогут выполнять логистическую регрессию.
Java (JVM )
- LibLinear
- Apache Flink
- Apache Spark
  - SparkML поддерживает логистическую регрессию
FPGA
- IP ядро Logistic Regresesion в HLS для FPGA.

Примечательно, что пакет расширения статистики Microsoft Excel не включает его.

См. Также

Портал математики

Логистическая функция
Дискретный выбор
Модель Джарроу – Тернбулла
Ограниченная зависимая переменная
Модель полиномиального логита
Упорядоченный логит
Тест Хосмера – Лемешоу
оценка Бриера
mlpack - содержит C ++ реализацию логистической регрессии
Локальная выборка для контроля случая
Дерево логистической модели

Ссылки

Дополнительная литература

Внешние ссылки

Викиверситет содержит обучающие ресурсы о логистической регрессии

СМИ, связанные с логистической регрессией на Wikimedia Commons
Лекция по эконометрике (тема: модель логита) на YouTube от Марка Тома
Учебник по логистической регрессии
mlelr : программное обеспечение на C для обучения цели