В статистике, биномиальная регрессия является регрессионным анализом метод, в котором ответ (часто обозначаемый Y) имеет биномиальное распределение : это количество успехов в серии независимые испытания Бернулли, где каждое испытание имеет вероятность успеха . В биномиальной регрессии вероятность успеха связана с независимыми переменными : соответствующая концепция в обычной регрессии состоит в том, чтобы связать среднее значение ненаблюдаемой реакции с независимыми переменными.
Биномиальная регрессия тесно связана с двоичной регрессией : если ответом является двоичная переменная (два возможных результата), то это можно рассматривать как биномиальное распределение с испытание, в котором один из результатов рассматривается как «успех», а другой - как «неудача», с подсчетом результатов как 1 или 0: засчитывается успех как 1 успех из 1 испытания, а неудача - как 0 успехов из 1 испытания. Модели биномиальной регрессии по сути такие же, как модели двоичного выбора, один тип модели дискретного выбора. Основное различие заключается в теоретической мотивации.
В машинном обучении биномиальная регрессия рассматривается как частный случай вероятностной классификации и, следовательно, является обобщением двоичной классификации.
В одном опубликованном примере применения биномиальной регрессии детали были следующими. Наблюдаемая переменная результата заключалась в том, произошла ли ошибка в производственном процессе. Существовали две объясняющие переменные: первая представляла собой простой фактор из двух случаев, показывающий, использовалась ли модифицированная версия процесса, а вторая - обычная количественная переменная, измеряющая чистоту материала, поставляемого для процесса.
Модели дискретного выбора мотивируются с помощью теории полезности для обработки различных типов коррелированных и некоррелированных выборов, в то время как модели биномиальной регрессии обычно описываются в терминах обобщенной линейной модели, попытка обобщить различные типы моделей линейной регрессии. В результате модели дискретного выбора обычно описываются в первую очередь с помощью скрытой переменной, указывающей на «полезность» выбора, и со случайностью, вводимой через ошибочную переменную, распределенную в соответствии с конкретным распределение вероятностей. Обратите внимание, что сама скрытая переменная не наблюдается, а только фактический выбор, который предполагается, что был сделан, если чистая полезность была больше нуля. Однако в моделях бинарной регрессии не используются как скрытая переменная, так и переменная ошибки, и предполагается, что выбор сам по себе является случайной величиной с функцией связи , которая преобразует ожидаемое значение переменной выбора в значение, которое затем прогнозируется линейным предсказателем. Можно показать, что они эквивалентны, по крайней мере, в случае моделей двоичного выбора: функция связи соответствует квантильной функции распределения переменной ошибки, а функция обратной связи - переменной кумулятивная функция распределения (CDF) переменной ошибки. Скрытая переменная имеет эквивалент, если представить себе создание равномерно распределенного числа от 0 до 1, вычитание из него среднего (в форме линейного предиктора, преобразованного функцией обратной связи) и инвертирование знака. Затем у каждого есть число, вероятность которого больше 0 равна вероятности успеха в переменной выбора, и его можно рассматривать как скрытую переменную, указывающую, был ли выбран 0 или 1.
Предполагается, что результаты имеют биномиальное распределение. Их часто используют как обобщенную линейную модель, где предсказанные значения μ представляют собой вероятности того, что любое отдельное событие приведет к успеху. правдоподобие прогнозов затем определяется как
где 1 A - индикаторная функция , который принимает значение один, когда происходит событие A, и ноль в противном случае: в этой формулировке для любого данного наблюдения y i только один из двух членов внутри продукта участвует в зависимости от того, y i = 0 или 1. Функция правдоподобия более полно определяется путем определения формальных параметров μ i как параметризованных функций независимых переменных: это определяет вероятность с точки зрения уменьшенное количество параметров. Подгонка модели обычно достигается с помощью метода максимального правдоподобия для определения этих параметров. На практике использование формулировки в качестве обобщенной линейной модели позволяет воспользоваться преимуществами определенных алгоритмических идей, которые применимы ко всему классу более общих моделей, но не применимы ко всем задачам максимального правдоподобия.
Модели, используемые в биномиальной регрессии, часто могут быть расширены до полиномиальных данных.
Существует множество методов получения значений μ систематическими способами, которые позволяют интерпретировать модель; они обсуждаются ниже.
Существует требование, чтобы моделирование, связывающее вероятности μ с независимыми переменными, имело форму, которая дает только значения в диапазоне от 0 до 1. Многие модели могут быть адаптированы. в виде
Здесь η - промежуточная переменная, представляющая линейную комбинацию независимых переменных, содержащую параметры регрессии.. Функция g является кумулятивной функцией распределения (cdf) некоторого распределения вероятностей. Обычно это распределение вероятностей имеет поддержку от минус бесконечности до плюс бесконечности, так что любое конечное значение η преобразуется функцией g в значение в диапазоне от 0 до 1.
В В случае логистической регрессии функция связи представляет собой журнал отношения шансов или логистическую функцию. В случае пробит ссылка представляет собой cdf нормального распределения. линейная вероятностная модель не является надлежащей спецификацией биномиальной регрессии, потому что прогнозы не обязательно должны находиться в диапазоне от нуля до единицы; он иногда используется для этого типа данных, когда интерпретация происходит в вероятностном пространстве или когда аналитику не хватает достаточного опыта для подбора или вычисления приблизительной линеаризации вероятностей для интерпретации.
Модель бинарного выбора предполагает скрытую переменную Un, полезность (или чистую выгоду), которую человек n получает от совершения действия (в отличие от бездействия). Польза, которую получает человек от совершения действия, зависит от характеристик человека, некоторые из которых наблюдаются исследователем, а некоторые нет:
где представляет собой набор коэффициентов регрессии и представляет собой набор независимых переменных ( также известные как «характеристики»), описывающие человека n, которые могут быть либо дискретными «фиктивными переменными », либо обычными непрерывными переменными. - случайная величина, определяющая «шум» или «ошибку» в прогнозе, предположительно распределенная в соответствии с некоторыми распространение. Обычно, если в распределении есть параметр среднего или дисперсии, его нельзя идентифицировать, поэтому для параметров устанавливаются удобные значения - по соглашению обычно означает 0, дисперсия 1.
человек выполняет действие, y n = 1, если U n>0. Предполагается, что ненаблюдаемый член ε n имеет логистическое распределение.
. В спецификации кратко написано:
Запишем это немного иначе:
Здесь мы сделали замену e n = −ε n. Это изменяет случайную переменную на несколько другую, определенную в отрицательной области. Как это бывает, обычно рассматриваемые нами распределения ошибок (например, логистическое распределение, стандартное нормальное распределение, стандартное t-распределение Стьюдента и т. Д.) Симметричны относительно 0, и, следовательно, распределение по e n идентично распределению по ε n.
Обозначим кумулятивную функцию распределения (CDF) для как и функция квантиля (обратный CDF) для как
Обратите внимание, что
Начиная с - это Бернулли испытание, где у нас есть
или эквивалентно
Примечание что это в точности эквивалентно модели биномиальной регрессии, выраженной в формализме обобщенной линейной модели.
Если т.е. распределено как стандартное нормальное распределение, тогда
что в точности является пробит-моделью.
Если т.е. распределено как стандартное логистическое распределение со средним значением 0 и параметром масштаба 1, тогда соответствующая функция квантиля является функцией логита, а
что в точности является логит-моделью.
Обратите внимание, что два разных формализма - обобщенные линейные модели (GLM) и модели дискретного выбора - эквивалентны в случае простых моделей бинарного выбора, но могут быть расширены разными способами:
A модель скрытых переменных, включающая биномиальную наблюдаемую переменную Y, может быть построена так, что Y связана со скрытой переменной Y * через
Затем латентная переменная Y * связана с набором регрессионных переменных X моделью
Это приводит к модели биномиальной регрессии.
Дисперсия не может быть идентифицирована, и когда она не представляет интереса, часто предполагается, что она равна единице. Если нормально распределено, тогда подходящей моделью является пробит, а если ϵ распределено по лог-Вейбуллу, тогда подходит логит. Если ϵ равномерно распределен, то подходит линейная вероятностная модель.