В статистике пробит-модель является типом регрессии, где зависимая переменная может принимать только два значения, например, женат или не женат. Это слово портманто, происходящее от проблема способность + un оно . Цель модели - оценить вероятность того, что наблюдение с определенными характеристиками попадет в определенную категорию; кроме того, классификация наблюдений на основе их предсказанных вероятностей является типом модели двоичной классификации.
A модель пробит - это популярная спецификация для модели двоичного ответа. Таким образом, он решает тот же набор проблем, что и логистическая регрессия, используя аналогичные методы. При рассмотрении в рамках обобщенной линейной модели пробит-модель использует функцию связи probit . Чаще всего его оценивают с использованием процедуры максимального правдоподобия, такая оценка называется пробит-регрессией .
Предположим, что переменная ответа Y является двоичной, то есть может иметь только два возможных результата, которые мы обозначим как 1 и 0. Например, Y может обозначать наличие / отсутствие определенного условия, успех / отказ какого-либо устройства, ответ да / нет в опросе и т. Д. У нас также есть вектор регрессоров X, которые предполагаются чтобы повлиять на результат Y. В частности, мы предполагаем, что модель принимает форму
где P r обозначает вероятность, а Φ - кумулятивная функция распределения (CDF ) стандартного нормального распределения. Параметры β обычно оцениваются с помощью максимального правдоподобия.
. Пробит-модель можно мотивировать как модель скрытых переменных. Предположим, что существует вспомогательная случайная величина
где ε ~ N (0, 1). Тогда Y можно рассматривать как индикатор того, является ли эта скрытая переменная положительной:
Использование стандартного нормального распределения не вызывает потеря общности по сравнению с использованием нормального распределения с произвольным средним и стандартным отклонением, поскольку добавление фиксированной величины к среднему можно компенсировать путем вычитания той же суммы из точки пересечения и умножения стандартного отклонения на фиксированная сумма может быть компенсирована путем умножения ng веса на такое же количество.
Чтобы убедиться, что эти две модели эквивалентны, обратите внимание, что
Предположим, что набор данных содержит n независимые статистические единицы, соответствующие модели выше.
Для единственного наблюдения, обусловленного вектором входных данных этого наблюдения, мы имеем:
где - вектор входы, а - это вектор коэффициентов.
Тогда вероятность единичного наблюдения равна
Фактически, если , то , и если , тогда .
Поскольку наблюдения независимы и одинаково распределены, то вероятность всей выборки или совокупная вероятность, будет равно произведению вероятностей отдельных наблюдений:
Таким образом, объединенная функция логарифмического правдоподобия равна
Оценщик , которая максимизирует эту функцию, будет непротиворечивым, асимптотически нормальным и эффективным при условии, что E [XX '] существует и не является единичным. Можно показать, что эта функция логарифмического правдоподобия в целом вогнута по β, и поэтому стандартные численные алгоритмы оптимизации быстро сходятся к единственному максимуму.
Асимптотическое распределение для дается как
где
и - функция плотности вероятности ( PDF ) стандартного нормального распределения.
Также доступны полупараметрические и непараметрические методы максимального правдоподобия для моделей пробит-типа и других связанных моделей.
Этот метод может быть применяется только тогда, когда имеется много наблюдений переменной ответа , имеющей одинаковое значение вектора регрессоров (такую ситуацию можно назвать «много наблюдений на ячейку»). Более конкретно модель можно сформулировать следующим образом.
Предположим, что среди n наблюдений существует только T различных значений регрессоров, которые можно обозначить как . Пусть будет количеством наблюдений с и количество таких наблюдений с . Мы предполагаем, что действительно существует «много» наблюдений для каждой «ячейки»: для каждой .
Обозначьте
Тогда минимальное значение Чи Берксона квадратная оценка - это оценка обобщенных наименьших квадратов в регрессии на с весами :
Можно показать, что эта оценка непротиворечива (при n → ∞ и фиксированном T), асимптотически нормальна и эффективна. Его преимущество - наличие закрытой формулы для оценки. Однако этот анализ имеет смысл проводить только тогда, когда отдельные наблюдения недоступны, а только их агрегированные подсчеты , и (например, при анализе поведения при голосовании).
Выборка Гиббса пробит-модели возможна, потому что регрессионные модели обычно используют нормальные априорные распределения по весам, и это распределение сопряжено с нормальным распределением ошибки (и, следовательно, скрытые переменные Y). Модель может быть описана как
Отсюда мы можем определить все необходимые условные плотности:
Результат для β приведен в статье о байесовской линейной регрессии, хотя и указан с помощью diff другие обозначения.
Единственная хитрость заключается в последних двух уравнениях. Обозначение - это скобка Айверсона, иногда обозначаемая как или аналогичный. Это означает, что распределение должно быть усечено в заданном диапазоне и соответствующим образом масштабировано. В этом конкретном случае возникает усеченное нормальное распределение. Выборка из этого распределения зависит от того, насколько усечена. Если остается большая часть исходной массы, выборку можно легко выполнить с помощью выборки отклонения - просто выберите число из необрезанного распределения и отклоните его, если оно выходит за рамки ограничения, налагаемого усечением. Если выборка выполняется только из небольшой части однако исходная масса (например, если выборка происходит из одного из хвостов нормального распределения - например, если составляет около 3 или более, и желательна отрицательная выборка), тогда это будет неэффективно, и возникнет необходимость вернуться к другому алгоритму выборки с. Общая выборка из усеченного нормального может быть достигнута с использованием приближений к нормальному CDF и пробит-функции, а R имеет функцию rtnorm ()
для генерации усеченных нормальных выборок.
Пригодность оцениваемой бинарной модели может быть оценена путем подсчета количества истинных наблюдений, равного 1, и числа, равного нулю, для которых модель назначает правильную предсказанную классификацию с помощью обработка любой оценочной вероятности выше 1/2 (или ниже 1/2) как присвоения прогноза 1 (или 0). Подробнее см. Логистическая регрессия § Пригодность модели.
Рассмотрим формулировку модели с латентными переменными пробит-модели. Когда дисперсия из , обусловленная , не постоянна, а зависит от , тогда возникает проблема гетероскедастичности. Например, предположим, что и где - непрерывная положительная независимая переменная. В условиях гетероскедастичности пробит-оценка для обычно непоследовательна, и большинство тестов для коэффициентов недействительны. Что еще более важно, оценка для также становится непоследовательной. Чтобы справиться с этой проблемой, исходная модель должна быть преобразована в гомоскедастическую. Например, в том же примере можно переписать как , где . Следовательно, и пробит выполняется на генерирует согласованную оценку для условной вероятности
Когда предположение, что нормально распределено, не выполняется, тогда функциональная форма ошибка спецификации возникает проблема: если модель все еще оценивается как пробит-модель, оценки коэффициентов несовместимы. Например, если следует логистическому распределению в истинной модели, но модель оценивается пробит, оценки обычно будут меньше, чем истинное значение. Однако несоответствие оценок коэффициентов практически не имеет значения, поскольку оценки для, , будет близка к оценкам, данным истинной логит-моделью.
Чтобы избежать проблемы неправильной спецификации распределения, можно принять общее предположение о распределении ошибки термин, так что в модель может быть включено множество различных типов распределения. Стоимость - более тяжелые вычисления и меньшая точность увеличения количества параметров. В большинстве случаев на практике, когда форма распределения указана неверно, оценки для коэффициентов несовместимы, но оценки для условной вероятности и частичных эффектов все еще очень хороши.
Можно также использовать полупараметрические или непараметрические подходы, например, с помощью методов локального правдоподобия или непараметрических методов квази-правдоподобия, которые избегают допущений о параметрической форме для индексной функции и устойчивы к выбору функции связи (например, пробит или логит).
Пробит-модель обычно приписывается Честеру Блиссу, который ввел термин «пробит» в 1934 году, и Джону Гэддуму (1933)., систематизировавшие более ранние работы. Тем не менее, основная модель восходит к закону Вебера-Фехнера Густава Фехнера, опубликованному в Fechner (1860) harvtxt error: no target: CITEREFFechner1860 (help ) и неоднократно открывался заново до 1930-х годов; см. Finney (1971, глава 3.6) и Aitchison Brown (1957, Chapter 1.2) ошибка harvtxt: нет цели: CITEREFAitchisonBrown1957 (help ).
Быстрый метод вычисления оценки максимального правдоподобия для пробит-модели были предложены Рональдом Фишером в качестве приложения к работе Блисс в 1935 году.