В статистике регрессия Пуассона представляет собой обобщенную линейную модель форма регрессионного анализа, используемая для моделирования данных подсчета и таблиц непредвиденных обстоятельств. Регрессия Пуассона предполагает, что переменная ответа Y имеет распределение Пуассона, и предполагает, что логарифм его ожидаемого значения может быть смоделирован линейной комбинацией неизвестных параметры. Модель регрессии Пуассона иногда известна как лог-линейная модель, особенно когда используется для моделирования таблиц непредвиденных обстоятельств.
Отрицательная биномиальная регрессия является популярным обобщением регрессии Пуассона, поскольку она ослабляет строго ограничительное предположение о том, что дисперсия равна среднему значению, сделанному моделью Пуассона. Традиционная модель отрицательной биномиальной регрессии, широко известная как NB2, основана на распределении смеси Пуассона и гамма-излучения. Эта модель популярна, потому что она моделирует неоднородность Пуассона с помощью гамма-распределения.
Модели регрессии Пуассона - это обобщенные линейные модели с логарифмом в качестве (канонической) функции связи и функцией распределения Пуассона в качестве предполагаемой распределение вероятностей ответа.
Если - вектор независимых переменных, тогда модель принимает форму
где и . Иногда это записывается более компактно как
где x теперь является (n + 1) -мерным вектором, состоящим из n независимых переменных, связанных с номером один. Здесь θ просто α, объединенный с β.
Таким образом, при заданной модели регрессии Пуассона θ и входном векторе x прогнозируемое среднее значение ассоциированного Пуассона распределение задается как
Если Y i являются независимыми наблюдениями с соответствующими значениями xiпеременных-предикторов, тогда θ можно оценить с помощью максимального правдоподобия. В оценках максимального правдоподобия отсутствует выражение в закрытой форме, и они должны быть найдены численными методами. Поверхность вероятности для регрессии Пуассона максимального правдоподобия всегда вогнута, что делает методы оценки Ньютона – Рафсона или другие методы на основе градиента подходящими.
Для данного набора параметров θ и входного вектора x дается среднее значение предсказанного распределения Пуассона, как указано выше. по
и, таким образом, функция массы вероятности распределения Пуассона задается как
Теперь предположим, что нам дан набор данных, состоящий из m векторов , а также набор из m значений . Тогда для данного набора параметров θ вероятность получения этого конкретного набора данных определяется выражением
По методу максимального правдоподобия, мы хотим найти набор параметров θ, который делает эту вероятность как можно большей. Для этого уравнение сначала переписывается как функция правдоподобия в терминах θ:
Обратите внимание, что выражение в правой части фактически не изменилось. С формулой в такой форме обычно сложно работать; вместо этого используется логарифм правдоподобия:
Обратите внимание, что параметры θ появляются только в первых двух членах каждого члена в суммирование. Поэтому, учитывая, что нас интересует только поиск наилучшего значения для θ, мы можем отбросить y i ! и просто напишите
Чтобы найти максимум, нам нужно решить уравнение , который не имеет решения в закрытой форме. Однако отрицательная логарифм правдоподобия, , является выпуклой функцией, и поэтому стандартные методы выпуклой оптимизации, такие как градиентный спуск, могут применяться для поиска оптимального значения θ.
Пуассоновская регрессия может быть подходящей, когда зависимая переменная является счетчиком, например, событий, таких как поступление телефонного звонка на звонок центр. События должны быть независимыми в том смысле, что поступление одного вызова не сделает другой более или менее вероятным, но считается, что вероятность в единицу времени событий связана с ковариатами, такими как время суток.
регрессия Пуассона также может быть подходящей для данных скорости, где частота - это количество событий, деленное на некоторую меру воздействия на эту единицу (конкретная единица наблюдения).. Например, биологи могут подсчитать количество видов деревьев в лесу: событиями будут наблюдения за деревьями, экспозиция - единицей площади, а норма - количеством видов на единицу площади. Демографы могут моделировать показатели смертности в географических регионах как количество смертей, разделенное на человеко-годы. В более общем смысле, частота событий может быть рассчитана как количество событий в единицу времени, что позволяет изменять окно наблюдения для каждой единицы. В этих примерах экспозиция представляет собой соответственно единицу площади, человеко-годы и единицу времени. В регрессии Пуассона это обрабатывается как смещение, где переменная экспозиции входит в правую часть уравнения, но с оценкой параметра (для журнала (экспозиция)), ограниченной до 1.
что означает
Смещение в случае GLM в R может быть достигнуто с помощью offset ()
функция:
glm (y ~ offset (log (экспозиция)) + x, family = poisson (link = log))
Характеристика распределение Пуассона состоит в том, что его среднее значение равно его дисперсии. При определенных обстоятельствах будет обнаружено, что наблюдаемая дисперсия больше среднего; это известно как чрезмерная дисперсия и указывает на то, что модель не подходит. Распространенной причиной является отсутствие релевантных независимых переменных или зависимых наблюдений. При некоторых обстоятельствах проблема избыточной дисперсии может быть решена путем использования вместо этого оценки квази-правдоподобия или отрицательного биномиального распределения.
Вер Хеф и Бовенг описали разницу между квазипуассоновский (также называемый сверхдисперсией с квазивероятностью) и отрицательный бином (эквивалентный гамма-Пуассону) следующим образом: если E (Y) = μ, квазипуассоновская модель предполагает var (Y) = θμ, а гамма-пуассоновский предполагает var (Y) = μ (1 + κμ), где θ - параметр квазипуассоновской сверхдисперсии, а κ - параметр формы отрицательного биномиального распределения. Для обеих моделей параметры оцениваются с использованием Итеративно пересчитываемых наименьших квадратов. Для квазипуассона веса равны μ / θ. Для отрицательного бинома веса равны μ / (1 + κμ). При большом μ и значительном экстрапуассоновском изменении отрицательные биномиальные веса ограничиваются 1 / κ. Вер Хеф и Бовенг обсудили пример, в котором они выбирали одно из двух, нанося на график среднеквадратичные остатки и среднее значение.
Другая распространенная проблема с регрессией Пуассона - это избыточные нули: если работают два процесса, один определяет, если есть нулевые события или какие-либо события, а процесс Пуассона, определяющий, сколько событий существует, будет больше нулей, чем можно было бы предсказать с помощью регрессии Пуассона. Примером может служить раздача сигарет, выкуриваемых за час, членами группы, некоторые из которых не курят.
Другие обобщенные линейные модели, такие как отрицательная биномиальная модель или модель с нулевым раздутием, могут работать лучше в этих случаях.
регрессия Пуассона создает модели пропорциональных рисков, один класс анализа выживаемости : см. модели пропорциональных рисков для описания моделей Кокса..
При оценке параметров регрессии Пуассона обычно пытаются найти значения для θ, которые максимизируют вероятность выражения формы
где m - количество примеров в наборе данных, а - это функция массы вероятности распределения Пуассона со средним значением, равным . Регуляризация может быть добавлена к этой задаче оптимизации, вместо этого максимизируя
для некоторой положительной константы . Этот метод, аналогичный регрессии гребня, может уменьшить переобучение.