регрессия Пуассона

редактировать

В статистике регрессия Пуассона представляет собой обобщенную линейную модель форма регрессионного анализа, используемая для моделирования данных подсчета и таблиц непредвиденных обстоятельств. Регрессия Пуассона предполагает, что переменная ответа Y имеет распределение Пуассона, и предполагает, что логарифм его ожидаемого значения может быть смоделирован линейной комбинацией неизвестных параметры. Модель регрессии Пуассона иногда известна как лог-линейная модель, особенно когда используется для моделирования таблиц непредвиденных обстоятельств.

Отрицательная биномиальная регрессия является популярным обобщением регрессии Пуассона, поскольку она ослабляет строго ограничительное предположение о том, что дисперсия равна среднему значению, сделанному моделью Пуассона. Традиционная модель отрицательной биномиальной регрессии, широко известная как NB2, основана на распределении смеси Пуассона и гамма-излучения. Эта модель популярна, потому что она моделирует неоднородность Пуассона с помощью гамма-распределения.

Модели регрессии Пуассона - это обобщенные линейные модели с логарифмом в качестве (канонической) функции связи и функцией распределения Пуассона в качестве предполагаемой распределение вероятностей ответа.

Содержание

1 Модели регрессии
2 Оценка параметров на основе максимального правдоподобия
3 Регрессия Пуассона на практике
- 3.1 «Воздействие» и смещение
- 3.2 Избыточная дисперсия и нулевая инфляция
- 3.3 Использование в анализе выживаемости
4 Расширения
- 4.1 Регуляризованная регрессия Пуассона
5 См. также
6 Ссылки
7 Дополнительная литература

Модели регрессии

Если $x ∈ R n {\ displaystyle \ mathbf {x} \ in \ mathbb {R} ^ {n}}$ $\ mathbf {x} \ in \ mathbb {R} ^ {n}$ - вектор независимых переменных, тогда модель принимает форму

log ⁡ (Е ⁡ (Y ∣ Икс)) знак равно α + β 'Икс, {\ Displaystyle \ журнал (\ OperatorName {E} (Y \ mid \ mathbf {x})) = \ альфа + \ mathbf {\ beta}' \ mathbf {x},}

\log(\operatorname {E} (Y\mid \mathbf {x}))=\alpha +\mathbf {\beta } '\mathbf {x},

где $α ∈ R {\ displaystyle \ alpha \ in \ mathbb {R}}$ $\ альфа \ in \ mathbb {R}$ и $β ∈ R n {\ displaystyle \ mathbf { \ beta} \ in \ mathbb {R} ^ {n}}$ $\ mathbf {\ beta} \ in \ mathbb {R} ^ {n}$ . Иногда это записывается более компактно как

журнал ⁡ (E ⁡ (Y ∣ x)) = θ ′ x, {\ displaystyle \ log (\ operatorname {E} (Y \ mid \ mathbf {x})) = { \ boldsymbol {\ theta}} '\ mathbf {x}, \,}

\log(\operatorname {E} (Y\mid \mathbf {x}))={\boldsymbol {\theta }}'\mathbf {x},\,

где x теперь является (n + 1) -мерным вектором, состоящим из n независимых переменных, связанных с номером один. Здесь θ просто α, объединенный с β.

Таким образом, при заданной модели регрессии Пуассона θ и входном векторе x прогнозируемое среднее значение ассоциированного Пуассона распределение задается как

E ⁡ (Y ∣ x) = e θ ′ x. {\ displaystyle \ operatorname {E} (Y \ mid \ mathbf {x}) = e ^ {{\ boldsymbol {\ theta}} '\ mathbf {x}}. \,}

\operatorname {E} (Y\mid \mathbf {x})=e^{{\boldsymbol {\theta }}'\mathbf {x} }.\,

Если Y i являются независимыми наблюдениями с соответствующими значениями xiпеременных-предикторов, тогда θ можно оценить с помощью максимального правдоподобия. В оценках максимального правдоподобия отсутствует выражение в закрытой форме, и они должны быть найдены численными методами. Поверхность вероятности для регрессии Пуассона максимального правдоподобия всегда вогнута, что делает методы оценки Ньютона – Рафсона или другие методы на основе градиента подходящими.

Оценка параметров на основе максимального правдоподобия

Для данного набора параметров θ и входного вектора x дается среднее значение предсказанного распределения Пуассона, как указано выше. по

λ: знак равно E ⁡ (Y ∣ x) = e θ ′ x, {\ displaystyle \ lambda: = \ operatorname {E} (Y \ mid x) = e ^ {\ theta 'x}, \, }

\lambda :=\operatorname {E} (Y\mid x)=e^{\theta 'x},\,

и, таким образом, функция массы вероятности распределения Пуассона задается как

p (y ∣ x; θ) = λ yy! е - λ знак равно е y θ ′ х е - е θ ′ x y! {\ displaystyle p (y \ mid x; \ theta) = {\ frac {\ lambda ^ {y}} {y!}} e ^ {- \ lambda} = {\ frac {e ^ {y \ theta 'x } e ^ {- e ^ {\ theta 'x}}} {y!}}}

p(y\mid x;\theta)={\frac {\lambda ^{y}}{y!}}e^{-\lambda }={\frac {e^{y\theta 'x}e^{-e^{\theta 'x}}}{y!}}

Теперь предположим, что нам дан набор данных, состоящий из m векторов $xi ∈ R n + 1, i = 1, …, M {\ displaystyle x_ {i} \ in \ mathbb {R} ^ {n + 1}, \, i = 1, \ ldots, m}$ $x_ {i} \ in \ mathbb {R} ^ {n + 1}, \, i = 1, \ ldots, m$ , а также набор из m значений $y 1,…, ym ∈ N {\ displaystyle y_ {1}, \ ldots, y_ {m} \ in \ mathbb {N}}$ ${\ displaystyle y_ {1}, \ ldots, y_ {m} \ in \ mathbb {N}}$ . Тогда для данного набора параметров θ вероятность получения этого конкретного набора данных определяется выражением

p (y 1,…, ym ∣ x 1,…, xm; θ) = ∏ i = 1 meyi θ ′ Xie - e θ ′ xiyi!. {\ displaystyle p (y_ {1}, \ ldots, y_ {m} \ mid x_ {1}, \ ldots, x_ {m}; \ theta) = \ prod _ {i = 1} ^ {m} {\ frac {e ^ {y_ {i} \ theta 'x_ {i}} e ^ {- e ^ {\ theta' x_ {i}}}} {y_ {i}!}}.}

p(y_{1},\ldots,y_{m}\mid x_{1},\ldots,x_{m};\theta)=\prod _{i=1}^{m}{\frac {e^{y_{i}\theta 'x_{i}}e^{-e^{\theta 'x_{i}}}}{y_{i}!}}.

По методу максимального правдоподобия, мы хотим найти набор параметров θ, который делает эту вероятность как можно большей. Для этого уравнение сначала переписывается как функция правдоподобия в терминах θ:

L (θ ∣ X, Y) = ∏ i = 1 m e y i θ ′ x i e - e θ ′ x i y i!. {\ displaystyle L (\ theta \ mid X, Y) = \ prod _ {i = 1} ^ {m} {\ frac {e ^ {y_ {i} \ theta 'x_ {i}} e ^ {- e ^ {\ theta 'x_ {i}}}} {y_ {i}!}}.}

L(\theta \mid X,Y)=\prod _{i=1}^{m}{\frac {e^{y_{i}\theta 'x_{i}}e^{-e^{\theta 'x_{i}}}}{y_{i}!}}.

Обратите внимание, что выражение в правой части фактически не изменилось. С формулой в такой форме обычно сложно работать; вместо этого используется логарифм правдоподобия:

ℓ (θ ∣ X, Y) = log ⁡ L (θ ∣ X, Y) = ∑ i = 1 m (yi θ ′ xi - e θ ′ xi - log ⁡ (уй!)). {\ displaystyle \ ell (\ theta \ mid X, Y) = \ log L (\ theta \ mid X, Y) = \ sum _ {i = 1} ^ {m} \ left (y_ {i} \ theta ' x_ {i} -e ^ {\ theta 'x_ {i}} - \ log (y_ {i}!) \ right).}

\ell (\theta \mid X,Y)=\log L(\theta \mid X,Y)=\sum _{i=1}^{m}\left(y_{i}\theta 'x_{i}-e^{\theta 'x_{i}}-\log(y_{i}!)\right).

Обратите внимание, что параметры θ появляются только в первых двух членах каждого члена в суммирование. Поэтому, учитывая, что нас интересует только поиск наилучшего значения для θ, мы можем отбросить y i ! и просто напишите

ℓ (θ ∣ X, Y) = ∑ i = 1 m (y i θ ′ x i - e θ ′ x i). {\ displaystyle \ ell (\ theta \ mid X, Y) = \ sum _ {i = 1} ^ {m} \ left (y_ {i} \ theta 'x_ {i} -e ^ {\ theta' x_ { i}} \ right).}

\ell (\theta \mid X,Y)=\sum _{i=1}^{m}\left(y_{i}\theta 'x_{i}-e^{\theta 'x_{i}}\right).

Чтобы найти максимум, нам нужно решить уравнение $∂ ℓ (θ ∣ X, Y) ∂ θ = 0 {\ displaystyle {\ frac {\ partial \ ell ( \ theta \ mid X, Y)} {\ partial \ theta}} = 0}$ ${\ frac {\ partial \ ell (\ theta \ mid X, Y)} {\ partial \ theta}} = 0$ , который не имеет решения в закрытой форме. Однако отрицательная логарифм правдоподобия, $- ℓ (θ ∣ X, Y) {\ displaystyle - \ ell (\ theta \ mid X, Y)}$ $- \ ell (\ theta \ mid X, Y)$ , является выпуклой функцией, и поэтому стандартные методы выпуклой оптимизации, такие как градиентный спуск, могут применяться для поиска оптимального значения θ.

Пуассоновская регрессия на практике

Пуассоновская регрессия может быть подходящей, когда зависимая переменная является счетчиком, например, событий, таких как поступление телефонного звонка на звонок центр. События должны быть независимыми в том смысле, что поступление одного вызова не сделает другой более или менее вероятным, но считается, что вероятность в единицу времени событий связана с ковариатами, такими как время суток.

«Воздействие» и смещение

регрессия Пуассона также может быть подходящей для данных скорости, где частота - это количество событий, деленное на некоторую меру воздействия на эту единицу (конкретная единица наблюдения).. Например, биологи могут подсчитать количество видов деревьев в лесу: событиями будут наблюдения за деревьями, экспозиция - единицей площади, а норма - количеством видов на единицу площади. Демографы могут моделировать показатели смертности в географических регионах как количество смертей, разделенное на человеко-годы. В более общем смысле, частота событий может быть рассчитана как количество событий в единицу времени, что позволяет изменять окно наблюдения для каждой единицы. В этих примерах экспозиция представляет собой соответственно единицу площади, человеко-годы и единицу времени. В регрессии Пуассона это обрабатывается как смещение, где переменная экспозиции входит в правую часть уравнения, но с оценкой параметра (для журнала (экспозиция)), ограниченной до 1.

журнал ⁡ (E ⁡ (Y ∣ x)) = журнал ⁡ (экспозиция) + θ ′ x {\ displaystyle \ log (\ operatorname {E} (Y \ mid x)) = \ log ({\ text {экспозиция}}) + \ theta 'x}

\log(\operatorname {E} (Y\mid x))=\log({\text{exposure}})+\theta 'x

что означает

log ⁡ (E ⁡ (Y ∣ x)) - log ⁡ (экспозиция) = log ⁡ (E ⁡ (Y ∣ x) экспозиция) = θ ′ x { \ displaystyle \ log (\ operatorname {E} (Y \ mid x)) - \ log ({\ text {экспозиция}}) = \ log \ left ({\ frac {\ operatorname {E} (Y \ mid x) } {\ text {экспозиция}}} \ right) = \ theta 'x}

\log(\operatorname {E} (Y\mid x))-\log({\text{exposure}})=\log \left({\frac {\operatorname {E} (Y\mid x)}{\text{exposure}}}\right)=\theta 'x

Смещение в случае GLM в R может быть достигнуто с помощью offset ()функция:

glm (y ~ offset (log (экспозиция)) + x, family = poisson (link = log))

Избыточное диспергирование и нулевая инфляция

Характеристика распределение Пуассона состоит в том, что его среднее значение равно его дисперсии. При определенных обстоятельствах будет обнаружено, что наблюдаемая дисперсия больше среднего; это известно как чрезмерная дисперсия и указывает на то, что модель не подходит. Распространенной причиной является отсутствие релевантных независимых переменных или зависимых наблюдений. При некоторых обстоятельствах проблема избыточной дисперсии может быть решена путем использования вместо этого оценки квази-правдоподобия или отрицательного биномиального распределения.

Вер Хеф и Бовенг описали разницу между квазипуассоновский (также называемый сверхдисперсией с квазивероятностью) и отрицательный бином (эквивалентный гамма-Пуассону) следующим образом: если E (Y) = μ, квазипуассоновская модель предполагает var (Y) = θμ, а гамма-пуассоновский предполагает var (Y) = μ (1 + κμ), где θ - параметр квазипуассоновской сверхдисперсии, а κ - параметр формы отрицательного биномиального распределения. Для обеих моделей параметры оцениваются с использованием Итеративно пересчитываемых наименьших квадратов. Для квазипуассона веса равны μ / θ. Для отрицательного бинома веса равны μ / (1 + κμ). При большом μ и значительном экстрапуассоновском изменении отрицательные биномиальные веса ограничиваются 1 / κ. Вер Хеф и Бовенг обсудили пример, в котором они выбирали одно из двух, нанося на график среднеквадратичные остатки и среднее значение.

Другая распространенная проблема с регрессией Пуассона - это избыточные нули: если работают два процесса, один определяет, если есть нулевые события или какие-либо события, а процесс Пуассона, определяющий, сколько событий существует, будет больше нулей, чем можно было бы предсказать с помощью регрессии Пуассона. Примером может служить раздача сигарет, выкуриваемых за час, членами группы, некоторые из которых не курят.

Другие обобщенные линейные модели, такие как отрицательная биномиальная модель или модель с нулевым раздутием, могут работать лучше в этих случаях.

Использование в анализе выживаемости

регрессия Пуассона создает модели пропорциональных рисков, один класс анализа выживаемости : см. модели пропорциональных рисков для описания моделей Кокса..

Расширения

Регуляризованная регрессия Пуассона

При оценке параметров регрессии Пуассона обычно пытаются найти значения для θ, которые максимизируют вероятность выражения формы

∑ я знак равно 1 м журнал ⁡ (п (yi; е θ ′ xi)), {\ displaystyle \ sum _ {i = 1} ^ {m} \ log (p (y_ {i}; e ^ {\ theta 'x_ {i}})),}

\sum _{i=1}^{m}\log(p(y_{i};e^{\theta 'x_{i}})),

где m - количество примеров в наборе данных, а $p (yi; e θ ′ xi) {\ displaystyle p (y_ {i}; e ^ {\ theta 'x_ {i}})}$ $p(y_{i};e^{\theta 'x_{i}})$ - это функция массы вероятности распределения Пуассона со средним значением, равным $e θ ′ xi {\ Displaystyle е ^ {\ theta 'x_ {i}}}$ $e^{\theta 'x_{i}}$ . Регуляризация может быть добавлена к этой задаче оптимизации, вместо этого максимизируя

∑ i = 1 m log ⁡ (p (yi; e θ ′ xi)) - λ ‖ θ ‖ 2 2, {\ displaystyle \ sum _ {i = 1 } ^ {m} \ log (p (y_ {i}; e ^ {\ theta 'x_ {i}})) - \ lambda \ left \ | \ theta \ right \ | _ {2} ^ {2}, }

\sum _{i=1}^{m}\log(p(y_{i};e^{\theta 'x_{i}}))-\lambda \left\|\theta \right\|_{2}^{2},

для некоторой положительной константы $λ {\ displaystyle \ lambda}$ $\ lambda$ . Этот метод, аналогичный регрессии гребня, может уменьшить переобучение.

См. Также

Ссылки

Дополнительная литература

Cameron, AC; Триведи, П. К. (1998). Регрессионный анализ данных подсчета. Издательство Кембриджского университета. ISBN 978-0-521-63201-0.
Кристенсен, Рональд (1997). Логлинейные модели и логистическая регрессия. Тексты Springer в статистике (второе изд.). Нью-Йорк: Springer-Verlag. ISBN 978-0-387-98247-2. MR 1633357.
Гуриеру, Кристиан (2000). «Эконометрика дискретных положительных переменных: модель Пуассона». Эконометрика качественных зависимых переменных. Нью-Йорк: Издательство Кембриджского университета. С. 270–83. ISBN 978-0-521-58985-7.
Грин, Уильям Х. (2008). «Модели для подсчета и продолжительности событий». Эконометрический анализ (8-е изд.). Река Верхнее Седл: Prentice Hall. Стр. 906 –944. ISBN 978-0-13-600383-0.
Хильбе, Дж. М. (2007). Отрицательная биномиальная регрессия. Издательство Кембриджского университета. ISBN 978-0-521-85772-7.
Джонс, Эндрю М.; и другие. (2013). «Модели для подсчета данных». Прикладная экономика здравоохранения. Лондон: Рутледж. С. 295–341. ISBN 978-0-415-67682-3.