Байесовская линейная регрессия

редактировать

В статистике, Байесовская линейная регрессия - это подход к линейной регрессия, в которой статистический анализ проводится в контексте байесовского вывода. Когда модель регрессии имеет ошибки, которые имеют нормальное распределение, и если предполагается конкретная форма предшествующего распределения, явные результаты доступны для апостериорные вероятностные распределения параметров модели.

Содержание

1 Настройка модели
2 С конъюгированными приорами
- 2.1 Предварительное распределение конъюгата
- 2.2 Апостериорное распределение
- 2.3 Доказательства модели
3 Другие случаи
4 См. Также
5 Примечания
6 Ссылки
7 Внешние ссылки

Настройка модели

Рассмотрим стандартную задачу линейной регрессии, в которой для $i = 1,…, n {\ displaystyle i = 1, \ ldots, n}$ $i = 1, \ ldots, n$ мы указываем среднее значение условного распределения из $yi {\ displaystyle y_ {i}}$ $y_ {i}$ задано $k × 1 {\ displaystyle k \ times 1}$ $k \ times 1$ вектор-предиктор $xi {\ displaystyle \ mathbf {x} _ {i}}$ $\ mathbf {x} _ {i}$ :

yi = xi T β + ε я, {\ displaystyle y_ {i} = \ mathbf {x} _ {i} ^ {\ rm {T}} {\ boldsymbol {\ beta}} + \ varepsilon _ {i},}

{\ displaystyle y_ {i} = \ mathbf {x} _ {i} ^ {\ rm {T}} {\ boldsymbol {\ bet a}} + \ varepsilon _ {i},}

где $β {\ displaystyle {\ boldsymbol {\ beta}}}$ ${ \ boldsymbol {\ beta}}$ - вектор $k × 1 {\ displaystyle k \ times 1}$ $k \ times 1$ , а $ε i {\ displaystyle \ varepsilon _ {i}}$ $\ varepsilon _ {i}$ являются независимыми и одинаково нормально распределенными случайными величинами:

ε i ∼ N (0, σ 2). {\ displaystyle \ varepsilon _ {i} \ sim N (0, \ sigma ^ {2}).}

{\ displaystyle \ varepsilon _ {i} \ sim N (0, \ sigma ^ {2}).}

Это соответствует следующей функции правдоподобия :

ρ (y ∣ X, β, σ 2) ∝ (σ 2) - n / 2 ехр ⁡ (- 1 2 σ 2 (y - X β) T (y - X β)). {\ displaystyle \ rho (\ mathbf {y} \ mid \ mathbf {X}, {\ boldsymbol {\ beta}}, \ sigma ^ {2}) \ propto (\ sigma ^ {2}) ^ {- n / 2} \ exp \ left (- {\ frac {1} {2 \ sigma ^ {2}}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) ^ {\ rm { T}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) \ right).}

{\ displaystyle \ rho (\ mathbf {y } \ mid \ mathbf {X}, {\ boldsymbol {\ beta}}, \ sigma ^ {2}) \ propto (\ sigma ^ {2}) ^ {- n / 2} \ exp \ left (- {\ гидроразрыв {1} {2 \ sigma ^ {2}}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) ^ {\ rm {T}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) \ right).}

Решение обычным методом наименьших квадратов используется для оценки вектора коэффициентов используя псевдообратную матрицу Мура – Пенроуза :

β ^ = (XTX) - 1 XT y {\ displaystyle {\ hat {\ boldsymbol {\ beta}}} = (\ mathbf {X} ^ {\ rm {T }} \ mathbf {X}) ^ {- 1} \ mathbf {X} ^ {\ rm {T}} \ mathbf {y}}

\ hat {\ boldsymbol \ beta} = (\ mathbf {X } ^ {\ rm T} \ mathbf {X}) ^ {- 1} \ mathbf {X} ^ {\ rm T} \ mathbf {y}

где $X {\ displaystyle \ mathbf {X}}$ $\ mathbf {X}$ - это $n × k {\ displaystyle n \ times k}$ $n \ times k$ матрица плана, каждая строка которой является вектором-предиктором $xi T {\ displaystyle \ mathbf {x } _ {i} ^ {\ rm {T}}}$ ${\ displaystyle \ mathbf {x} _ {я} ^ {\ rm {T}}}$ ; и $y {\ displaystyle \ mathbf {y}}$ $\ mathbf {y}$ - столбец $n {\ displaystyle n}$ $n$ -vector $[y 1 ⋯ yn] T {\ displaystyle [y_ {1} \; \ cdots \; y_ {n}] ^ {\ rm {T}}}$ $[y_1 \; \ cdots \; y_n] ^ {\ rm T}$ .

Это частотный подход, и он предполагает, что их достаточно измерения, чтобы сказать что-то значимое о $β {\ displaystyle {\ boldsymbol {\ beta}}}$ ${ \ boldsymbol {\ beta}}$ . В подходе байесовского данные дополняются дополнительной информацией в виде априорного распределения вероятностей. Априорное мнение о параметрах объединяется с функцией правдоподобия данных согласно теореме Байеса, чтобы получить апостериорное убеждение о параметрах $β {\ displaystyle {\ boldsymbol {\ beta }}}$ ${ \ boldsymbol {\ beta}}$ и $σ {\ displaystyle \ sigma}$ $\ sigma$ . Предварительная информация может принимать различные функциональные формы в зависимости от предметной области и информации, доступной априори.

С конъюгированным априорным распределением

Конъюгированное априорное распределение

Для произвольного априорного распределения не может быть аналитического решения для апостериорного распределения. В этом разделе мы рассмотрим так называемый сопряженный априорный, для которого апостериорное распределение может быть получено аналитически.

Предыдущее значение $ρ (β, σ 2) {\ displaystyle \ rho ({\ boldsymbol {\ beta}}, \ sigma ^ {2})}$ $\rho(\boldsymbol\beta,\sigma^{2})$ равно сопрягайте с этой функцией правдоподобия, если она имеет ту же функциональную форму относительно $β {\ displaystyle {\ boldsymbol {\ beta}}}$ ${ \ boldsymbol {\ beta}}$ и $σ {\ displaystyle \ сигма}$ $\ sigma$ . Поскольку логарифм правдоподобия квадратичен в $β {\ displaystyle {\ boldsymbol {\ beta}}}$ ${ \ boldsymbol {\ beta}}$ , логарифм правдоподобия переписывается так, что правдоподобие становится нормальным в $( β - β ^) {\ displaystyle ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}})}$ $(\ boldsymbol \ beta- \ hat {\ boldsymbol \ beta})$ . Напишите

(y - X β) T (y - X β) = (y - X β ^) T (y - X β ^) + (β - β ^) T (XTX) (β - β ^).. {\ displaystyle (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) ^ {\ rm {T}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta) }}) = (\ mathbf {y} - \ mathbf {X} {\ hat {\ boldsymbol {\ beta}}}) ^ {\ rm {T}} (\ mathbf {y} - \ mathbf {X} { \ hat {\ boldsymbol {\ beta}}}) + ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}}) ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X}) ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}}).}

{\ displaystyle (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) ^ {\ rm {T}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) = (\ mathbf {y} - \ mathbf {X} {\ hat {\ boldsymbol {\ beta}}}) ^ {\ rm {T}} (\ mathbf {y} - \ mathbf {X} {\ hat {\ boldsymbol {\ beta}}}) + ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}}) ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf { X}) ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}}).}

Вероятность теперь переписывается как

ρ (y | X, β, σ 2) ∝ (σ 2) - v 2 exp ⁡ (- vs 2 2 σ 2) (σ 2) - n - v 2 exp ⁡ (- 1 2 σ 2 ( β - β ^) T (XTX) (β - β ^)), {\ displaystyle \ rho (\ mathbf {y} | \ mathbf {X}, {\ boldsymbol {\ beta}}, \ sigma ^ {2}) \ propto (\ sigma ^ {2}) ^ {- {\ frac {v} {2}}} \ exp \ left (- {\ frac {vs ^ {2}} {2 {\ sigma} ^ {2 }}} \ right) (\ sigma ^ {2}) ^ {- {\ frac {nv} {2}}} \ exp \ left (- {\ frac {1} {2 {\ sigma} ^ {2} }} ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}}) ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf { X}) ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}}) \ right),}

{\ displaystyle \ rho (\ mathbf {y} | \ mathbf {X}, {\ boldsymbol {\ beta}}, \ sigma ^ {2 }) \ propto (\ sigma ^ {2}) ^ {- {\ frac {v} {2}}} \ exp \ left (- {\ frac {vs ^ {2}} {2 {\ sigma} ^ { 2}}} \ right) (\ sigma ^ {2}) ^ {- {\ frac {nv} {2}}} \ exp \ left (- {\ frac {1} {2 {\ sigma} ^ {2 }}} ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}}) ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X}) ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}}) \ right),}

где

vs 2 = (y - X β ^) T (y - X β ^) и v = n - k, {\ displaystyle vs ^ {2} = (\ mathbf {y} - \ mathbf {X } {\ hat {\ boldsymbol {\ beta}}}) ^ {\ rm {T}} (\ mathbf {y} - \ mathbf {X} {\ hat {\ boldsymbol {\ beta}}}) \ quad { \ text {and}} \ quad v = nk,}

{\ displaystyle vs ^ {2} = (\ mathbf {y} - \ mathbf {X} {\ hat {\ boldsymbol {\ beta}}}) ^ { \ rm {T}} (\ mathbf {y} - \ mathbf {X} {\ hat {\ boldsymbol {\ beta}}}) \ quad {\ text {and}} \ quad v = nk,}

где $k {\ displaystyle k}$ $k$ - количество коэффициентов регрессии.

Это предполагает форму априорной:

ρ (β, σ 2) = ρ (σ 2) ρ (β ∣ σ 2), {\ displaystyle \ rho ({\ boldsymbol {\ beta }}, \ sigma ^ {2}) = \ rho (\ sigma ^ {2}) \ rho ({\ boldsymbol {\ beta}} \ mid \ sigma ^ {2}),}

{\ displaystyle \ rho ({\ boldsymbol {\ beta}}, \ sigma ^ {2}) = \ rho (\ sigma ^ {2}) \ rho ({\ boldsymbol {\ beta}} \ mid \ sigma ^ {2}),}

где $ρ (σ 2) {\ displaystyle \ rho (\ sigma ^ {2})}$ ${\ displaystyle \ rho (\ sigma ^ {2})}$ - это обратное гамма-распределение

ρ (σ 2) ∝ (σ 2) - v 0 2 - 1 ехр ⁡ (- v 0 s 0 2 2 σ 2). {\ displaystyle \ rho (\ sigma ^ {2}) \ propto (\ sigma ^ {2}) ^ {- {\ frac {v_ {0}} {2}} - 1} \ exp \ left (- {\ frac {v_ {0} s_ {0} ^ {2}} {2 \ sigma ^ {2}}} \ right).}

{ \ displaystyle \ rho (\ sigma ^ {2}) \ propto (\ sigma ^ {2}) ^ {- {\ frac {v_ {0}} {2}} - 1} \ exp \ left (- {\ frac {v_ {0} s_ {0} ^ {2}} {2 \ sigma ^ {2}}} \ right).}

В обозначениях, введенных в статье обратное гамма-распределение, это плотность $Inv-Gamma (a 0, b 0) {\ displaystyle {\ text {Inv-Gamma}} (a_ {0}, b_ {0})}$ $\ text { Inv-Gamma} (a_0, b_0)$ распределение с $a 0 = v 0 2 {\ displaystyle a_ {0} = {\ tfrac {v_ {0}} {2}}}$ ${\ displaystyle a_ {0} = {\ tfrac {v_ {0}} {2}}}$ и $b 0 = 1 2 v 0 s 0 2 {\ displaystyle b_ {0} = {\ tfrac {1} {2}} v_ {0} s_ {0} ^ {2}}$ ${\ displaystyle b_ {0} = {\ tfrac {1} {2}} v_ {0} s_ {0} ^ {2}}$ с $v 0 {\ displaystyle v_ {0}}$ $v_ {0}$ и $s 0 2 {\ displaystyle s_ {0} ^ {2}}$ ${\ displaystyle s_ {0} ^ {2}}$ как предыдущие значения $v {\ displaystyle v}$ $v$ и $s 2 {\ displaystyle s ^ {2}}$ $s ^ {2}$ соответственно. Эквивалентно, это также может быть описано как масштабированное обратное распределение хи-квадрат, $Scale-inv- χ 2 (v 0, s 0 2). {\ displaystyle {\ text {Scale-inv -}} \ chi ^ {2} (v_ {0}, s_ {0} ^ {2}).}$ ${\ displaystyle {\ text {Scale-inv -}} \ chi ^ {2} (v_ {0}, s_ {0} ^ {2}).}$

Далее условная априорная плотность $ρ (β | σ 2) {\ displaystyle \ rho ({\ boldsymbol {\ beta}} | \ sigma ^ {2})}$ $\ rho ( \ boldsymbol \ beta | \ sigma ^ {2})$ является нормальным распределением,

ρ (β ∣ σ 2) ∝ (σ 2) - k / 2 exp ⁡ (- 1 2 σ 2 (β - μ 0) T Λ 0 (β - μ 0)). {\ displaystyle \ rho ({\ boldsymbol {\ beta}} \ mid \ sigma ^ {2}) \ propto (\ sigma ^ {2}) ^ {- k / 2} \ exp \ left (- {\ frac { 1} {2 \ sigma ^ {2}}} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {0}) ^ {\ rm {T}} \ mathbf {\ Lambda} _ {0} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {0}) \ right).}

{\ displaystyle \ rho ({\ boldsymbol {\ beta}} \ mid \ sigma ^ {2}) \ propto (\ sigma ^ {2}) ^ {- k / 2} \ exp \ left (- {\ frac {1} {2 \ sigma ^ {2}}} ({\ boldsymbol {\ beta}} - { \ boldsymbol {\ mu}} _ {0}) ^ {\ rm {T}} \ mathbf {\ Lambda} _ {0} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ { 0}) \ right).}

В обозначениях нормального распределения условное априорное распределение равно $N (μ 0, σ 2 Λ 0 - 1). {\ displaystyle {\ mathcal {N}} \ left ({\ boldsymbol {\ mu}} _ {0}, \ sigma ^ {2} \ mathbf {\ Lambda} _ {0} ^ {- 1} \ right).}$ $\ mathcal {N} \ left (\ boldsymbol \ mu_0, \ sigma ^ 2 \ mathbf {\ Lambda} _0 ^ {- 1} \ right).$

Апостериорное распределение

Если задано предыдущее, апостериорное распределение может быть выражено как

ρ (β, σ 2 ∣ y, X) ∝ ρ (y ∣ X, β, σ 2) ρ (β ∣ σ 2) ρ (σ 2) ∝ (σ 2) - n / 2 exp ⁡ (- 1 2 σ 2 (y - X β) T (y - X β)) (σ 2) - к / 2 ехр ⁡ (- 1 2 σ 2 (β - μ 0) T Λ 0 (β - μ 0)) (σ 2) - (a 0 + 1) ехр ⁡ (- b 0 σ 2) {\ Displaystyle {\ begin {align} \ rho ({\ boldsymbol {\ beta}}, \ sigma ^ {2} \ mid \ mathbf {y}, \ mathbf {X}) \ propto \ rho (\ mathbf {y} \ mid \ mathbf {X}, {\ boldsymbol {\ beta}}, \ sigma ^ {2}) \ rho ({\ boldsymbol {\ beta}} \ mid \ sigma ^ {2}) \ rho (\ sigma ^ { 2}) \\ \ propto (\ sigma ^ {2}) ^ {- n / 2} \ exp \ left (- {\ frac {1} {2 {\ sigma} ^ {2}}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) ^ {\ rm {T}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) \ right) (\ sigma ^ {2}) ^ {- k / 2} \ exp \ left (- {\ frac {1} {2 \ sigma ^ {2}}} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu }} _ {0}) ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {0}) \ right) (\ sigma ^ {2}) ^ {- (a_ {0} +1)} \ exp \ left (- {\ frac {b_ {0}} {\ sigma ^ {2}}} \ right) \ end {align}}}

{\ displaystyle {\ begin {align} \ rho ({\ boldsymbol {\ beta}}, \ sigma ^ {2} \ mid \ mathbf {y}, \ mathbf {X}) \ propto \ rho (\ mathbf {y} \ mid \ mathbf {X}, {\ boldsymbol {\ beta} }, \ sigma ^ {2}) \ rho ({\ boldsymbol {\ beta}} \ mid \ sigma ^ {2}) \ rho (\ sigma ^ {2}) \\ \ propto (\ sigma ^ {2 }) ^ {- n / 2} \ exp \ left (- {\ frac {1} {2 {\ sigma} ^ {2}}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) ^ {\ rm {T}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) \ right) (\ sigma ^ {2}) ^ {- k / 2 } \ exp \ left (- {\ frac {1} {2 \ sigma ^ {2}}} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {0}) ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {0}) \ right) (\ sigma ^ {2}) ^ {- (a_ {0} +1)} \ exp \ left (- {\ frac {b_ {0}} {\ sigma ^ {2}}} \ right) \ end {align}}}

После некоторой перестановки апостериор можно переписать так, чтобы апостериорное среднее $μ n {\ displaystyle {\ boldsymbol {\ mu}} _ {n}}$ $\boldsymbol\mu_n$ вектора параметров $β {\ displaystyle {\ boldsymbol {\ beta}}}$ ${ \ boldsymbol {\ beta}}$ может быть выражено в терминах оценщика наименьших квадратов $β ^ {\ displaystyle { \ hat {\ boldsymbol {\ beta}}}}$ $\ hat {\ boldsymbol \ beta}$ и априорное среднее $μ 0 {\ displaystyle {\ boldsymbol {\ mu}} _ {0}}$ ${\ boldsymbol {\ mu}} _ {0}$ , с силой априорной точности, указанной в матрице априорной точности $Λ 0 {\ displaystyle {\ boldsymbol {\ Lambda}} _ {0}}$ $\boldsymbol\Lambda_0$

μ n = (XTX + Λ 0) - 1 (XTX β ^ + Λ 0 μ 0). {\ displaystyle {\ boldsymbol {\ mu}} _ {n} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) ^ {-1} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} {\ hat {\ boldsymbol {\ beta}}} + {\ boldsymbol {\ Lambda}} _ {0} {\ boldsymbol {\ mu}} _ {0}).}

{\ displaystyle {\ boldsymbol {\ mu}} _ {n} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) ^ {- 1} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} {\ шляпа {\ boldsymbol {\ beta}}} + {\ boldsymbol {\ Lambda}} _ {0} {\ boldsymbol {\ mu}} _ {0}).}

Чтобы обосновать, что $μ n {\ displaystyle {\ boldsymbol {\ mu}} _ {n}}$ $\boldsymbol\mu_n$ действительно является апостериорным значит, квадратичные члены в экспоненте могут быть преобразованы в квадратичную форму в $β - μ n {\ displaystyle {\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu} } _ {n}}$ $\ boldsymbol \ beta- \ boldsymbol \ mu_n$ .

(y - X β) T (y - X β) + (β - μ 0) T Λ 0 (β - μ 0) = (β - μ n) T (XTX + Λ 0) (β - μ n) + y T y - μ n T (XTX + Λ 0) μ n + μ 0 T Λ 0 μ 0. {\ displaystyle (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) ^ {\ rm {T}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta) }}) + ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {0}) ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {0}) = ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {n}) ^ {\ rm {T }} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {n}) + \ mathbf {y} ^ {\ rm {T}} \ mathbf {y} - {\ boldsymbol {\ mu}} _ {n} ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) {\ boldsymbol {\ mu}} _ {n} + {\ boldsymbol {\ mu }} _ {0} ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} {\ boldsymbol {\ mu}} _ {0}.}

{\ displaystyle (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) ^ {\ rm {T}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) + ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {0}) ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {0}) = ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {n}) ^ {\ rm {T}} (\ mathbf {X} ^ { \ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {n}) + \ mathbf {y} ^ {\ rm {T}} \ mathbf {y} - {\ boldsymbol {\ mu}} _ {n} ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T }} \ mathbf {X} + {\ bold символ {\ Lambda}} _ {0}) {\ boldsymbol {\ mu}} _ {n} + {\ boldsymbol {\ mu}} _ {0} ^ {\ rm {T}} {\ boldsymbol {\ Lambda }} _ {0} {\ boldsymbol {\ mu}} _ {0}.}

Теперь апостериор можно выразить как нормальное распределение, умноженное на обратное гамма-распределение :

ρ (β, σ 2 ∣ y, X) ∝ (σ 2) - k / 2 exp ⁡ (- 1 2 σ 2 ( β - μ n) T (XTX + Λ 0) (β - μ n)) (σ 2) - n + 2 a 0 2 - 1 exp ⁡ (- 2 b 0 + y T y - μ n T (XTX + Λ 0) μ n + μ 0 T Λ 0 μ 0 2 σ 2). {\ displaystyle \ rho ({\ boldsymbol {\ beta}}, \ sigma ^ {2} \ mid \ mathbf {y}, \ mathbf {X}) \ propto (\ sigma ^ {2}) ^ {- k / 2} \ exp \ left (- {\ frac {1} {2 {\ sigma} ^ {2}}} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {n}) ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + \ mathbf {\ Lambda} _ {0}) ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {n}) \ right) (\ sigma ^ {2}) ^ {- {\ frac {n + 2a_ {0}} {2}} - 1} \ exp \ left (- { \ frac {2b_ {0} + \ mathbf {y} ^ {\ rm {T}} \ mathbf {y} - {\ boldsymbol {\ mu}} _ {n} ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) {\ boldsymbol {\ mu}} _ {n} + {\ boldsymbol {\ mu} } _ {0} ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} {\ boldsymbol {\ mu}} _ {0}} {2 \ sigma ^ {2}}} \ right).}

{\ displaystyle \ rho ({\ boldsymbol {\бета }}, \ sigma ^ {2} \ mid \ mathbf {y}, \ mathbf {X}) \ propto (\ sigma ^ {2}) ^ {- k / 2} \ exp \ left (- {\ frac { 1} {2 {\ sigma} ^ {2}}} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {n}) ^ {\ rm {T}} (\ mathbf {X } ^ {\ rm {T}} \ mathbf {X} + \ mathbf {\ Lambda} _ {0}) ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {n}) \ справа) (\ sigma ^ {2}) ^ {- {\ frac {n + 2a_ {0}} {2}} - 1} \ exp \ left (- {\ frac {2b_ {0} + \ mathbf {y } ^ {\ rm {T}} \ mathbf {y} - {\ boldsymbol {\ mu}} _ {n} ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) {\ boldsymbol {\ mu}} _ {n} + {\ boldsymbol {\ mu}} _ {0} ^ {\ rm {T} } {\ boldsymbol {\ Lambda}} _ {0} {\ boldsymbol {\ mu}} _ {0}} {2 \ sigma ^ {2}}} \ right).}

Следовательно, апостериорное распределение можно параметризовать следующим образом.

ρ (β, σ 2 ∣ Y, X) ∝ ρ (β ∣ σ 2, y, X) ρ (σ 2 ∣ Y, X), {\ displaystyle \ rho ({\ boldsymbol {\ beta}}, \ sigma ^ {2} \ mid \ mathbf {y}, \ mathbf {X}) \ propto \ rho ({\ boldsymbol {\ beta}} \ mid \ sigma ^ {2}, \ mathbf {y}, \ mathbf {X}) \ rho (\ sigma ^ {2} \ mid \ mathbf {y}, \ mathbf {X}),}

{\ displaystyle \ rho ({\ boldsymbol {\ beta}}, \ sigma ^ {2} \ mid \ mathbf {y}, \ mathbf {X}) \ propto \ rho ({\ boldsymbol {\ beta}} \ mid \ sigma ^ {2}, \ mathbf {y}, \ mathbf { X}) \ rho (\ sigma ^ {2} \ mid \ mathbf {y}, \ mathbf {X}),}

где два фактора соответствуют плотности $N (μ n, σ 2 Λ N - 1) {\ Displaystyle {\ mathcal {N}} \ left ({\ boldsymbol {\ mu}} _ {n}, \ sigma ^ {2} {\ boldsymbol {\ Lambda}} _ {n } ^ {- 1} \ right) \,}$ $\ mathcal {N} \ left (\ boldsymbol \ mu_n, \ sigma ^ 2 \ boldsymbol \ Lambda_n ^ {- 1} \ right) \,$ и $Inv-Gamma (an, bn) {\ displaystyle {\ text {Inv-Gamma}} \ left (a_ {n}, b_ {n} \ right)}$ $\ text {Inv-Gamma} \ left (a_n, b_n \ right)$ распределения, параметры которых задаются как

Λ n = (XTX + Λ 0), μ n = (Λ n) - 1 (XTX β ^ + Λ 0 μ 0), {\ displaystyle {\ boldsymbol {\ Lambda}} _ {n} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + \ mathbf {\ Lambda} _ { 0}), \ quad {\ boldsymbol {\ mu}} _ {n} = ({\ boldsymbol {\ Lambda}} _ {n}) ^ {- 1} (\ mathbf {X} ^ {\ rm {T }} \ mathbf {X} {\ hat {\ boldsymbol {\ beta}}} + {\ boldsymbol {\ Lambda}} _ {0} {\ boldsym bol {\ mu}} _ {0}),}

{\ displaystyle {\ boldsymbol {\ Lambda}} _ {n} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X } + \ mathbf {\ Lambda} _ {0}), \ quad {\ boldsymbol {\ mu}} _ {n} = ({\ boldsymbol {\ Lambda}} _ {n}) ^ {- 1} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} {\ hat {\ boldsymbol {\ beta}}} + {\ boldsymbol {\ Lambda}} _ {0} {\ boldsymbol {\ mu}} _ {0}),}

an = a 0 + n 2, bn = b 0 + 1 2 (y T y + μ 0 T Λ 0 μ 0 - μ n T Λ n μ п). {\ displaystyle a_ {n} = a_ {0} + {\ frac {n} {2}}, \ qquad b_ {n} = b_ {0} + {\ frac {1} {2}} (\ mathbf { y} ^ {\ rm {T}} \ mathbf {y} + {\ boldsymbol {\ mu}} _ {0} ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} {\ boldsymbol {\ mu}} _ {0} - {\ boldsymbol {\ mu}} _ {n} ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {n} {\ boldsymbol {\ mu} } _ {n}).}

{\ displaystyle a_ {n} = a_ {0} + {\ frac {n} {2}}, \ qquad b_ {n} = b_ {0} + {\ frac {1} {2}} (\ mathbf {y} ^ {\ rm {T}} \ mathbf {y} + {\ boldsymbol {\ mu}} _ {0} ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} {\ boldsymbol {\ mu}} _ {0} - {\ boldsymbol {\ mu}} _ {n} ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {n} {\ boldsymbol {\ mu}} _ {n}).}

Это можно интерпретировать как байесовское обучение, при котором параметры обновляются в соответствии со следующими уравнениями.

μ N знак равно (XTX + Λ 0) - 1 (Λ 0 μ 0 + XTX β ^), {\ displaystyle {\ boldsymbol {\ mu}} _ {n} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) ^ {- 1} ({\ boldsymbol {\ Lambda}} _ {0} {\ boldsymbol {\ mu}} _ {0} + \ mathbf {X} ^ {\ rm {T}} \ mathbf {X} {\ hat {\ boldsymbol {\ beta}}}),}

{\ displaystyle {\ boldsymbol {\ mu}} _ {n} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) ^ {- 1} ({\ boldsymbol {\ Lambda}} _ { 0} {\ boldsymbol {\ mu}} _ {0} + \ mathbf {X} ^ {\ rm {T}} \ mathbf {X} {\ hat {\ boldsymbol {\ beta}}}),}

Λ n = (XTX + Λ 0), {\ displaystyle {\ boldsymbol {\ Lambda}} _ {n} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}),}

\ boldsymbol \ Lambda_n = (\ mathbf {X} ^ {\ rm T} \ mathbf {X} + \ boldsymbol \ Lambda_0),

an = a 0 + n 2, {\ displaystyle a_ {n} = a_ {0} + {\ frac {n} {2}},}

a_ {n} = a_ {0} + {\ frac {n} {2}},

bn = b 0 + 1 2 (y T y + μ 0 T Λ 0 μ 0 - μ n T Λ n μ n). {\ displaystyle b_ {n} = b_ {0} + {\ frac {1} {2}} (\ mathbf {y} ^ {\ rm {T}} \ mathbf {y} + {\ boldsymbol {\ mu} } _ {0} ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} {\ boldsymbol {\ mu}} _ {0} - {\ boldsymbol {\ mu}} _ {n} ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {n} {\ boldsymbol {\ mu}} _ {n}).}

b_ {n} = b_ {0} + {\ frac {1} {2}} ({\ mathbf {y}} ^ {{{\ rm {T}}}} {\ mathbf {y}} + {\ boldsymbo l \ mu} _ {0} ^ {{{\ rm {T}}}} {\ boldsymbol \ Lambda} _ {0} {\ boldsymbol \ mu} _ {0} - {\ boldsymbol \ mu} _ {n } ^ {{{\ rm {T}}}} {\ boldsymbol \ Lambda} _ {n} {\ boldsymbol \ mu} _ {n}).

Образец свидетельства

свидетельство модели $p (y ∣ m) {\ displaystyle p (\ mathbf {y} \ mid m)}$ ${\ displaystyle p (\ mathbf {y} \ mid m)}$ - вероятность данных для данной модели $m {\ displaystyle m}$ $m$ . Он также известен как предельное правдоподобие и как априорная прогностическая плотность. Здесь модель определяется функцией правдоподобия $p (y ∣ X, β, σ) {\ displaystyle p (\ mathbf {y} \ mid \ mathbf {X}, {\ boldsymbol {\ beta}}, \ sigma)}$ ${\ displaystyle p (\ mathbf {y} \ mid \ mathbf {X}, {\ boldsymbol {\ beta}}, \ sigma)}$ и предварительное распределение по параметрам, то есть $p (β, σ) {\ displaystyle p ({\ boldsymbol {\ beta}}, \ sigma)}$ $p (\ boldsymbol \ beta, \ sigma)$ . Свидетельства модели фиксируют одним числом, насколько хорошо такая модель объясняет наблюдения. Модельное свидетельство модели байесовской линейной регрессии, представленное в этом разделе, можно использовать для сравнения конкурирующих линейных моделей с помощью сравнения байесовских моделей. Эти модели могут различаться по количеству и значениям переменных-предикторов, а также по своим априорным значениям для параметров модели. Сложность модели уже учтена в доказательствах модели, потому что она исключает параметры путем интегрирования $p (y, β, σ ∣ X) {\ displaystyle p (\ mathbf {y}, {\ boldsymbol {\ beta }}, \ sigma \ mid \ mathbf {X})}$ ${\ displaystyle p (\ mathbf {y}, {\ boldsymbol {\ beta}}, \ sigma \ mid \ mathbf {X})}$ по всем возможным значениям $β {\ displaystyle {\ boldsymbol {\ beta}}}$ ${ \ boldsymbol {\ beta}}$ и $σ {\ displaystyle \ sigma}$ $\ sigma$ .

p (y | m) = ∫ p (y ∣ X, β, σ) p (β, σ) d β d σ {\ displaystyle p (\ mathbf {y} | m) = \ int p (\ mathbf {y} \ mid \ mathbf {X}, {\ boldsymbol {\ beta}}, \ sigma) \, p ({\ boldsymbol {\ beta}}, \ sigma) \, d {\ boldsymbol {\ beta}} \, d \ sigma}

{\ displaystyle p (\ mathbf {y} | m) = \ int p (\ mathbf {y} \ mid \ mathbf {X}, {\ boldsymbol {\ beta}}, \ sigma) \, p ({\ boldsymbol {\ beta}}, \ sigma) \, d {\ boldsymbol { \ beta}} \, d \ sigma}

Этот интеграл можно вычислить аналитически, и решение дается в следующем уравнении.

p (y ∣ m) = 1 (2 π) n / 2 det (Λ 0) det (Λ N) ⋅ б 0 a 0 bnan ⋅ Γ (an) Γ (a 0) {\ displaystyle p (\ mathbf {y} \ mid m) = {\ frac {1} { (2 \ pi) ^ {n / 2}}} {\ sqrt {\ frac {\ det ({\ boldsymbol {\ Lambda}} _ {0})} {\ det ({\ boldsymbol {\ Lambda}} _ {n})}}} \ cdot {\ frac {b_ {0} ^ {a_ {0}}} {b_ {n} ^ {a_ {n}}}} \ cdot {\ fr ac {\ Gamma (a_ {n})} {\ Gamma (a_ {0})}}}

{\ displaystyle p ( \ mathbf {y} \ mid m) = {\ frac {1} {(2 \ pi) ^ {n / 2}}} {\ sqrt {\ frac {\ det ({\ boldsymbol {\ Lambda}} _ {0})} {\ det ({\ boldsymbol {\ Lambda}} _ {n})}}} \ cdot {\ frac {b_ {0} ^ {a_ {0}}} {b_ {n} ^ {a_ {n}}}} \ cdot {\ frac {\ Gamma (a_ {n})} {\ Gamma (a_ {0})}}}

Здесь $Γ {\ displaystyle \ Gamma}$ $\ Gamma$ обозначает гамма-функцию. Поскольку мы заранее выбрали сопряжение, маргинальное правдоподобие также можно легко вычислить, оценив следующее равенство для произвольных значений $β {\ displaystyle {\ boldsymbol {\ beta}}}$ ${ \ boldsymbol {\ beta}}$ и $σ {\ Displaystyle \ sigma}$ $\ sigma$ .

п (y ∣ м) = п (β, σ | м) п (y ∣ X, β, σ, м) п (β, σ ∣ y, X, м) {\ displaystyle p (\ mathbf {y} \ mid m) = {\ frac {p ({\ boldsymbol {\ beta}}, \ sigma | m) \, p (\ mathbf {y} \ mid \ mathbf {X }, {\ boldsymbol {\ beta}}, \ sigma, m)} {p ({\ boldsymbol {\ beta}}, \ sigma \ mid \ mathbf {y}, \ mathbf {X}, m)}}}

{\ displaystyle p (\ mathbf {y} \ mid m) = {\ frac {p ({\ boldsymbol {\ beta}}, \ sigma | m) \, p (\ mathbf {y} \ mid \ mathbf {X}, {\ boldsymbol {\ beta}}, \ sigma, m)} {p ({\ boldsymbol {\ beta}}, \ sigma \ mid \ mathbf {y}, \ mathbf {X}, m)}}}

Обратите внимание, что это уравнение является не чем иным, как перестановкой теоремы Байеса. Вставка формул для априорного, вероятностного и апостериорного значений и упрощение результирующего выражения приводит к аналитическому выражению, приведенному выше.

Другие случаи

В целом, аналитическое получение апостериорного распределения может оказаться невозможным или непрактичным. Однако можно аппроксимировать апостериор с помощью метода приближенного байесовского вывода, такого как выборка Монте-Карло или вариационная байесовская.

Особый случай $μ 0 = 0, Λ 0 знак равно c I {\ displaystyle {\ boldsymbol {\ mu}} _ {0} = 0, \ mathbf {\ Lambda} _ {0} = c \ mathbf {I}}$ $\ boldsymbol \ mu_0 = 0, \ mathbf {\ Lambda} _0 = c \ mathbf {I}$ называется гребневой регрессией.

Аналогичный анализ может быть выполнен для общего случая многомерной регрессии, и частично он обеспечивает байесовскую оценку ковариационных матриц : см. Байесовская многомерная линейная регрессия.

См. Также

Примечания

^Промежуточные этапы этого вычисления можно найти у О'Хагана (1994) в начале главы о линейных моделях.
^Промежуточные этапы описаны у Fahrmeir et al. (2009) на странице 188.
^Промежуточные этапы этого вычисления можно найти у О'Хагана (1994) на странице 257.
^Карлин и Луис (2008) и Гельман и др. (2003) объясняют, как использовать методы выборки для байесовской линейной регрессии.

Ссылки

Box, G. E. P. ; Тяо, Г. К. (1973). Байесовский вывод в статистическом анализе. Вайли. ISBN 0-471-57428-7.
Carlin, Bradley P.; Луи, Томас А. (2008). Байесовские методы анализа данных, третье издание. Бока-Ратон, Флорида: Чепмен и Холл / CRC. ISBN 1-58488-697-8.
Fahrmeir, L.; Кнейб, Т.; Ланг, С. (2009). Регресс. Modelle, Methoden und Anwendungen (второе изд.). Гейдельберг: Springer. DOI : 10.1007 / 978-3-642-01837-4. ISBN 978-3-642-01836-7.
Форнальски К.В.; Парзыч Г.; Пылак М.; Satuła D.; Добжиньски Л. (2010). «Применение байесовских рассуждений и метода максимальной энтропии к некоторым задачам реконструкции». Acta Physica Polonica A. 117 (6): 892–899. doi : 10.12693 / APhysPolA.117.892.
Форнальски, Кшиштоф В. (2015). «Приложения робастного байесовского регрессионного анализа». Международный журнал науки о системах общества. 7 (4): 314–333. doi : 10.1504 / IJSSS.2015.073223.
Гельман, Эндрю ; Карлин, Джон Б.; Стерн, Хэл С.; Рубин, Дональд Б. (2003). Байесовский анализ данных, второе издание. Бока-Ратон, Флорида: Чепмен и Холл / CRC. ISBN 1-58488-388-X.
Гольдштейн, Майкл; Wooff, Дэвид (2007). Линейная статистика, теория и методы Байеса. Вайли. ISBN 978-0-470-01562-9.
Минка, Томас П. (2001) Байесовская линейная регрессия, веб-страница исследований Microsoft
Росси, Питер E.; Алленби, Грег М.; Маккалок, Роберт (2006). Байесовская статистика и маркетинг. Джон Вили и сыновья. ISBN 0470863676.
О'Хаган, Энтони (1994). Байесовский вывод. Продвинутая теория статистики Кендалла. 2B (Первое изд.). Холстед. ISBN 0-340-52922-9.
Sivia, D.S.; Скиллинг, Дж. (2006). Анализ данных - байесовский учебник (второе изд.). Oxford University Press.
Уолтер, Геро; Августин, Томас (2009). «Байесовская линейная регрессия - различные сопряженные модели и их (не) чувствительность к конфликту предшествующих данных» (PDF). Технический отчет № 069, Статистический факультет Мюнхенского университета.

Внешние ссылки

Байесовское оценивание линейных моделей (вики-книга по программированию R). Байесовская линейная регрессия, реализованная в R.