Байесовская линейная регрессия

редактировать

В статистике, Байесовская линейная регрессия - это подход к линейной регрессия, в которой статистический анализ проводится в контексте байесовского вывода. Когда модель регрессии имеет ошибки, которые имеют нормальное распределение, и если предполагается конкретная форма предшествующего распределения, явные результаты доступны для апостериорные вероятностные распределения параметров модели.

Содержание

  • 1 Настройка модели
  • 2 С конъюгированными приорами
    • 2.1 Предварительное распределение конъюгата
    • 2.2 Апостериорное распределение
    • 2.3 Доказательства модели
  • 3 Другие случаи
  • 4 См. Также
  • 5 Примечания
  • 6 Ссылки
  • 7 Внешние ссылки

Настройка модели

Рассмотрим стандартную задачу линейной регрессии, в которой для i = 1,…, n {\ displaystyle i = 1, \ ldots, n}i = 1, \ ldots, n мы указываем среднее значение условного распределения из yi {\ displaystyle y_ {i}}y_ {i} задано k × 1 {\ displaystyle k \ times 1}k \ times 1 вектор-предиктор xi {\ displaystyle \ mathbf {x} _ {i}}\ mathbf {x} _ {i} :

yi = xi T β + ε я, {\ displaystyle y_ {i} = \ mathbf {x} _ {i} ^ {\ rm {T}} {\ boldsymbol {\ beta}} + \ varepsilon _ {i},}{\ displaystyle y_ {i} = \ mathbf {x} _ {i} ^ {\ rm {T}} {\ boldsymbol {\ bet a}} + \ varepsilon _ {i},}

где β {\ displaystyle {\ boldsymbol {\ beta}}}{ \ boldsymbol {\ beta}} - вектор k × 1 {\ displaystyle k \ times 1}k \ times 1 , а ε i {\ displaystyle \ varepsilon _ {i}}\ varepsilon _ {i} являются независимыми и одинаково нормально распределенными случайными величинами:

ε i ∼ N (0, σ 2). {\ displaystyle \ varepsilon _ {i} \ sim N (0, \ sigma ^ {2}).}{\ displaystyle \ varepsilon _ {i} \ sim N (0, \ sigma ^ {2}).}

Это соответствует следующей функции правдоподобия :

ρ (y ∣ X, β, σ 2) ∝ (σ 2) - n / 2 ехр ⁡ (- 1 2 σ 2 (y - X β) T (y - X β)). {\ displaystyle \ rho (\ mathbf {y} \ mid \ mathbf {X}, {\ boldsymbol {\ beta}}, \ sigma ^ {2}) \ propto (\ sigma ^ {2}) ^ {- n / 2} \ exp \ left (- {\ frac {1} {2 \ sigma ^ {2}}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) ^ {\ rm { T}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) \ right).}{\ displaystyle \ rho (\ mathbf {y } \ mid \ mathbf {X}, {\ boldsymbol {\ beta}}, \ sigma ^ {2}) \ propto (\ sigma ^ {2}) ^ {- n / 2} \ exp \ left (- {\ гидроразрыв {1} {2 \ sigma ^ {2}}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) ^ {\ rm {T}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) \ right).}

Решение обычным методом наименьших квадратов используется для оценки вектора коэффициентов используя псевдообратную матрицу Мура – ​​Пенроуза :

β ^ = (XTX) - 1 XT y {\ displaystyle {\ hat {\ boldsymbol {\ beta}}} = (\ mathbf {X} ^ {\ rm {T }} \ mathbf {X}) ^ {- 1} \ mathbf {X} ^ {\ rm {T}} \ mathbf {y}}\ hat {\ boldsymbol \ beta} = (\ mathbf {X } ^ {\ rm T} \ mathbf {X}) ^ {- 1} \ mathbf {X} ^ {\ rm T} \ mathbf {y}

где X {\ displaystyle \ mathbf {X}}\ mathbf {X} - это n × k {\ displaystyle n \ times k}n \ times k матрица плана, каждая строка которой является вектором-предиктором xi T {\ displaystyle \ mathbf {x } _ {i} ^ {\ rm {T}}}{\ displaystyle \ mathbf {x} _ {я} ^ {\ rm {T}}} ; и y {\ displaystyle \ mathbf {y}}\ mathbf {y} - столбец n {\ displaystyle n}n -vector [y 1 ⋯ yn] T {\ displaystyle [y_ {1} \; \ cdots \; y_ {n}] ^ {\ rm {T}}}[y_1 \; \ cdots \; y_n] ^ {\ rm T} .

Это частотный подход, и он предполагает, что их достаточно измерения, чтобы сказать что-то значимое о β {\ displaystyle {\ boldsymbol {\ beta}}}{ \ boldsymbol {\ beta}} . В подходе байесовского данные дополняются дополнительной информацией в виде априорного распределения вероятностей. Априорное мнение о параметрах объединяется с функцией правдоподобия данных согласно теореме Байеса, чтобы получить апостериорное убеждение о параметрах β {\ displaystyle {\ boldsymbol {\ beta }}}{ \ boldsymbol {\ beta}} и σ {\ displaystyle \ sigma}\ sigma . Предварительная информация может принимать различные функциональные формы в зависимости от предметной области и информации, доступной априори.

С конъюгированным априорным распределением

Конъюгированное априорное распределение

Для произвольного априорного распределения не может быть аналитического решения для апостериорного распределения. В этом разделе мы рассмотрим так называемый сопряженный априорный, для которого апостериорное распределение может быть получено аналитически.

Предыдущее значение ρ (β, σ 2) {\ displaystyle \ rho ({\ boldsymbol {\ beta}}, \ sigma ^ {2})}\rho(\boldsymbol\beta,\sigma^{2})равно сопрягайте с этой функцией правдоподобия, если она имеет ту же функциональную форму относительно β {\ displaystyle {\ boldsymbol {\ beta}}}{ \ boldsymbol {\ beta}} и σ {\ displaystyle \ сигма}\ sigma . Поскольку логарифм правдоподобия квадратичен в β {\ displaystyle {\ boldsymbol {\ beta}}}{ \ boldsymbol {\ beta}} , логарифм правдоподобия переписывается так, что правдоподобие становится нормальным в ( β - β ^) {\ displaystyle ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}})}(\ boldsymbol \ beta- \ hat {\ boldsymbol \ beta}) . Напишите

(y - X β) T (y - X β) = (y - X β ^) T (y - X β ^) + (β - β ^) T (XTX) (β - β ^).. {\ displaystyle (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) ^ {\ rm {T}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta) }}) = (\ mathbf {y} - \ mathbf {X} {\ hat {\ boldsymbol {\ beta}}}) ^ {\ rm {T}} (\ mathbf {y} - \ mathbf {X} { \ hat {\ boldsymbol {\ beta}}}) + ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}}) ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X}) ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}}).}{\ displaystyle (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) ^ {\ rm {T}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) = (\ mathbf {y} - \ mathbf {X} {\ hat {\ boldsymbol {\ beta}}}) ^ {\ rm {T}} (\ mathbf {y} - \ mathbf {X} {\ hat {\ boldsymbol {\ beta}}}) + ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}}) ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf { X}) ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}}).}

Вероятность теперь переписывается как

ρ (y | X, β, σ 2) ∝ (σ 2) - v 2 exp ⁡ (- vs 2 2 σ 2) (σ 2) - n - v 2 exp ⁡ (- 1 2 σ 2 ( β - β ^) T (XTX) (β - β ^)), {\ displaystyle \ rho (\ mathbf {y} | \ mathbf {X}, {\ boldsymbol {\ beta}}, \ sigma ^ {2}) \ propto (\ sigma ^ {2}) ^ {- {\ frac {v} {2}}} \ exp \ left (- {\ frac {vs ^ {2}} {2 {\ sigma} ^ {2 }}} \ right) (\ sigma ^ {2}) ^ {- {\ frac {nv} {2}}} \ exp \ left (- {\ frac {1} {2 {\ sigma} ^ {2} }} ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}}) ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf { X}) ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}}) \ right),}{\ displaystyle \ rho (\ mathbf {y} | \ mathbf {X}, {\ boldsymbol {\ beta}}, \ sigma ^ {2 }) \ propto (\ sigma ^ {2}) ^ {- {\ frac {v} {2}}} \ exp \ left (- {\ frac {vs ^ {2}} {2 {\ sigma} ^ { 2}}} \ right) (\ sigma ^ {2}) ^ {- {\ frac {nv} {2}}} \ exp \ left (- {\ frac {1} {2 {\ sigma} ^ {2 }}} ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}}) ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X}) ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}}) \ right),}

где

vs 2 = (y - X β ^) T (y - X β ^) и v = n - k, {\ displaystyle vs ^ {2} = (\ mathbf {y} - \ mathbf {X } {\ hat {\ boldsymbol {\ beta}}}) ^ {\ rm {T}} (\ mathbf {y} - \ mathbf {X} {\ hat {\ boldsymbol {\ beta}}}) \ quad { \ text {and}} \ quad v = nk,}{\ displaystyle vs ^ {2} = (\ mathbf {y} - \ mathbf {X} {\ hat {\ boldsymbol {\ beta}}}) ^ { \ rm {T}} (\ mathbf {y} - \ mathbf {X} {\ hat {\ boldsymbol {\ beta}}}) \ quad {\ text {and}} \ quad v = nk,}

где k {\ displaystyle k}k - количество коэффициентов регрессии.

Это предполагает форму априорной:

ρ (β, σ 2) = ρ (σ 2) ρ (β ∣ σ 2), {\ displaystyle \ rho ({\ boldsymbol {\ beta }}, \ sigma ^ {2}) = \ rho (\ sigma ^ {2}) \ rho ({\ boldsymbol {\ beta}} \ mid \ sigma ^ {2}),}{\ displaystyle \ rho ({\ boldsymbol {\ beta}}, \ sigma ^ {2}) = \ rho (\ sigma ^ {2}) \ rho ({\ boldsymbol {\ beta}} \ mid \ sigma ^ {2}),}

где ρ (σ 2) {\ displaystyle \ rho (\ sigma ^ {2})}{\ displaystyle \ rho (\ sigma ^ {2})} - это обратное гамма-распределение

ρ (σ 2) ∝ (σ 2) - v 0 2 - 1 ехр ⁡ (- v 0 s 0 2 2 σ 2). {\ displaystyle \ rho (\ sigma ^ {2}) \ propto (\ sigma ^ {2}) ^ {- {\ frac {v_ {0}} {2}} - 1} \ exp \ left (- {\ frac {v_ {0} s_ {0} ^ {2}} {2 \ sigma ^ {2}}} \ right).}{ \ displaystyle \ rho (\ sigma ^ {2}) \ propto (\ sigma ^ {2}) ^ {- {\ frac {v_ {0}} {2}} - 1} \ exp \ left (- {\ frac {v_ {0} s_ {0} ^ {2}} {2 \ sigma ^ {2}}} \ right).}

В обозначениях, введенных в статье обратное гамма-распределение, это плотность Inv-Gamma (a 0, b 0) {\ displaystyle {\ text {Inv-Gamma}} (a_ {0}, b_ {0})}\ text { Inv-Gamma} (a_0, b_0) распределение с a 0 = v 0 2 {\ displaystyle a_ {0} = {\ tfrac {v_ {0}} {2}}}{\ displaystyle a_ {0} = {\ tfrac {v_ {0}} {2}}} и b 0 = 1 2 v 0 s 0 2 {\ displaystyle b_ {0} = {\ tfrac {1} {2}} v_ {0} s_ {0} ^ {2}}{\ displaystyle b_ {0} = {\ tfrac {1} {2}} v_ {0} s_ {0} ^ {2}} с v 0 {\ displaystyle v_ {0}}v_ {0} и s 0 2 {\ displaystyle s_ {0} ^ {2}}{\ displaystyle s_ {0} ^ {2}} как предыдущие значения v {\ displaystyle v}vи s 2 {\ displaystyle s ^ {2}}s ^ {2} соответственно. Эквивалентно, это также может быть описано как масштабированное обратное распределение хи-квадрат, Scale-inv- χ 2 (v 0, s 0 2). {\ displaystyle {\ text {Scale-inv -}} \ chi ^ {2} (v_ {0}, s_ {0} ^ {2}).}{\ displaystyle {\ text {Scale-inv -}} \ chi ^ {2} (v_ {0}, s_ {0} ^ {2}).}

Далее условная априорная плотность ρ (β | σ 2) {\ displaystyle \ rho ({\ boldsymbol {\ beta}} | \ sigma ^ {2})}\ rho ( \ boldsymbol \ beta | \ sigma ^ {2}) является нормальным распределением,

ρ (β ∣ σ 2) ∝ (σ 2) - k / 2 exp ⁡ (- 1 2 σ 2 (β - μ 0) T Λ 0 (β - μ 0)). {\ displaystyle \ rho ({\ boldsymbol {\ beta}} \ mid \ sigma ^ {2}) \ propto (\ sigma ^ {2}) ^ {- k / 2} \ exp \ left (- {\ frac { 1} {2 \ sigma ^ {2}}} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {0}) ^ {\ rm {T}} \ mathbf {\ Lambda} _ {0} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {0}) \ right).}{\ displaystyle \ rho ({\ boldsymbol {\ beta}} \ mid \ sigma ^ {2}) \ propto (\ sigma ^ {2}) ^ {- k / 2} \ exp \ left (- {\ frac {1} {2 \ sigma ^ {2}}} ({\ boldsymbol {\ beta}} - { \ boldsymbol {\ mu}} _ {0}) ^ {\ rm {T}} \ mathbf {\ Lambda} _ {0} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ { 0}) \ right).}

В обозначениях нормального распределения условное априорное распределение равно N (μ 0, σ 2 Λ 0 - 1). {\ displaystyle {\ mathcal {N}} \ left ({\ boldsymbol {\ mu}} _ {0}, \ sigma ^ {2} \ mathbf {\ Lambda} _ {0} ^ {- 1} \ right).}\ mathcal {N} \ left (\ boldsymbol \ mu_0, \ sigma ^ 2 \ mathbf {\ Lambda} _0 ^ {- 1} \ right).

Апостериорное распределение

Если задано предыдущее, апостериорное распределение может быть выражено как

ρ (β, σ 2 ∣ y, X) ∝ ρ (y ∣ X, β, σ 2) ρ (β ∣ σ 2) ρ (σ 2) ∝ (σ 2) - n / 2 exp ⁡ (- 1 2 σ 2 (y - X β) T (y - X β)) (σ 2) - к / 2 ехр ⁡ (- 1 2 σ 2 (β - μ 0) T Λ 0 (β - μ 0)) (σ 2) - (a 0 + 1) ехр ⁡ (- b 0 σ 2) {\ Displaystyle {\ begin {align} \ rho ({\ boldsymbol {\ beta}}, \ sigma ^ {2} \ mid \ mathbf {y}, \ mathbf {X}) \ propto \ rho (\ mathbf {y} \ mid \ mathbf {X}, {\ boldsymbol {\ beta}}, \ sigma ^ {2}) \ rho ({\ boldsymbol {\ beta}} \ mid \ sigma ^ {2}) \ rho (\ sigma ^ { 2}) \\ \ propto (\ sigma ^ {2}) ^ {- n / 2} \ exp \ left (- {\ frac {1} {2 {\ sigma} ^ {2}}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) ^ {\ rm {T}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) \ right) (\ sigma ^ {2}) ^ {- k / 2} \ exp \ left (- {\ frac {1} {2 \ sigma ^ {2}}} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu }} _ {0}) ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {0}) \ right) (\ sigma ^ {2}) ^ {- (a_ {0} +1)} \ exp \ left (- {\ frac {b_ {0}} {\ sigma ^ {2}}} \ right) \ end {align}}}{\ displaystyle {\ begin {align} \ rho ({\ boldsymbol {\ beta}}, \ sigma ^ {2} \ mid \ mathbf {y}, \ mathbf {X}) \ propto \ rho (\ mathbf {y} \ mid \ mathbf {X}, {\ boldsymbol {\ beta} }, \ sigma ^ {2}) \ rho ({\ boldsymbol {\ beta}} \ mid \ sigma ^ {2}) \ rho (\ sigma ^ {2}) \\ \ propto (\ sigma ^ {2 }) ^ {- n / 2} \ exp \ left (- {\ frac {1} {2 {\ sigma} ^ {2}}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) ^ {\ rm {T}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) \ right) (\ sigma ^ {2}) ^ {- k / 2 } \ exp \ left (- {\ frac {1} {2 \ sigma ^ {2}}} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {0}) ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {0}) \ right) (\ sigma ^ {2}) ^ {- (a_ {0} +1)} \ exp \ left (- {\ frac {b_ {0}} {\ sigma ^ {2}}} \ right) \ end {align}}}

После некоторой перестановки апостериор можно переписать так, чтобы апостериорное среднее μ n {\ displaystyle {\ boldsymbol {\ mu}} _ {n}}\boldsymbol\mu_nвектора параметров β {\ displaystyle {\ boldsymbol {\ beta}}}{ \ boldsymbol {\ beta}} может быть выражено в терминах оценщика наименьших квадратов β ^ {\ displaystyle { \ hat {\ boldsymbol {\ beta}}}}\ hat {\ boldsymbol \ beta} и априорное среднее μ 0 {\ displaystyle {\ boldsymbol {\ mu}} _ {0}}{\ boldsymbol {\ mu}} _ {0} , с силой априорной точности, указанной в матрице априорной точности Λ 0 {\ displaystyle {\ boldsymbol {\ Lambda}} _ {0}}\boldsymbol\Lambda_0

μ n = (XTX + Λ 0) - 1 (XTX β ^ + Λ 0 μ 0). {\ displaystyle {\ boldsymbol {\ mu}} _ {n} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) ^ {-1} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} {\ hat {\ boldsymbol {\ beta}}} + {\ boldsymbol {\ Lambda}} _ {0} {\ boldsymbol {\ mu}} _ {0}).}{\ displaystyle {\ boldsymbol {\ mu}} _ {n} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) ^ {- 1} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} {\ шляпа {\ boldsymbol {\ beta}}} + {\ boldsymbol {\ Lambda}} _ {0} {\ boldsymbol {\ mu}} _ {0}).}

Чтобы обосновать, что μ n {\ displaystyle {\ boldsymbol {\ mu}} _ {n}}\boldsymbol\mu_nдействительно является апостериорным значит, квадратичные члены в экспоненте могут быть преобразованы в квадратичную форму в β - μ n {\ displaystyle {\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu} } _ {n}}\ boldsymbol \ beta- \ boldsymbol \ mu_n .

(y - X β) T (y - X β) + (β - μ 0) T Λ 0 (β - μ 0) = (β - μ n) T (XTX + Λ 0) (β - μ n) + y T y - μ n T (XTX + Λ 0) μ n + μ 0 T Λ 0 μ 0. {\ displaystyle (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) ^ {\ rm {T}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta) }}) + ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {0}) ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {0}) = ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {n}) ^ {\ rm {T }} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {n}) + \ mathbf {y} ^ {\ rm {T}} \ mathbf {y} - {\ boldsymbol {\ mu}} _ {n} ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) {\ boldsymbol {\ mu}} _ {n} + {\ boldsymbol {\ mu }} _ {0} ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} {\ boldsymbol {\ mu}} _ {0}.}{\ displaystyle (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) ^ {\ rm {T}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) + ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {0}) ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {0}) = ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {n}) ^ {\ rm {T}} (\ mathbf {X} ^ { \ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {n}) + \ mathbf {y} ^ {\ rm {T}} \ mathbf {y} - {\ boldsymbol {\ mu}} _ {n} ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T }} \ mathbf {X} + {\ bold символ {\ Lambda}} _ {0}) {\ boldsymbol {\ mu}} _ {n} + {\ boldsymbol {\ mu}} _ {0} ^ {\ rm {T}} {\ boldsymbol {\ Lambda }} _ {0} {\ boldsymbol {\ mu}} _ {0}.}

Теперь апостериор можно выразить как нормальное распределение, умноженное на обратное гамма-распределение :

ρ (β, σ 2 ∣ y, X) ∝ (σ 2) - k / 2 exp ⁡ (- 1 2 σ 2 ( β - μ n) T (XTX + Λ 0) (β - μ n)) (σ 2) - n + 2 a 0 2 - 1 exp ⁡ (- 2 b 0 + y T y - μ n T (XTX + Λ 0) μ n + μ 0 T Λ 0 μ 0 2 σ 2). {\ displaystyle \ rho ({\ boldsymbol {\ beta}}, \ sigma ^ {2} \ mid \ mathbf {y}, \ mathbf {X}) \ propto (\ sigma ^ {2}) ^ {- k / 2} \ exp \ left (- {\ frac {1} {2 {\ sigma} ^ {2}}} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {n}) ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + \ mathbf {\ Lambda} _ {0}) ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {n}) \ right) (\ sigma ^ {2}) ^ {- {\ frac {n + 2a_ {0}} {2}} - 1} \ exp \ left (- { \ frac {2b_ {0} + \ mathbf {y} ^ {\ rm {T}} \ mathbf {y} - {\ boldsymbol {\ mu}} _ {n} ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) {\ boldsymbol {\ mu}} _ {n} + {\ boldsymbol {\ mu} } _ {0} ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} {\ boldsymbol {\ mu}} _ {0}} {2 \ sigma ^ {2}}} \ right).}{\ displaystyle \ rho ({\ boldsymbol {\бета }}, \ sigma ^ {2} \ mid \ mathbf {y}, \ mathbf {X}) \ propto (\ sigma ^ {2}) ^ {- k / 2} \ exp \ left (- {\ frac { 1} {2 {\ sigma} ^ {2}}} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {n}) ^ {\ rm {T}} (\ mathbf {X } ^ {\ rm {T}} \ mathbf {X} + \ mathbf {\ Lambda} _ {0}) ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {n}) \ справа) (\ sigma ^ {2}) ^ {- {\ frac {n + 2a_ {0}} {2}} - 1} \ exp \ left (- {\ frac {2b_ {0} + \ mathbf {y } ^ {\ rm {T}} \ mathbf {y} - {\ boldsymbol {\ mu}} _ {n} ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) {\ boldsymbol {\ mu}} _ {n} + {\ boldsymbol {\ mu}} _ {0} ^ {\ rm {T} } {\ boldsymbol {\ Lambda}} _ {0} {\ boldsymbol {\ mu}} _ {0}} {2 \ sigma ^ {2}}} \ right).}

Следовательно, апостериорное распределение можно параметризовать следующим образом.

ρ (β, σ 2 ∣ Y, X) ∝ ρ (β ∣ σ 2, y, X) ρ (σ 2 ∣ Y, X), {\ displaystyle \ rho ({\ boldsymbol {\ beta}}, \ sigma ^ {2} \ mid \ mathbf {y}, \ mathbf {X}) \ propto \ rho ({\ boldsymbol {\ beta}} \ mid \ sigma ^ {2}, \ mathbf {y}, \ mathbf {X}) \ rho (\ sigma ^ {2} \ mid \ mathbf {y}, \ mathbf {X}),}{\ displaystyle \ rho ({\ boldsymbol {\ beta}}, \ sigma ^ {2} \ mid \ mathbf {y}, \ mathbf {X}) \ propto \ rho ({\ boldsymbol {\ beta}} \ mid \ sigma ^ {2}, \ mathbf {y}, \ mathbf { X}) \ rho (\ sigma ^ {2} \ mid \ mathbf {y}, \ mathbf {X}),}

где два фактора соответствуют плотности N (μ n, σ 2 Λ N - 1) {\ Displaystyle {\ mathcal {N}} \ left ({\ boldsymbol {\ mu}} _ {n}, \ sigma ^ {2} {\ boldsymbol {\ Lambda}} _ {n } ^ {- 1} \ right) \,}\ mathcal {N} \ left (\ boldsymbol \ mu_n, \ sigma ^ 2 \ boldsymbol \ Lambda_n ^ {- 1} \ right) \, и Inv-Gamma (an, bn) {\ displaystyle {\ text {Inv-Gamma}} \ left (a_ {n}, b_ {n} \ right)}\ text {Inv-Gamma} \ left (a_n, b_n \ right) распределения, параметры которых задаются как

Λ n = (XTX + Λ 0), μ n = (Λ n) - 1 (XTX β ^ + Λ 0 μ 0), {\ displaystyle {\ boldsymbol {\ Lambda}} _ {n} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + \ mathbf {\ Lambda} _ { 0}), \ quad {\ boldsymbol {\ mu}} _ {n} = ({\ boldsymbol {\ Lambda}} _ {n}) ^ {- 1} (\ mathbf {X} ^ {\ rm {T }} \ mathbf {X} {\ hat {\ boldsymbol {\ beta}}} + {\ boldsymbol {\ Lambda}} _ {0} {\ boldsym bol {\ mu}} _ {0}),}{\ displaystyle {\ boldsymbol {\ Lambda}} _ {n} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X } + \ mathbf {\ Lambda} _ {0}), \ quad {\ boldsymbol {\ mu}} _ {n} = ({\ boldsymbol {\ Lambda}} _ {n}) ^ {- 1} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} {\ hat {\ boldsymbol {\ beta}}} + {\ boldsymbol {\ Lambda}} _ {0} {\ boldsymbol {\ mu}} _ {0}),}
an = a 0 + n 2, bn = b 0 + 1 2 (y T y + μ 0 T Λ 0 μ 0 - μ n T Λ n μ п). {\ displaystyle a_ {n} = a_ {0} + {\ frac {n} {2}}, \ qquad b_ {n} = b_ {0} + {\ frac {1} {2}} (\ mathbf { y} ^ {\ rm {T}} \ mathbf {y} + {\ boldsymbol {\ mu}} _ {0} ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} {\ boldsymbol {\ mu}} _ {0} - {\ boldsymbol {\ mu}} _ {n} ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {n} {\ boldsymbol {\ mu} } _ {n}).}{\ displaystyle a_ {n} = a_ {0} + {\ frac {n} {2}}, \ qquad b_ {n} = b_ {0} + {\ frac {1} {2}} (\ mathbf {y} ^ {\ rm {T}} \ mathbf {y} + {\ boldsymbol {\ mu}} _ {0} ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} {\ boldsymbol {\ mu}} _ {0} - {\ boldsymbol {\ mu}} _ {n} ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {n} {\ boldsymbol {\ mu}} _ {n}).}

Это можно интерпретировать как байесовское обучение, при котором параметры обновляются в соответствии со следующими уравнениями.

μ N знак равно (XTX + Λ 0) - 1 (Λ 0 μ 0 + XTX β ^), {\ displaystyle {\ boldsymbol {\ mu}} _ {n} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) ^ {- 1} ({\ boldsymbol {\ Lambda}} _ {0} {\ boldsymbol {\ mu}} _ {0} + \ mathbf {X} ^ {\ rm {T}} \ mathbf {X} {\ hat {\ boldsymbol {\ beta}}}),}{\ displaystyle {\ boldsymbol {\ mu}} _ {n} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) ^ {- 1} ({\ boldsymbol {\ Lambda}} _ { 0} {\ boldsymbol {\ mu}} _ {0} + \ mathbf {X} ^ {\ rm {T}} \ mathbf {X} {\ hat {\ boldsymbol {\ beta}}}),}
Λ n = (XTX + Λ 0), {\ displaystyle {\ boldsymbol {\ Lambda}} _ {n} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}),}\ boldsymbol \ Lambda_n = (\ mathbf {X} ^ {\ rm T} \ mathbf {X} + \ boldsymbol \ Lambda_0),
an = a 0 + n 2, {\ displaystyle a_ {n} = a_ {0} + {\ frac {n} {2}},}a_ {n} = a_ {0} + {\ frac {n} {2}},
bn = b 0 + 1 2 (y T y + μ 0 T Λ 0 μ 0 - μ n T Λ n μ n). {\ displaystyle b_ {n} = b_ {0} + {\ frac {1} {2}} (\ mathbf {y} ^ {\ rm {T}} \ mathbf {y} + {\ boldsymbol {\ mu} } _ {0} ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} {\ boldsymbol {\ mu}} _ {0} - {\ boldsymbol {\ mu}} _ {n} ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {n} {\ boldsymbol {\ mu}} _ {n}).}b_ {n} = b_ {0} + {\ frac {1} {2}} ({\ mathbf {y}} ^ {{{\ rm {T}}}} {\ mathbf {y}} + {\ boldsymbo l \ mu} _ {0} ^ {{{\ rm {T}}}} {\ boldsymbol \ Lambda} _ {0} {\ boldsymbol \ mu} _ {0} - {\ boldsymbol \ mu} _ {n } ^ {{{\ rm {T}}}} {\ boldsymbol \ Lambda} _ {n} {\ boldsymbol \ mu} _ {n}).

Образец свидетельства

свидетельство модели p (y ∣ m) {\ displaystyle p (\ mathbf {y} \ mid m)}{\ displaystyle p (\ mathbf {y} \ mid m)} - вероятность данных для данной модели m {\ displaystyle m}m . Он также известен как предельное правдоподобие и как априорная прогностическая плотность. Здесь модель определяется функцией правдоподобия p (y ∣ X, β, σ) {\ displaystyle p (\ mathbf {y} \ mid \ mathbf {X}, {\ boldsymbol {\ beta}}, \ sigma)}{\ displaystyle p (\ mathbf {y} \ mid \ mathbf {X}, {\ boldsymbol {\ beta}}, \ sigma)} и предварительное распределение по параметрам, то есть p (β, σ) {\ displaystyle p ({\ boldsymbol {\ beta}}, \ sigma)}p (\ boldsymbol \ beta, \ sigma) . Свидетельства модели фиксируют одним числом, насколько хорошо такая модель объясняет наблюдения. Модельное свидетельство модели байесовской линейной регрессии, представленное в этом разделе, можно использовать для сравнения конкурирующих линейных моделей с помощью сравнения байесовских моделей. Эти модели могут различаться по количеству и значениям переменных-предикторов, а также по своим априорным значениям для параметров модели. Сложность модели уже учтена в доказательствах модели, потому что она исключает параметры путем интегрирования p (y, β, σ ∣ X) {\ displaystyle p (\ mathbf {y}, {\ boldsymbol {\ beta }}, \ sigma \ mid \ mathbf {X})}{\ displaystyle p (\ mathbf {y}, {\ boldsymbol {\ beta}}, \ sigma \ mid \ mathbf {X})} по всем возможным значениям β {\ displaystyle {\ boldsymbol {\ beta}}}{ \ boldsymbol {\ beta}} и σ {\ displaystyle \ sigma}\ sigma .

p (y | m) = ∫ p (y ∣ X, β, σ) p (β, σ) d β d σ {\ displaystyle p (\ mathbf {y} | m) = \ int p (\ mathbf {y} \ mid \ mathbf {X}, {\ boldsymbol {\ beta}}, \ sigma) \, p ({\ boldsymbol {\ beta}}, \ sigma) \, d {\ boldsymbol {\ beta}} \, d \ sigma}{\ displaystyle p (\ mathbf {y} | m) = \ int p (\ mathbf {y} \ mid \ mathbf {X}, {\ boldsymbol {\ beta}}, \ sigma) \, p ({\ boldsymbol {\ beta}}, \ sigma) \, d {\ boldsymbol { \ beta}} \, d \ sigma}

Этот интеграл можно вычислить аналитически, и решение дается в следующем уравнении.

p (y ∣ m) = 1 (2 π) n / 2 det (Λ 0) det (Λ N) ⋅ б 0 a 0 bnan ⋅ Γ (an) Γ (a 0) {\ displaystyle p (\ mathbf {y} \ mid m) = {\ frac {1} { (2 \ pi) ^ {n / 2}}} {\ sqrt {\ frac {\ det ({\ boldsymbol {\ Lambda}} _ {0})} {\ det ({\ boldsymbol {\ Lambda}} _ {n})}}} \ cdot {\ frac {b_ {0} ^ {a_ {0}}} {b_ {n} ^ {a_ {n}}}} \ cdot {\ fr ac {\ Gamma (a_ {n})} {\ Gamma (a_ {0})}}}{\ displaystyle p ( \ mathbf {y} \ mid m) = {\ frac {1} {(2 \ pi) ^ {n / 2}}} {\ sqrt {\ frac {\ det ({\ boldsymbol {\ Lambda}} _ {0})} {\ det ({\ boldsymbol {\ Lambda}} _ {n})}}} \ cdot {\ frac {b_ {0} ^ {a_ {0}}} {b_ {n} ^ {a_ {n}}}} \ cdot {\ frac {\ Gamma (a_ {n})} {\ Gamma (a_ {0})}}}

Здесь Γ {\ displaystyle \ Gamma}\ Gamma обозначает гамма-функцию. Поскольку мы заранее выбрали сопряжение, маргинальное правдоподобие также можно легко вычислить, оценив следующее равенство для произвольных значений β {\ displaystyle {\ boldsymbol {\ beta}}}{ \ boldsymbol {\ beta}} и σ {\ Displaystyle \ sigma}\ sigma .

п (y ∣ м) = п (β, σ | м) п (y ∣ X, β, σ, м) п (β, σ ∣ y, X, м) {\ displaystyle p (\ mathbf {y} \ mid m) = {\ frac {p ({\ boldsymbol {\ beta}}, \ sigma | m) \, p (\ mathbf {y} \ mid \ mathbf {X }, {\ boldsymbol {\ beta}}, \ sigma, m)} {p ({\ boldsymbol {\ beta}}, \ sigma \ mid \ mathbf {y}, \ mathbf {X}, m)}}}{\ displaystyle p (\ mathbf {y} \ mid m) = {\ frac {p ({\ boldsymbol {\ beta}}, \ sigma | m) \, p (\ mathbf {y} \ mid \ mathbf {X}, {\ boldsymbol {\ beta}}, \ sigma, m)} {p ({\ boldsymbol {\ beta}}, \ sigma \ mid \ mathbf {y}, \ mathbf {X}, m)}}}

Обратите внимание, что это уравнение является не чем иным, как перестановкой теоремы Байеса. Вставка формул для априорного, вероятностного и апостериорного значений и упрощение результирующего выражения приводит к аналитическому выражению, приведенному выше.

Другие случаи

В целом, аналитическое получение апостериорного распределения может оказаться невозможным или непрактичным. Однако можно аппроксимировать апостериор с помощью метода приближенного байесовского вывода, такого как выборка Монте-Карло или вариационная байесовская.

Особый случай μ 0 = 0, Λ 0 знак равно c I {\ displaystyle {\ boldsymbol {\ mu}} _ {0} = 0, \ mathbf {\ Lambda} _ {0} = c \ mathbf {I}}\ boldsymbol \ mu_0 = 0, \ mathbf {\ Lambda} _0 = c \ mathbf {I} называется гребневой регрессией.

Аналогичный анализ может быть выполнен для общего случая многомерной регрессии, и частично он обеспечивает байесовскую оценку ковариационных матриц : см. Байесовская многомерная линейная регрессия.

См. Также

Примечания

  1. ^Промежуточные этапы этого вычисления можно найти у О'Хагана (1994) в начале главы о линейных моделях.
  2. ^Промежуточные этапы описаны у Fahrmeir et al. (2009) на странице 188.
  3. ^Промежуточные этапы этого вычисления можно найти у О'Хагана (1994) на странице 257.
  4. ^Карлин и Луис (2008) и Гельман и др. (2003) объясняют, как использовать методы выборки для байесовской линейной регрессии.

Ссылки

Внешние ссылки

Последняя правка сделана 2021-05-12 07:57:42
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте