Байесовский информационный критерий

редактировать

Критерий выбора модели

В статистике, байесовский информационный критерий (BIC ) или информационный критерий Шварца (также SIC, SBC, SBIC ) является критерий выбора модели среди конечного набора моделей; модель с самым низким BIC является предпочтительной. Он частично основан на функции правдоподобия и тесно связан с информационным критерием Акаике (AIC).

При подгонке моделей можно увеличить вероятность путем добавления параметров, но это может привести к переобучению. И BIC, и AIC пытаются решить эту проблему, вводя штрафные санкции для количества параметров в модели; срок штрафа больше в BIC, чем в AIC.

BIC был разработан Гидеоном Э. Шварцем и опубликован в статье 1978 года, где он привел байесовский аргумент в пользу его принятия.

Содержание

1 Определение
2 Свойства
3 Ограничения
4 Гауссовский специальный случай
5 BIC для многомерной модели
6 См. Также
7 Примечания
8 Ссылки
9 Дополнительная литература
10 Внешние ссылки

Определение

BIC формально определяется как

BIC = k ln ⁡ (n) - 2 ln ⁡ (L ^). {\ displaystyle \ mathrm {BIC} = k \ ln (n) -2 \ ln ({\ widehat {L}}). \}

{\ displaystyle \ mathrm {BIC} = k \ ln (n) -2 \ ln ({\ widehat {L}}). \}

где

$L ^ {\ displaystyle {\ hat {L}} }$ $\ hat L$ = максимальное значение функции правдоподобия модели $M {\ displaystyle M}$ $M$ , т.е. $L ^ = p (x ∣ θ ^, M) {\ displaystyle {\ hat {L}} = p (x \ mid {\ widehat {\ theta}}, M)}$ ${\ displaystyle {\ hat {L}} = p (x \ mid {\ widehat {\ theta}}, M)}$ , где $θ ^ {\ displaystyle {\ widehat {\ theta}}}$ ${\ displaystyle {\ widehat {\ theta}}}$ - значения параметров, которые максимизируют функцию правдоподобия;
$x {\ displaystyle x}$ $x$ = наблюдаемые данные;
$n { \ displaystyle n}$ $п$ = количество точек данных в $x {\ displaystyle x}$ $x$ , количество наблюдений или, что эквивалентно, размер выборки ;
$k {\ displaystyle k}$ $k$ = количество параметров, оцененных моделью. Например, в множественной линейной регрессии оценочными параметрами являются точка пересечения, параметры наклона $q {\ displaystyle q}$ $q$ и постоянная дисперсия ошибок; таким образом, $k = q + 2 {\ displaystyle k = q + 2}$ ${\ displaystyle k = q + 2}$ .

Кониси и Китагава получают BIC для аппроксимации распределения данных, интегрируя параметры, используя метод Лапласа, начиная со следующего:

п (Икс ∣ M) = ∫ p (x ∣ θ, M) π (θ ∣ M) d θ {\ displaystyle p (x \ mid M) = \ int p (x \ mid \ theta, M) \ pi (\ theta \ mid M) \, d \ theta}

{\ displaystyle p (x \ mid M) = \ int p (x \ mid \ theta, M) \ pi (\ theta \ середина M) \, d \ theta}

где $π (θ ∣ M) {\ displaystyle \ pi (\ theta \ mid M)}$ ${\ displaystyle \ пи (\ тета \ середина M)}$ является предшествующим для $θ {\ displaystyle \ theta}$ $\ theta$ в модели $M {\ displaystyle M}$ $M$ .

Журнал (вероятность), $ln ⁡ (p ( x | θ, M)) {\ displaystyle \ ln (p (x | \ theta, M))}$ ${\ displaystyle \ ln (p (x | \ theta, M))}$ , затем расширяется до ряда Тейлора второго порядка о MLE, $θ ^ {\ displaystyle {\ widehat {\ theta}}}$ ${\ displaystyle {\ widehat {\ theta}}}$ , предполагая, что он дважды дифференцируемый следующим образом:

ln ⁡ (p (x ∣ θ, M)) знак равно пер (L ^) - 0,5 (θ - θ ^) ′ N I (θ) (θ - θ ^) + R (x, θ), {\ displaystyle \ ln (p (x \ mid \ theta, M)) = \ ln ({\ widehat {L}}) - 0,5 (\ theta - {\ widehat {\ theta}}) 'n {\ mathcal {I}} (\ theta) (\ theta - {\ widehat {\ theta}}) + R (x, \ theta),}

\ln(p(x\mid \theta,M))=\ln({\widehat {L}})-0.5(\theta -{\widehat {\theta }})'n{\mathcal {I}}(\theta)(\theta -{\widehat {\theta }})+R(x,\theta),

где $I (θ) {\ displaystyle {\ mathcal {I}} (\ theta)}$ $\ mathcal {I} (\ theta)$ - это среднее наблюдаемой информации на одно наблюдение, и простое число ( $′ {\ displaystyle '}$ $'$ ) обозначает транспонирование вектора $(θ - θ ^) {\ displaystyle (\ theta - {\ widehat {\ theta}})}$ ${\ displaystyle (\ theta - {\ widehat {\ theta}})}$ . В той степени, в которой $R (x, θ) {\ displaystyle R (x, \ theta)}$ ${\ displaystyle R (x, \ theta)}$ незначительно и $π (θ ∣ M) {\ displaystyle \ pi (\ theta \ mid M)}$ ${\ displaystyle \ пи (\ тета \ середина M)}$ относительно линейно около $θ ^ {\ displaystyle {\ widehat {\ theta}}}$ ${\ displaystyle {\ widehat {\ theta}}}$ , мы можем интегрировать $θ {\ displaystyle \ theta}$ $\ theta$ , чтобы получить следующее:

p (x ∣ M) ≈ L ^ (2 π / n) k / 2 | I (θ ^) | - 1/2 π (θ ^) {\ displaystyle p (x \ mid M) \ приблизительно {\ hat {L}} (2 \ pi / n) ^ {k / 2} | {\ mathcal {I}} ( {\ widehat {\ theta}}) | ^ {- 1/2} \ pi ({\ widehat {\ theta}})}

{\ displayst yle p (x \ mid M) \ приблизительно {\ hat {L}} (2 \ pi / n) ^ {k / 2} | {\ mathcal {I}} ({\ widehat {\ theta}}) | ^ {-1/2} \ пи ({\ widehat {\ theta}})}

По мере увеличения $n {\ displaystyle n}$ $п$ , мы можем игнорировать $| I (θ ^) | {\ displaystyle | {\ mathcal {I}} ({\ widehat {\ theta}}) |}$ ${\ displaystyle | {\ mathcal {I}} ({\ widehat {\ theta}}) |}$ и $π (θ ^) {\ displaystyle \ pi ({\ widehat {\ theta }})}$ ${\ displaystyle \ pi ({\ widehat {\ theta}})}$ как они есть $O (1) {\ displaystyle O (1)}$ $O (1)$ . Таким образом,

p (x ∣ M) = exp ⁡ {ln ⁡ L ^ - (k / 2) ln ⁡ (n) + O (1)} = exp ⁡ (- BIC / 2 + O (1)), {\ Displaystyle п (х \ середина М) = \ ехр \ {\ ln {\ widehat {L}} - (к / 2) \ ln (n) + O (1) \} = \ exp (- \ mathrm {BIC} / 2 + O (1)),}

{\ displaystyle p (x \ mid M) = \ exp \ {\ ln {\ widehat {L}} - (k / 2) \ ln (n) + O (1) \} = \ exp (- \ mathrm {BIC} / 2 + O (1)),}

где BIC определено, как указано выше, и $L ^ {\ displaystyle {\ widehat {L}}}$ ${\ displaystyle {\ widehat {L}}}$ либо (a) является байесовским апостериорным режимом или (b) использует MLE, а предыдущий $π (θ ∣ M) {\ displaystyle \ pi (\ theta \ mid M)}$ ${\ displaystyle \ пи (\ тета \ середина M)}$ имеет ненулевой наклон в MLE. Тогда апостериорная

p (M ∣ x) ∝ p (x ∣ M) p (M) ≈ exp ⁡ (- BIC / 2) p (M) {\ displaystyle p (M \ mid x) \ propto p ( x \ mid M) p (M) \ приблизительно \ exp (- \ mathrm {BIC} / 2) p (M)}

{\ displaystyle p (M \ mid x) \ propto p (x \ mid M) p (M) \ приблизительно \ exp (- \ mathrm {BIC} / 2) p (M)}

Свойства

Не зависит от предыдущего.
Может измерять эффективность параметризованной модели с точки зрения прогнозирования данных.
Он штрафует сложность модели, где сложность относится к количеству параметров в модели.
Это приблизительно равно критерий минимальной длины описания, но со знаком минус.
Его можно использовать для выбора количества кластеров в соответствии с внутренней сложностью, присутствующей в конкретном наборе данных.
Это тесно связан с другими штрафными критериями вероятности, такими как информационный критерий отклонения и информационный критерий Акаике.

Ограничения

BIC страдает двумя основными ограничениями

вышеуказанное приближение действительно только для размера выборки $n {\ displaystyle n}$ $п$ намного больше, чем число $k {\ displaystyle k}$ $k$ параметров в модели.
BIC не может обрабатывать сложные коллекции моделей, как в выборе переменных (или выбор признаков ) в большой размерности.

Гауссовский специальный случай

При предположении, что ошибки или возмущения модели независимы и одинаково распределены в соответствии с нормальным распределением и что граничное условие, заключающееся в том, что производная логарифма правдоподобия по истинной дисперсии равна нулю, это становится (с точностью до аддитивной константы, которая зависит только от n, а не от модели):

BIC знак равно N пер ⁡ (σ е 2 ^) + К пер ⁡ (п) {\ Displaystyle \ mathrm {BIC} = п \ пер ({\ widehat {\ sigma _ {e} ^ {2}}}) + k \ ln (n) \}

{\ displaystyle \ mathrm {BIC} = n \ ln ({\ widehat {\ sigma _ {e} ^ {2}}}) + k \ ln (n) \}

где $σ e 2 ^ {\ displaystyle {\ widehat {\ sigma _ {e} ^ {2}}}}$ $\ widehat {\ sigma_e ^ 2}$ - дисперсия ошибки. Дисперсия ошибки в этом случае определяется как

σ e 2 ^ = 1 n ∑ i = 1 n (x i - x i ^) 2. {\ displaystyle {\ widehat {\ sigma _ {e} ^ {2}}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (x_ {i} - {\ widehat {x_ {i}}}) ^ {2}.}

{\ displaystyle {\ widehat {\ sigma _ {e} ^ {2}}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (x_ {i} - {\ widehat {x_ {i}}}) ^ {2}.}

который является смещенной оценкой истинной дисперсии.

в терминах остаточной суммы квадратов (RSS) BIC равен

BIC = n ln ⁡ (RSS / n) + k ln ⁡ (n) {\ displaystyle \ mathrm {BIC} = n \ ln (RSS / n) + k \ ln (n) \}

{\ displaystyle \ mathrm {BIC} = n \ ln (RSS / n) + k \ ln (n) \}

При тестировании нескольких линейных моделей по сравнению с насыщенной моделью, BIC можно переписать в терминах отклонения $χ 2 {\ displaystyle \ chi ^ {2}}$ $\ chi ^ {2 }$ как :

BIC = χ 2 + К пер ⁡ (n) {\ displaystyle \ mathrm {BIC} = \ chi ^ {2} + k \ ln (n)}

{\ displaystyle \ mathrm {BIC} = \ chi ^ {2} + k \ ln (n)}

где $k {\ displaystyle k }$ $k$ - количество параметров модели в тесте.

При выборе из нескольких моделей предпочтительнее модель с наименьшим BIC. BIC - это возрастающая функция дисперсии ошибки $σ e 2 {\ displaystyle \ sigma _ {e} ^ {2}}$ $\ sigma_e ^ 2$ и возрастающая функция k. Таким образом, необъяснимые вариации в зависимой переменной и количестве независимых переменных увеличивают значение BIC. Следовательно, более низкий BIC означает либо меньше независимых переменных, либо лучшее соответствие, либо и то, и другое. Сила доказательств против модели с более высоким значением BIC можно резюмировать следующим образом:

ΔBIC	Доказательства против более высокого BIC
от 0 до 2	Не стоит больше, чем только упоминание
от 2 до 6	положительное
от 6 до 10	сильное
>10	очень сильное

BIC обычно штрафует свободные параметры сильнее, чем информационный критерий Акаике, хотя он зависит от размера n и относительной величины n и k.

Важно помнить, что BIC можно использовать для сравнения оценочных моделей, только если числовые значения зависимой переменной идентичны для всех сравниваемых моделей. Сравниваемые модели не обязательно должны быть вложенными, в отличие от случая, когда модели сравниваются с использованием F-теста или теста отношения правдоподобия.

BIC для многомерных модель

Для многомерной модели с количеством потенциальных переменных $pn → ∞ {\ displaystyle p_ {n} \ rightarrow \ infty}$ ${\ displaystyle p_ {n} \ rightarrow \ infty}$ , а истинный размер модели ограничен постоянные, модифицированные BIC были предложены в Chen, Chen, Gao и Song. Для модели большой размерности с числом переменных $pn → ∞ {\ displaystyle p_ {n} \ rightarrow \ infty}$ ${\ displaystyle p_ {n} \ rightarrow \ infty}$ , а истинный размер модели не ограничен, BIC большой размерности был предложен в Гао и Кэрролл. Большой размерный BIC имеет вид:

BIC = 6 (1 + γ) ln ⁡ (pn) k - 2 ln ⁡ (L ^), {\ displaystyle \ mathrm {BIC} = 6 (1+ \ gamma) \ ln (p_ {n}) k-2 \ ln ({\ widehat {L}}), \}

{\ displaystyle \ mathrm {BIC} = 6 (1+ \ gamma) \ ln (p_ {n}) k -2 \ ln ({\ widehat {L}}), \}

где $γ {\ displaystyle \ gamma}$ $\ gamma$ может быть любым числом больше нуля.

Гао и Кэрролл предложили BIC псевдо-правдоподобия, для которого вместо истинного логарифмического правдоподобия используется псевдо-логарифмическая вероятность. BIC псевдо-правдоподобия большой размерности имеет вид:

псевдо-BIC = 6 (1 + γ) ω ln ⁡ (pn) k ∗ - 2 ln ⁡ (L ^), {\ displaystyle {\ text {pseudo -BIC}} = 6 (1+ \ gamma) \ omega \ ln (p_ {n}) k ^ {*} - 2 \ ln ({\ widehat {L}}), \}

{\ displaystyle {\ text {псевдо-BIC}} = 6 (1+ \ gamma) \ омега \ ln (p_ {n}) k ^ {*} - 2 \ ln ({\ widehat {L}}), \}

где $k ∗ {\ displaystyle k ^ {*}}$ $к ^ {*}$ - это оценочные степени свободы, а константа $ω ≥ 1 {\ displaystyle \ omega \ geq 1}$ ${\ displaystyle \ omega \ geq 1}$ - это неизвестная константа.

Чтобы достичь согласованности выбора теоретической модели для расходящегося $pn {\ displaystyle p_ {n}}$ $p_ {n}$ , для двух многомерных BIC выше требуется множитель $6 (1 + γ) ω {\ Displaystyle 6 (1+ \ gamma) \ omega}$ ${\ displaystyle 6 (1+ \ gamma) \ omega}$ . Однако на практике BIC большой размерности может принимать более простую форму:

BIC = c ln ⁡ (pn) k - 2 ln ⁡ (L ^), {\ displaystyle \ mathrm {BIC} = c \ ln ( p_ {n}) k-2 \ ln ({\ widehat {L}}), \}

{\ displaystyle \ mathrm {BIC} = c \ ln (p_ {n}) k-2 \ ln ({\ widehat {L}}), \}

где можно использовать различные варианты множителя $c {\ displaystyle c}$ $c$ . В эмпирических исследованиях можно использовать $c = 1 {\ displaystyle c = 1}$ $c=1$ или $c = 2 {\ displaystyle c = 2}$ $c=2$ , и это отображается иметь хорошие эмпирические показатели.

См. Также

Примечания

Ссылки

Дополнительная литература

Bhat, HS; Кумар, Н. (2010). «О выводе байесовского информационного критерия» (PDF). Архивировано из оригинального (PDF) 28 марта 2012 г. Cite journal требует | journal =()
Findley, DF (1991). Контрпримеры к экономии и BIC ". Анналы Института статистической математики. 43(3): 505–514. doi : 10.1007 / BF00053369.
Kass, RE; Wasserman, L. (1995). «Эталонный байесовский тест для вложенных гипотез и его связь с критерием Шварца». Журнал Американской статистической ассоциации. 90(431): 928–934. doi : 10.2307 / 2291327. JSTOR 2291327.
Liddle, AR (2007). «Информационные критерии для выбора астрофизической модели». Ежемесячные уведомления Королевской астрономической Общество. 377 (1): L74 – L78. arXiv : astro-ph / 0701113. Bibcode : 2007MNRAS.377L..74L. doi : 10.1111 / j.1745-3933.2007.00306.x.
McQuarrie, ADR; Tsai, C.-L. (1998). Выбор модели регрессии и временных рядов. World Scientific.

E внешние ссылки