Байесовский информационный критерий

редактировать
Критерий выбора модели

В статистике, байесовский информационный критерий (BIC ) или информационный критерий Шварца (также SIC, SBC, SBIC ) является критерий выбора модели среди конечного набора моделей; модель с самым низким BIC является предпочтительной. Он частично основан на функции правдоподобия и тесно связан с информационным критерием Акаике (AIC).

При подгонке моделей можно увеличить вероятность путем добавления параметров, но это может привести к переобучению. И BIC, и AIC пытаются решить эту проблему, вводя штрафные санкции для количества параметров в модели; срок штрафа больше в BIC, чем в AIC.

BIC был разработан Гидеоном Э. Шварцем и опубликован в статье 1978 года, где он привел байесовский аргумент в пользу его принятия.

Содержание
  • 1 Определение
  • 2 Свойства
  • 3 Ограничения
  • 4 Гауссовский специальный случай
  • 5 BIC для многомерной модели
  • 6 См. Также
  • 7 Примечания
  • 8 Ссылки
  • 9 Дополнительная литература
  • 10 Внешние ссылки
Определение

BIC формально определяется как

BIC = k ln ⁡ (n) - 2 ln ⁡ (L ^). {\ displaystyle \ mathrm {BIC} = k \ ln (n) -2 \ ln ({\ widehat {L}}). \}{\ displaystyle \ mathrm {BIC} = k \ ln (n) -2 \ ln ({\ widehat {L}}). \}

где

  • L ^ {\ displaystyle {\ hat {L}} }\ hat L = максимальное значение функции правдоподобия модели M {\ displaystyle M}M , т.е. L ^ = p (x ∣ θ ^, M) {\ displaystyle {\ hat {L}} = p (x \ mid {\ widehat {\ theta}}, M)}{\ displaystyle {\ hat {L}} = p (x \ mid {\ widehat {\ theta}}, M)} , где θ ^ {\ displaystyle {\ widehat {\ theta}}}{\ displaystyle {\ widehat {\ theta}}} - значения параметров, которые максимизируют функцию правдоподобия;
  • x {\ displaystyle x}x = наблюдаемые данные;
  • n { \ displaystyle n}п = количество точек данных в x {\ displaystyle x}x , количество наблюдений или, что эквивалентно, размер выборки ;
  • k {\ displaystyle k}k= количество параметров, оцененных моделью. Например, в множественной линейной регрессии оценочными параметрами являются точка пересечения, параметры наклона q {\ displaystyle q}q и постоянная дисперсия ошибок; таким образом, k = q + 2 {\ displaystyle k = q + 2}{\ displaystyle k = q + 2} .

Кониси и Китагава получают BIC для аппроксимации распределения данных, интегрируя параметры, используя метод Лапласа, начиная со следующего:

п (Икс ∣ M) = ∫ p (x ∣ θ, M) π (θ ∣ M) d θ {\ displaystyle p (x \ mid M) = \ int p (x \ mid \ theta, M) \ pi (\ theta \ mid M) \, d \ theta}{\ displaystyle p (x \ mid M) = \ int p (x \ mid \ theta, M) \ pi (\ theta \ середина M) \, d \ theta}

где π (θ ∣ M) {\ displaystyle \ pi (\ theta \ mid M)}{\ displaystyle \ пи (\ тета \ середина M)} является предшествующим для θ {\ displaystyle \ theta}\ theta в модели M {\ displaystyle M}M .

Журнал (вероятность), ln ⁡ (p ( x | θ, M)) {\ displaystyle \ ln (p (x | \ theta, M))}{\ displaystyle \ ln (p (x | \ theta, M))} , затем расширяется до ряда Тейлора второго порядка о MLE, θ ^ {\ displaystyle {\ widehat {\ theta}}}{\ displaystyle {\ widehat {\ theta}}} , предполагая, что он дважды дифференцируемый следующим образом:

ln ⁡ (p (x ∣ θ, M)) знак равно пер (L ^) - 0,5 (θ - θ ^) ′ N I (θ) (θ - θ ^) + R (x, θ), {\ displaystyle \ ln (p (x \ mid \ theta, M)) = \ ln ({\ widehat {L}}) - 0,5 (\ theta - {\ widehat {\ theta}}) 'n {\ mathcal {I}} (\ theta) (\ theta - {\ widehat {\ theta}}) + R (x, \ theta),}{\displaystyle \ln(p(x\mid \theta,M))=\ln({\widehat {L}})-0.5(\theta -{\widehat {\theta }})'n{\mathcal {I}}(\theta)(\theta -{\widehat {\theta }})+R(x,\theta),}

где I (θ) {\ displaystyle {\ mathcal {I}} (\ theta)}\ mathcal {I} (\ theta) - это среднее наблюдаемой информации на одно наблюдение, и простое число (′ {\ displaystyle '}') обозначает транспонирование вектора (θ - θ ^) {\ displaystyle (\ theta - {\ widehat {\ theta}})}{\ displaystyle (\ theta - {\ widehat {\ theta}})} . В той степени, в которой R (x, θ) {\ displaystyle R (x, \ theta)}{\ displaystyle R (x, \ theta)} незначительно и π (θ ∣ M) {\ displaystyle \ pi (\ theta \ mid M)}{\ displaystyle \ пи (\ тета \ середина M)} относительно линейно около θ ^ {\ displaystyle {\ widehat {\ theta}}}{\ displaystyle {\ widehat {\ theta}}} , мы можем интегрировать θ {\ displaystyle \ theta}\ theta , чтобы получить следующее:

p (x ∣ M) ≈ L ^ (2 π / n) k / 2 | I (θ ^) | - 1/2 π (θ ^) {\ displaystyle p (x \ mid M) \ приблизительно {\ hat {L}} (2 \ pi / n) ^ {k / 2} | {\ mathcal {I}} ( {\ widehat {\ theta}}) | ^ {- 1/2} \ pi ({\ widehat {\ theta}})}{\ displayst yle p (x \ mid M) \ приблизительно {\ hat {L}} (2 \ pi / n) ^ {k / 2} | {\ mathcal {I}} ({\ widehat {\ theta}}) | ^ {-1/2} \ пи ({\ widehat {\ theta}})}

По мере увеличения n {\ displaystyle n}п , мы можем игнорировать | I (θ ^) | {\ displaystyle | {\ mathcal {I}} ({\ widehat {\ theta}}) |}{\ displaystyle | {\ mathcal {I}} ({\ widehat {\ theta}}) |} и π (θ ^) {\ displaystyle \ pi ({\ widehat {\ theta }})}{\ displaystyle \ pi ({\ widehat {\ theta}})} как они есть O (1) {\ displaystyle O (1)}O (1) . Таким образом,

p (x ∣ M) = exp ⁡ {ln ⁡ L ^ - (k / 2) ln ⁡ (n) + O (1)} = exp ⁡ (- BIC / 2 + O (1)), {\ Displaystyle п (х \ середина М) = \ ехр \ {\ ln {\ widehat {L}} - (к / 2) \ ln (n) + O (1) \} = \ exp (- \ mathrm {BIC} / 2 + O (1)),}{\ displaystyle p (x \ mid M) = \ exp \ {\ ln {\ widehat {L}} - (k / 2) \ ln (n) + O (1) \} = \ exp (- \ mathrm {BIC} / 2 + O (1)),}

где BIC определено, как указано выше, и L ^ {\ displaystyle {\ widehat {L}}}{\ displaystyle {\ widehat {L}}} либо (a) является байесовским апостериорным режимом или (b) использует MLE, а предыдущий π (θ ∣ M) {\ displaystyle \ pi (\ theta \ mid M)}{\ displaystyle \ пи (\ тета \ середина M)} имеет ненулевой наклон в MLE. Тогда апостериорная

p (M ∣ x) ∝ p (x ∣ M) p (M) ≈ exp ⁡ (- BIC / 2) p (M) {\ displaystyle p (M \ mid x) \ propto p ( x \ mid M) p (M) \ приблизительно \ exp (- \ mathrm {BIC} / 2) p (M)}{\ displaystyle p (M \ mid x) \ propto p (x \ mid M) p (M) \ приблизительно \ exp (- \ mathrm {BIC} / 2) p (M)}
Свойства
  • Не зависит от предыдущего.
  • Может измерять эффективность параметризованной модели с точки зрения прогнозирования данных.
  • Он штрафует сложность модели, где сложность относится к количеству параметров в модели.
  • Это приблизительно равно критерий минимальной длины описания, но со знаком минус.
  • Его можно использовать для выбора количества кластеров в соответствии с внутренней сложностью, присутствующей в конкретном наборе данных.
  • Это тесно связан с другими штрафными критериями вероятности, такими как информационный критерий отклонения и информационный критерий Акаике.
Ограничения

BIC страдает двумя основными ограничениями

  1. вышеуказанное приближение действительно только для размера выборки n {\ displaystyle n}п намного больше, чем число k {\ displaystyle k}kпараметров в модели.
  2. BIC не может обрабатывать сложные коллекции моделей, как в выборе переменных (или выбор признаков ) в большой размерности.
Гауссовский специальный случай

При предположении, что ошибки или возмущения модели независимы и одинаково распределены в соответствии с нормальным распределением и что граничное условие, заключающееся в том, что производная логарифма правдоподобия по истинной дисперсии равна нулю, это становится (с точностью до аддитивной константы, которая зависит только от n, а не от модели):

BIC знак равно N пер ⁡ (σ е 2 ^) + К пер ⁡ (п) {\ Displaystyle \ mathrm {BIC} = п \ пер ({\ widehat {\ sigma _ {e} ^ {2}}}) + k \ ln (n) \}{\ displaystyle \ mathrm {BIC} = n \ ln ({\ widehat {\ sigma _ {e} ^ {2}}}) + k \ ln (n) \}

где σ e 2 ^ {\ displaystyle {\ widehat {\ sigma _ {e} ^ {2}}}}\ widehat {\ sigma_e ^ 2} - дисперсия ошибки. Дисперсия ошибки в этом случае определяется как

σ e 2 ^ = 1 n ∑ i = 1 n (x i - x i ^) 2. {\ displaystyle {\ widehat {\ sigma _ {e} ^ {2}}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (x_ {i} - {\ widehat {x_ {i}}}) ^ {2}.}{\ displaystyle {\ widehat {\ sigma _ {e} ^ {2}}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (x_ {i} - {\ widehat {x_ {i}}}) ^ {2}.}

который является смещенной оценкой истинной дисперсии.

в терминах остаточной суммы квадратов (RSS) BIC равен

BIC = n ln ⁡ (RSS / n) + k ln ⁡ (n) {\ displaystyle \ mathrm {BIC} = n \ ln (RSS / n) + k \ ln (n) \}{\ displaystyle \ mathrm {BIC} = n \ ln (RSS / n) + k \ ln (n) \}

При тестировании нескольких линейных моделей по сравнению с насыщенной моделью, BIC можно переписать в терминах отклонения χ 2 {\ displaystyle \ chi ^ {2}}\ chi ^ {2 } как :

BIC = χ 2 + К пер ⁡ (n) {\ displaystyle \ mathrm {BIC} = \ chi ^ {2} + k \ ln (n)}{\ displaystyle \ mathrm {BIC} = \ chi ^ {2} + k \ ln (n)}

где k {\ displaystyle k }k- количество параметров модели в тесте.

При выборе из нескольких моделей предпочтительнее модель с наименьшим BIC. BIC - это возрастающая функция дисперсии ошибки σ e 2 {\ displaystyle \ sigma _ {e} ^ {2}}\ sigma_e ^ 2 и возрастающая функция k. Таким образом, необъяснимые вариации в зависимой переменной и количестве независимых переменных увеличивают значение BIC. Следовательно, более низкий BIC означает либо меньше независимых переменных, либо лучшее соответствие, либо и то, и другое. Сила доказательств против модели с более высоким значением BIC можно резюмировать следующим образом:

ΔBICДоказательства против более высокого BIC
от 0 до 2Не стоит больше, чем только упоминание
от 2 до 6положительное
от 6 до 10сильное
>10очень сильное

BIC обычно штрафует свободные параметры сильнее, чем информационный критерий Акаике, хотя он зависит от размера n и относительной величины n и k.

Важно помнить, что BIC можно использовать для сравнения оценочных моделей, только если числовые значения зависимой переменной идентичны для всех сравниваемых моделей. Сравниваемые модели не обязательно должны быть вложенными, в отличие от случая, когда модели сравниваются с использованием F-теста или теста отношения правдоподобия.

BIC для многомерных модель

Для многомерной модели с количеством потенциальных переменных pn → ∞ {\ displaystyle p_ {n} \ rightarrow \ infty}{\ displaystyle p_ {n} \ rightarrow \ infty} , а истинный размер модели ограничен постоянные, модифицированные BIC были предложены в Chen, Chen, Gao и Song. Для модели большой размерности с числом переменных pn → ∞ {\ displaystyle p_ {n} \ rightarrow \ infty}{\ displaystyle p_ {n} \ rightarrow \ infty} , а истинный размер модели не ограничен, BIC большой размерности был предложен в Гао и Кэрролл. Большой размерный BIC имеет вид:

BIC = 6 (1 + γ) ln ⁡ (pn) k - 2 ln ⁡ (L ^), {\ displaystyle \ mathrm {BIC} = 6 (1+ \ gamma) \ ln (p_ {n}) k-2 \ ln ({\ widehat {L}}), \}{\ displaystyle \ mathrm {BIC} = 6 (1+ \ gamma) \ ln (p_ {n}) k -2 \ ln ({\ widehat {L}}), \}

где γ {\ displaystyle \ gamma}\ gamma может быть любым числом больше нуля.

Гао и Кэрролл предложили BIC псевдо-правдоподобия, для которого вместо истинного логарифмического правдоподобия используется псевдо-логарифмическая вероятность. BIC псевдо-правдоподобия большой размерности имеет вид:

псевдо-BIC = 6 (1 + γ) ω ln ⁡ (pn) k ∗ - 2 ln ⁡ (L ^), {\ displaystyle {\ text {pseudo -BIC}} = 6 (1+ \ gamma) \ omega \ ln (p_ {n}) k ^ {*} - 2 \ ln ({\ widehat {L}}), \}{\ displaystyle {\ text {псевдо-BIC}} = 6 (1+ \ gamma) \ омега \ ln (p_ {n}) k ^ {*} - 2 \ ln ({\ widehat {L}}), \}

где k ∗ {\ displaystyle k ^ {*}}к ^ {*} - это оценочные степени свободы, а константа ω ≥ 1 {\ displaystyle \ omega \ geq 1}{\ displaystyle \ omega \ geq 1} - это неизвестная константа.

Чтобы достичь согласованности выбора теоретической модели для расходящегося pn {\ displaystyle p_ {n}}p_ {n} , для двух многомерных BIC выше требуется множитель 6 (1 + γ) ω {\ Displaystyle 6 (1+ \ gamma) \ omega}{\ displaystyle 6 (1+ \ gamma) \ omega} . Однако на практике BIC большой размерности может принимать более простую форму:

BIC = c ln ⁡ (pn) k - 2 ln ⁡ (L ^), {\ displaystyle \ mathrm {BIC} = c \ ln ( p_ {n}) k-2 \ ln ({\ widehat {L}}), \}{\ displaystyle \ mathrm {BIC} = c \ ln (p_ {n}) k-2 \ ln ({\ widehat {L}}), \}

где можно использовать различные варианты множителя c {\ displaystyle c}c . В эмпирических исследованиях можно использовать c = 1 {\ displaystyle c = 1}c=1или c = 2 {\ displaystyle c = 2}c=2, и это отображается иметь хорошие эмпирические показатели.

См. Также
Примечания
Ссылки
Дополнительная литература
E внешние ссылки
Последняя правка сделана 2021-05-12 07:57:40
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте