Критерий выбора модели
В статистике, байесовский информационный критерий (BIC ) или информационный критерий Шварца (также SIC, SBC, SBIC ) является критерий выбора модели среди конечного набора моделей; модель с самым низким BIC является предпочтительной. Он частично основан на функции правдоподобия и тесно связан с информационным критерием Акаике (AIC).
При подгонке моделей можно увеличить вероятность путем добавления параметров, но это может привести к переобучению. И BIC, и AIC пытаются решить эту проблему, вводя штрафные санкции для количества параметров в модели; срок штрафа больше в BIC, чем в AIC.
BIC был разработан Гидеоном Э. Шварцем и опубликован в статье 1978 года, где он привел байесовский аргумент в пользу его принятия.
Содержание
- 1 Определение
- 2 Свойства
- 3 Ограничения
- 4 Гауссовский специальный случай
- 5 BIC для многомерной модели
- 6 См. Также
- 7 Примечания
- 8 Ссылки
- 9 Дополнительная литература
- 10 Внешние ссылки
Определение
BIC формально определяется как
где
- = максимальное значение функции правдоподобия модели , т.е. , где - значения параметров, которые максимизируют функцию правдоподобия;
- = наблюдаемые данные;
- = количество точек данных в , количество наблюдений или, что эквивалентно, размер выборки ;
- = количество параметров, оцененных моделью. Например, в множественной линейной регрессии оценочными параметрами являются точка пересечения, параметры наклона и постоянная дисперсия ошибок; таким образом, .
Кониси и Китагава получают BIC для аппроксимации распределения данных, интегрируя параметры, используя метод Лапласа, начиная со следующего:
где является предшествующим для в модели .
Журнал (вероятность), , затем расширяется до ряда Тейлора второго порядка о MLE, , предполагая, что он дважды дифференцируемый следующим образом:
где - это среднее наблюдаемой информации на одно наблюдение, и простое число () обозначает транспонирование вектора . В той степени, в которой незначительно и относительно линейно около , мы можем интегрировать , чтобы получить следующее:
По мере увеличения , мы можем игнорировать и как они есть . Таким образом,
где BIC определено, как указано выше, и либо (a) является байесовским апостериорным режимом или (b) использует MLE, а предыдущий имеет ненулевой наклон в MLE. Тогда апостериорная
Свойства
- Не зависит от предыдущего.
- Может измерять эффективность параметризованной модели с точки зрения прогнозирования данных.
- Он штрафует сложность модели, где сложность относится к количеству параметров в модели.
- Это приблизительно равно критерий минимальной длины описания, но со знаком минус.
- Его можно использовать для выбора количества кластеров в соответствии с внутренней сложностью, присутствующей в конкретном наборе данных.
- Это тесно связан с другими штрафными критериями вероятности, такими как информационный критерий отклонения и информационный критерий Акаике.
Ограничения
BIC страдает двумя основными ограничениями
- вышеуказанное приближение действительно только для размера выборки намного больше, чем число параметров в модели.
- BIC не может обрабатывать сложные коллекции моделей, как в выборе переменных (или выбор признаков ) в большой размерности.
Гауссовский специальный случай
При предположении, что ошибки или возмущения модели независимы и одинаково распределены в соответствии с нормальным распределением и что граничное условие, заключающееся в том, что производная логарифма правдоподобия по истинной дисперсии равна нулю, это становится (с точностью до аддитивной константы, которая зависит только от n, а не от модели):
где - дисперсия ошибки. Дисперсия ошибки в этом случае определяется как
который является смещенной оценкой истинной дисперсии.
в терминах остаточной суммы квадратов (RSS) BIC равен
При тестировании нескольких линейных моделей по сравнению с насыщенной моделью, BIC можно переписать в терминах отклонения как :
где - количество параметров модели в тесте.
При выборе из нескольких моделей предпочтительнее модель с наименьшим BIC. BIC - это возрастающая функция дисперсии ошибки и возрастающая функция k. Таким образом, необъяснимые вариации в зависимой переменной и количестве независимых переменных увеличивают значение BIC. Следовательно, более низкий BIC означает либо меньше независимых переменных, либо лучшее соответствие, либо и то, и другое. Сила доказательств против модели с более высоким значением BIC можно резюмировать следующим образом:
ΔBIC | Доказательства против более высокого BIC |
---|
от 0 до 2 | Не стоит больше, чем только упоминание |
от 2 до 6 | положительное |
от 6 до 10 | сильное |
>10 | очень сильное |
BIC обычно штрафует свободные параметры сильнее, чем информационный критерий Акаике, хотя он зависит от размера n и относительной величины n и k.
Важно помнить, что BIC можно использовать для сравнения оценочных моделей, только если числовые значения зависимой переменной идентичны для всех сравниваемых моделей. Сравниваемые модели не обязательно должны быть вложенными, в отличие от случая, когда модели сравниваются с использованием F-теста или теста отношения правдоподобия.
BIC для многомерных модель
Для многомерной модели с количеством потенциальных переменных , а истинный размер модели ограничен постоянные, модифицированные BIC были предложены в Chen, Chen, Gao и Song. Для модели большой размерности с числом переменных , а истинный размер модели не ограничен, BIC большой размерности был предложен в Гао и Кэрролл. Большой размерный BIC имеет вид:
где может быть любым числом больше нуля.
Гао и Кэрролл предложили BIC псевдо-правдоподобия, для которого вместо истинного логарифмического правдоподобия используется псевдо-логарифмическая вероятность. BIC псевдо-правдоподобия большой размерности имеет вид:
где - это оценочные степени свободы, а константа - это неизвестная константа.
Чтобы достичь согласованности выбора теоретической модели для расходящегося , для двух многомерных BIC выше требуется множитель . Однако на практике BIC большой размерности может принимать более простую форму:
где можно использовать различные варианты множителя . В эмпирических исследованиях можно использовать или , и это отображается иметь хорошие эмпирические показатели.
См. Также
Примечания
Ссылки
Дополнительная литература
- Bhat, HS; Кумар, Н. (2010). «О выводе байесовского информационного критерия» (PDF). Архивировано из оригинального (PDF) 28 марта 2012 г. Cite journal требует
| journal =
() - Findley, DF (1991). Контрпримеры к экономии и BIC ". Анналы Института статистической математики. 43(3): 505–514. doi : 10.1007 / BF00053369.
- Kass, RE; Wasserman, L. (1995). «Эталонный байесовский тест для вложенных гипотез и его связь с критерием Шварца». Журнал Американской статистической ассоциации. 90(431): 928–934. doi : 10.2307 / 2291327. JSTOR 2291327.
- Liddle, AR (2007). «Информационные критерии для выбора астрофизической модели». Ежемесячные уведомления Королевской астрономической Общество. 377 (1): L74 – L78. arXiv : astro-ph / 0701113. Bibcode : 2007MNRAS.377L..74L. doi : 10.1111 / j.1745-3933.2007.00306.x.
- McQuarrie, ADR; Tsai, C.-L. (1998). Выбор модели регрессии и временных рядов. World Scientific.
E внешние ссылки