В статистике использование байесовских факторов является байесовским альтернатива классической проверке гипотез. Сравнение байесовских моделей - это метод выбора модели на основе байесовских факторов. Рассматриваемые модели - это статистические модели. Целью байесовского фактора является количественная оценка поддержки одной модели по сравнению с другой, независимо от того, верны ли эти модели. Техническое определение «поддержки» в контексте байесовского вывода описано ниже.
Фактор Байеса - это отношение правдоподобия предельного правдоподобия двух конкурирующих гипотез, обычно нулевой и альтернативной.
апостериорная вероятность модели M с заданными данными D определяется теоремой Байеса :
Ключевой термин, зависящий от данных представляет вероятность того, что некоторые данные получены в предположении модели M; его правильная оценка - ключ к сравнению байесовских моделей.
Учитывая проблему выбора модели, в которой мы должны выбирать между двумя моделями на основе наблюдаемых данных D, правдоподобия двух разных моделей M 1 и M 2, параметризованное векторами параметров модели и , оценивается с помощью байесовского фактора K, определяемого как
Когда две модели равновероятны априори, так что , байесовский фактор равен отношению апостериорных вероятностей M 1 и M 2. Если вместо интеграла байесовского фактора используется вероятность, соответствующая оценке максимального правдоподобия параметра для каждой статистической модели, тогда тест становится классическим тестом отношения правдоподобия. В отличие от теста отношения правдоподобия, это сравнение байесовской модели не зависит от какого-либо одного набора параметров, поскольку оно интегрируется по всем параметрам в каждой модели (относительно соответствующих априорных значений). Однако преимущество использования байесовских факторов заключается в том, что оно автоматически и вполне естественно включает штраф за включение слишком большого количества структуры модели. Таким образом, он защищает от переоборудования. Для моделей, в которых явная версия вероятности недоступна или слишком затратна для численной оценки, приближенное байесовское вычисление может использоваться для выбора модели в байесовской структуре, с оговоркой, что приближенные байесовские оценки байесовских факторов часто предвзяты.
Другие подходы:
Значение K>1 означает, что M 1 более строго поддерживается рассматриваемыми данными, чем М 2. Обратите внимание, что классическая проверка гипотез придает предпочтительный статус одной гипотезе (или модели) («нулевая гипотеза») и рассматривает только доказательства против нее. Гарольд Джеффрис дал шкалу для интерпретации K:
K | dHart | бит | Сила доказательств |
---|---|---|---|
< 10 | 0 | — | Отрицательная (поддерживает M 2) |
от 10 до 10 | от 0 до 5 | от 0 до 1,6 | Вряд ли стоит упоминать |
от 10 до 10 | от 5 до 10 | от 1,6 до 3,3 | Существенное |
от 10 до 10 | от 10 до 15 | от 3,3 до 5,0 | Сильное |
от 10 до 10 | от 15 до 20 | от 5,0 до 6,6 | Очень сильная |
>10 | >20 | >6.6 | Решающая |
Во втором столбце указаны соответствующие веса доказательств в децихартли. (также известный как децибаны ); биты добавлены в третий столбец для ясности. Согласно IJ Good изменение веса свидетельств 1 децибан или 1/3 бит (т. Е. Изменение отношения шансов с равного примерно до 5: 4) примерно настолько тонко, насколько люди могут разумно воспринимать свою степень веры в гипотезе в повседневном использовании.
Альтернативная таблица, широко цитируемая, предоставлена Kass and Raftery (1995):
log 10K | K | Stren доказательство |
---|---|---|
от 0 до 1/2 | от 1 до 3,2 | Не стоит упоминать больше, чем просто упоминать |
от 1/2 до 1 | от 3,2 до 10 | Существенный |
от 1 до 2 | от 10 до 100 | Сильный |
>2 | >100 | Решающий |
Предположим, у нас есть случайный переменная, которая дает успех или неудачу. Мы хотим сравнить модель M 1, где вероятность успеха q = ½, и другую модель M 2, где q неизвестно, и мы берем априорное распределение для q, который является равномерным на [0,1]. Мы берем выборку из 200 и находим 115 успехов и 85 неудач. Правдоподобие можно вычислить согласно биномиальному распределению :
Таким образом, для M 1
, тогда как для M 2 мы имеем
Тогда соотношение будет 1,197..., что «едва ли стоит упоминать», даже если оно очень немного указывает на M 1.
A частотный проверка гипотез из M 1 (здесь рассматривается как нулевая гипотеза ) дала бы совсем другой результат. Такой тест говорит, что M 1 следует отклонить на уровне значимости 5%, поскольку вероятность получения 115 или более успехов из выборки из 200, если q = ½, составляет 0,0200, и как двусторонний тест на получение такой экстремальной цифры, как 115 или более экстремальной, составляет 0,0400. Обратите внимание, что 115 больше чем на два стандартных отклонения от 100. Таким образом, в то время как frequentist тест гипотез даст значимые результаты на уровне значимости 5%, Фактор Байеса вряд ли считает это крайним результатом. Обратите внимание, однако, что неоднородный априор (например, тот, который отражает тот факт, что вы ожидаете, что количество успехов и неудач будет одного порядка величины) может привести к байесовскому фактору, который больше согласуется с частотным. проверка гипотез.
Классический критерий отношения правдоподобия дал бы оценку максимального правдоподобия для q, а именно ⁄ 200 = 0,575, откуда
(вместо усреднения по всем возможным q). Это дает отношение правдоподобия 0,1045 и указывает на то, что M 2.
M2является более сложной моделью, чем M 1, потому что у нее есть свободный параметр, который позволяет моделировать данные более точно. Способность байесовских факторов учитывать это является причиной того, что байесовский вывод был выдвинут в качестве теоретического обоснования и обобщения бритвы Оккама, уменьшая ошибки типа I..
С другой стороны, современный метод относительного правдоподобия учитывает количество свободных параметров в моделях, в отличие от классического отношения правдоподобия. Метод относительного правдоподобия можно применить следующим образом. Модель M 1 имеет 0 параметров, поэтому ее значение AIC равно 2 · 0 - 2 · ln (0,005956) = 10,2467. Модель M 2 имеет 1 параметр, поэтому ее значение AIC составляет 2 · 1 - 2 · ln (0,056991) = 7,7297. Следовательно, M 1 примерно exp ((7,7297 - 10,2467) / 2) = 0,284 раза вероятнее, чем M 2, чтобы минимизировать потерю информации. Таким образом, M 2 является немного предпочтительным, но M 1 не может быть исключен.