Эмпирические методы Байеса являются процедурами для статистический вывод, в котором предварительное распределение оценивается на основе данных. Этот подход отличается от стандартных байесовских методов, для которых априорное распределение фиксируется до того, как будут обнаружены какие-либо данные. Несмотря на эту разницу во взглядах, эмпирический байесовский метод можно рассматривать как приближение к полностью байесовской трактовке иерархической модели , в которой параметры на самом высоком уровне иерархии устанавливаются на их наиболее вероятные значения, а не интегрирован. Эмпирический байесовский метод, также известный как максимальное предельное правдоподобие, представляет собой один из подходов к установке гиперпараметров.
Эмпирические байесовские методы можно рассматривать как приближение к полностью байесовской трактовке иерархической байесовской модели.
, например, в двухступенчатой иерархической байесовской модели наблюдаемые данные генерируются из ненаблюдаемый набор параметров согласно распределению вероятностей . В свою очередь, параметры можно рассматривать как выборки, взятые из совокупности, характеризующейся гиперпараметрами согласно распределению вероятностей . В иерархической байесовской модели, хотя и не в эмпирическом байесовском приближении, гиперпараметры считаются взятыми из непараметризованного распределения .
Таким образом, информация об определенном интересующем количестве поступает не только из свойства тех данных, которые напрямую зависят от них, а также свойства совокупности параметров в целом, выведенные из данных в целом, резюмируемые гиперпараметрами .
Используя теорему Байеса,
В общем, этот интеграл не поддается анализу аналитически или символически и должны вычисляться числовыми методами. Могут использоваться стохастические (случайные) или детерминированные приближения. Примерами стохастических методов являются выборка цепи Маркова Монте-Карло и Монте-Карло. Детерминированные приближения обсуждаются в квадратуре.
В качестве альтернативы выражение может быть записано как
, а член интеграла, в свою очередь, может быть выражен как
Они предлагают итеративную схему, качественно аналогичную структура в семплер Гиббса, чтобы последовательно развивать улучшенные приближения к и . Сначала вычислите начальное приближение к без учета зависимость полностью; затем вычислите приближение к на основе начального приблизительного распределения ; затем используйте этот , чтобы обновить приближение для ; затем обновить ; и так далее.
Когда истинное распределение резко достигает пика, интеграл, определяющий можно не сильно изменить, заменив распределение вероятностей на с точечной оценкой , представляющей пик распределения (или, альтернативно, его среднее значение),
При таком приближении вышеупомянутая итерационная схема становится EM-алгоритмом.
Термин «эмпирический байесовский» может охватывать широкий спектр методов, но большинство из них можно рассматривать как раннее усечение вышеупомянутой схемы или что-то в этом роде. Точечные оценки, а не все распределение, обычно используются для параметра (ов) . Оценки для обычно делаются из первого приближения к без последующего уточнения. Эти оценки для обычно делаются без учета соответствующего априорного распределения для .
Роббинс рассмотрел случай выборки из смешанного распределения, где вероятность для каждого (при условии ) задается распределением Пуассона,
, в то время как предыдущее значение θ не указано, за исключением того, что оно также является iid из неизвестного распределения с кумулятивной функцией распределения . Отбор образцов соединений возникает при решении множества задач статистической оценки, таких как количество несчастных случаев и клинические испытания. Мы просто ищем точечный прогноз с учетом всех наблюдаемых данных. Поскольку априор не определен, мы стремимся сделать это без знания G.
При квадратичной потере ошибки (SEL), условное ожидание E (θ i | Y i = y i) - разумная величина для использования в прогнозировании. Для модели составной выборки Пуассона эта величина равна
Это можно упростить, умножив выражение на , что дает
где p G - это предельное распределение, полученное интегрированием θ по G.
Чтобы воспользоваться этим, Роббинс предложил оценивать маргинальные значения с их эмпирическими частотами, что дает полностью непараметрическую оценку как:
где означает «количество». (См. Также Оценка частоты Гуда – Тьюринга.)
Предположим, что каждый клиент страховой компании имеет «уровень несчастных случаев» Θ и застрахован от несчастных случаев; распределение вероятностей является основным распределением и неизвестно. Количество несчастных случаев, понесенных каждым клиентом за указанный период времени, имеет распределение Пуассона с ожидаемым значением, равным частоте несчастных случаев конкретного клиента. Фактическое количество несчастных случаев, пережитых клиентом, - это наблюдаемое количество. Грубый способ оценить основное распределение вероятности частоты несчастных случаев Θ состоит в том, чтобы оценить долю членов всего населения, пострадавших от 0, 1, 2, 3,... несчастных случаев в течение указанного периода времени, как соответствующую долю в наблюдаемом случайный пример. После этого желательно предсказать уровень аварийности каждого покупателя в выборке. Как указано выше, можно использовать условное ожидаемое значение частоты несчастных случаев Θ с учетом наблюдаемого количества аварий в течение базового периода. Таким образом, если клиент терпит шесть несчастных случаев в течение базового периода, оценочная частота несчастных случаев этого клиента составляет 7 × [доля выборки, пострадавшая от семи несчастных случаев] / [доля выборки, пострадавшая от шести несчастных случаев]. Обратите внимание: если доля людей, пострадавших от k несчастных случаев, является убывающей функцией от k, прогнозируемая частота несчастных случаев клиентом часто будет ниже, чем наблюдаемое количество несчастных случаев.
Этот эффект усадки типичен для эмпирического байесовского анализа.
Если вероятность и ее априор принимают простые параметрические формы (например, 1- или 2-мерные функции правдоподобия с простыми сопряженными априорными числами ), то эмпирическая проблема Байеса состоит только в оценке маргинального и гиперпараметров с использованием полного набора эмпирических измерений. Например, один из распространенных подходов, называемых параметрической эмпирической оценкой байесовской точки, заключается в аппроксимации предельного значения с использованием оценки максимального правдоподобия (MLE) или расширения Moments, которое позволяет выразить гиперпараметры в терминах эмпирического среднего и дисперсии. Этот упрощенный маржинальный показатель позволяет включать эмпирические средние значения в точечную оценку для предшествующего . Результирующее уравнение для предыдущего значительно упрощено, как показано ниже.
Существует несколько общих параметрических эмпирических байесовских моделей, включая (ниже), бета-биномиальную модель, полиномиальную модель Дирихле, а также специфические модели для байесовской линейной регрессии (см. ниже) и байесовской многомерной линейной регрессии. Более продвинутые подходы включают иерархические байесовские модели и.
Например, в приведенном выше примере, пусть вероятность будет распределением Пуассона, и пусть априор теперь будет определяться с помощью сопряжение предшествующего, которое представляет собой гамма-распределение () (где ):
Несложно показать, что апостериорное также является гамма-распределением. Запишите
где маргинальное распределение было опущено, так как оно не явно зависят от . Расширение терминов, которые действительно зависят от , дает апостериорное значение как:
Таким образом, апостериорная плотность также является гамма-распределением , где , и . Также обратите внимание, что маргинальное значение - это просто интеграл апостериорного значения по всем , что оказывается отрицательным биномиальным распределением.
Чтобы применить эмпирическое байесовское распределение, мы аппроксимируем маржинальное значение, используя оценку максимального правдоподобия (MLE). Но поскольку апостериорное распределение является гамма-распределением, MLE маргинального значения оказывается просто средним апостериорным, то есть точечной оценкой нам нужно. Напоминая, что среднее гамма-распределения это просто , мы имеем
Чтобы получить значения и , эмпирический байесовский метод предписывает оценку среднего и дисперсия с использованием полного набора эмпирических данных.
Таким образом, итоговая точечная оценка похожа на средневзвешенное значение выборочное среднее и априорное среднее . Оказывается, это общая черта эмпирического Байеса; Точечные оценки для априорной (то есть среднего) будут выглядеть как средневзвешенные значения выборочной оценки и априорной оценки (аналогично для оценок дисперсии).