В Байесовской статистике апостериорное прогнозное распределение - это распределение возможных ненаблюдаемых значения, обусловленные наблюдаемыми значениями.
Дан набор из N iid наблюдений , новое значение будет получено из распределения, которое зависит от параметра :
Может показаться заманчивым вставить одну лучшую оценку для , но при этом игнорируется неопределенность относительно , и поскольку источник неопределенности игнорируется, прогнозируемое распределение будет слишком узким. Экстремальные значения будут встречаться чаще, чем предполагает апостериорное распределение.
Апостериорное прогнозирующее распределение учитывает неопределенность относительно . Апостериорное распределение возможных значений зависит от :
И апостериорное прогнозное распределение при вычисляется путем маргинализации распределения при по апостериорному распределению при :
Поскольку он учитывает неопределенность относительно , апостериорное прогнозирующее распределение в целом будет шире, чем прогнозирующее распределение w Он включает единую наилучшую оценку для .
предварительное прогнозируемое распределение в байесовском контексте - это распределение точки данных, маргинализированной по сравнению с предыдущим распределением. То есть, если и , тогда предварительное прогнозирующее распределение является соответствующим распределением , где
Это похоже на апостериорное прогнозирующее распределение, за исключением того, что маргинализация (или, что то же самое, ожидание) берется с учетом к предыдущему распределению вместо апостериорного распределения.
Кроме того, если априорное распределение является сопряженным предшествующим, тогда апостериорное прогнозирующее распределение будет принадлежать к тому же семейству распределений, что и предыдущее прогнозирующее распределение. Это легко увидеть. Если априорное распределение сопряжено, то
т.е. апостериорное распределение также принадлежит , но просто с другим параметром вместо исходного параметра Тогда
Следовательно, апостериорное прогнозное распределение следует тому же распределению H, что и предыдущее прогнозирующее распределение, но с апостериорными значениями гиперпараметров, заменяющими предыдущие.
Предыдущее прогнозируемое распределение имеет форму составного распределения и фактически часто используется для определения составного распределения из-за отсутствия каких-либо усложняющих такие факторы, как зависимость от данных и проблема сопряжения. Например, t-распределение Стьюдента можно определить как предварительное прогнозирующее распределение нормального распределения с известным средним μ, но неизвестной дисперсией <225.>, с сопряженным априорным распределением масштабированного обратного хи-квадрат, помещенным на σ x, с гиперпараметрами ν и σ. Результирующее составное распределение действительно не- стандартизованное t-распределение Стьюдента и следует одной из двух наиболее распространенных параметризаций этого распределения. Тогда соответствующее апостериорное прогнозирующее распределение снова будет t Стьюдента с обновленными гиперпараметрами , что появляются в апостериорном распределении, а также непосредственно появляются в апостериорном прогностическом распределении.
В некоторых случаях подходящее составное распределение определяется с использованием другой параметризации, чем та, которая была бы наиболее естественной для прогнозных распределений в текущей рассматриваемой проблеме. Часто это происходит потому, что предыдущее распределение, используемое для определения составного распределения, отличается от того, которое используется в текущей задаче. Например, как указано выше, t-распределение Стьюдента было определено в терминах масштабированного обратного распределения хи-квадрат, помещенного на дисперсию. Однако более распространено использование обратного гамма-распределения в качестве предшествующего конъюгата в этой ситуации. На самом деле они эквивалентны, за исключением параметризации; следовательно, t-распределение Стьюдента по-прежнему может использоваться для любого прогнозирующего распределения, но гиперпараметры должны быть повторно параметризованы перед подключением.
Большинство, но не все, общие семейства распределений принадлежат к экспоненциальному семейству распределений. Экспоненциальные семейства обладают большим количеством полезных свойств. Один из них заключается в том, что все члены имеют предшествующие конъюгированные распределения - тогда как очень немногие другие распределения имеют конъюгированные априорные значения.
Другое полезное свойство состоит в том, что функция плотности вероятности составного распределения, соответствующая предыдущему прогнозируемому распределению экспоненциальное семейство распределение маргинальное по его сопряженному априорному распределению может быть определено аналитически. Предположим, что является членом экспоненциального семейства с параметром , который параметризуется в соответствии с естественным параметром и распределяется как
, а - соответствующий сопряженный априор, распределенный как
Тогда предыдущий прогнозный распределение (результат сложения с ) равно
Последняя строка следует из предыдущей, признавая, что функция внутри интеграла является функцией плотности случайной величины, распределенной как , за исключением нормализующей функции . Следовательно, результат интегрирования будет обратным нормирующей функции.
Приведенный выше результат не зависит от выбора параметризации , так как ни один из , и появляется. (является функцией параметра и, следовательно, будет принимать разные формы в зависимости от выбора параметризации.) Для стандартных вариантов и , часто проще работать напрямую с обычными параметрами, чем переписывать в терминах естественные параметры.
Причина, по которой интеграл поддается обработке, заключается в том, что он включает вычисление константы нормализации плотности, определенной произведением априорного распределения и правдоподобия. Когда оба являются сопряженными, произведение представляет собой апостериорное распределение, и, по предположению, нормировочная константа этого распределения известна. Как показано выше, функция плотности составного распределения следует определенной форме, состоящей из произведения функции который составляет часть функции плотности для , с частным двух форм нормализации «константа» для , один получен из априорного распределения, а другой - из апостериорного распределения. бета-биномиальное распределение - хороший пример того, как работает этот процесс.
Несмотря на аналитическую управляемость таких распределений, они сами по себе обычно не являются членами экспоненциального семейства. Например, трехпараметрическое t-распределение Стьюдента, бета-биномиальное распределение и полиномиальное распределение Дирихле - все это прогностические распределения экспоненциально-семейных распределений (нормальное распределение, биномиальное распределение и полиномиальное распределение, соответственно), но ни одно из них не является членом экспоненциального семейства. Это можно видеть выше из-за наличия функциональной зависимости от . В экспоненциальном семейном распределении должна быть возможность разделить всю функцию плотности на мультипликативные множители трех типов: (1) факторы, содержащие только переменные, (2) факторы, содержащие только параметры, и (3) факторы, логарифм которых разлагается между переменными. и параметры. Наличие делает это невозможным, если только " нормализующая "функция либо полностью игнорирует соответствующий аргумент, либо использует его только в экспоненте выражения.
Когда используется сопряженное предшествующее распределение, апостериорное прогнозирующее распределение принадлежит к тому же семейству, что и предыдущее прогнозирующее распределение, и определяется просто путем добавления обновленных гиперпараметров для апостериорного распределения параметра (ов) в формулу для априорного прогнозного распределения. Используя общую форму уравнений апостериорного обновления для распределений экспоненциального семейства (см. Соответствующий раздел в статье об экспоненциальном семействе ), мы можем выписать явную формулу для апостериорного прогнозного распределения:
где
Это показывает, что апостериорное прогнозное распределение серии наблюдений в случае, когда наблюдения следуют за экспоненциальным семейством с соответствующим конъюгатом перед, имеет ту же плотность вероятности, что и составное распределение, с параметрами, указанными выше. Сами наблюдения входят только в форме
Это называется достаточная статистика наблюдений, потому что она сообщает нам все, что нам нужно знать о наблюдениях, чтобы вычислить апостериорное или апостериорное прогнозирующее распределение на их основе (или, если на то пошло, что-нибудь еще на основе вероятность наблюдений, например предельная вероятность ).
Также можно учитывать результат сложения совместного распределения по фиксированному числу независимых одинаково распределенных выборок с предварительным распределением по общему параметру. В байесовской среде это проявляется в различных контекстах: вычисление априорного или апостериорного прогнозирующего распределения нескольких новых наблюдений и вычисление предельного правдоподобия наблюдаемых данных (знаменатель в законе Байеса ). Когда распределение образцов происходит из экспоненциального семейства, а предварительное распределение является конъюгированным, полученное распределение соединений будет управляемым и будет следовать форме, аналогичной приведенному выше выражению. На самом деле легко показать, что совместное составное распределение набора для наблюдений равно
Этот результат и приведенный выше результат для одного составного распределения тривиально распространяются на случай распределения по векторному наблюдению, например, многомерное гауссовское распределение.
Сворачивание узла в свернутой выборке Гиббса эквивалентно к составному. В результате, когда набор из независимых одинаково распределенных узлов (iid) все зависит от одного и того же предшествующего узла, и этот узел свернут, результирующая условная вероятность одного заданного узла остальные, а также родители свернутого узла (но не обусловливают какие-либо другие узлы, например, любые дочерние узлы) такие же, как апостериорное прогнозирующее распределение всех оставшихся iid узлы (или, точнее, ранее i.i.d. узлы, так как сворачивание вводит зависимости между узлами). То есть, как правило, можно реализовать свертывание узла, просто прикрепив всех родителей узла непосредственно ко всем дочерним элементам и заменив прежнее условное распределение вероятностей, связанное с каждым дочерним элементом, на соответствующее апостериорное прогнозирующее распределение для ребенка, обусловленное его родители и другой бывший iid узлы, которые также были дочерними по отношению к удаленному узлу. Например, для более подробного обсуждения и некоторых предостережений по некоторым сложным вопросам см. Статью Полиномиальное распределение Дирихле.