Байесовский вывод

редактировать

Метод статистического вывода

Байесовский вывод - это метод статистического вывода, в котором Теорема Байеса используется для обновления вероятности гипотезы по мере появления новых свидетельств или информации. Байесовский вывод - важный метод в статистике, и особенно в математической статистике. Байесовское обновление особенно важно в >Испытательный динамический анализ данных. Байесовский вывод нашел применение в широком спектре деятельности, включая науку, инженерию, философию, медицину, спорт и закон. В философии теории принятия решений байесовский объединить связан с субъективной вероятностью, часто называемой «байесовской вероятностью ».

Содержание

1 Введение в правило Байеса
- 1.1 Формальное объяснение
- 1.2 Альтернативы байесовскому обновлению
2 Формальное описание байесовского вывода
- 2.1 Определения
- 2.2 Байесовский вывод
- 2.3 Байесовское предсказание
3 Вывод на основе исключительных и исчерпывающих возможностей
- 3.1 Общая формулировка
- 3.2 Множественные наблюдения
- 3.3 Параметрическая формулировка
4 Математические свойства
- 4.1 Интерпретация фактора
- 4.2 Правило Кромвеля
- 4.3 Асимптотическое поведение апостериорного
- 4.4 Сопряженные априорные значения
- 4.5 Оценки параметров и прогнозы
5 Примеры
- 5.1 Вероятность гипотезы
- 5.2 Создание прогноза
6 В частотной статистике и теории решений
- 6.1 Выбор модели
7 Вероятностное программирование
8 Приложения
- 8.1 Компьютерные приложения
- 8.2 Приложения для биоинформатики и здравоохранения
- 8.3 В зале суда
- 8.4 Байесовская эпистемология
- 8.5 П рочее
9 Байесовский и байесовский вывод
10 История
11 См. Также
12 Ссылки
- 12.1 Цитирование
- 12.2 Источники
13 Дополнительная литература
- 13.1 Элементарный
- 13.2 Средний или продвинутый
14 Внешние ссылки

Введение в правило Байеса

Геометрическая визуализация теоремы Байеса. В таблице значения 2, 3, 6 и 9 дают относительные веса каждого соответствующего условия и случая. Цифры обозначают таблицы, участвующие в каждой метрике, вероятность - это доля каждой затененной цифры. Это показывает, что P (A | B) P (B) = P (B | A) P (A), то есть есть P (A | B) = P (B | A) P (A) / P (B). Аналогичные рассуждения можно использовать, чтобы показать, что P (¬A | B) = P (B | ¬A) P (¬A) / P (B) и т. Д.

Формальное объяснение

Таблица непредвиденных обстоятельств
Гипотеза. Доказательства	Подтвердить гипотезу. H	Нарушить гипотезу. ¬H	Итого
Имеет доказательства. E	P (H \| E) · P ( E) . = P (E \| H) · P (H)	P (¬H \| E) · P (E) . = P (E \| ¬H) · P (¬H)	P (E)
Нет Доказательства. ¬E	P(H\|¬E)·P(¬E). = P (¬E \| H) · P (H)	P (¬H \| ¬ E) · P (¬E) . = P (¬E \| ¬H) · P (¬H)	P ( ¬E) =. 1 - P (E)

Итого	P(H)	P (¬H) = 1 - P (H)	1

Байесовский вывод выводит апостериорную вероятность как следствие из двух антецедентов : априорной вероятности и «функции правдоподобия », полученные из статистической модели для наблюдаемых данных. Байесовский вычисляет апостериорную вероятность согласно теореме Байеса :

P (H ∣ E) = P (E ∣ H) ⋅ P (H) P (E) {\ displaystyle P (H \ mid E) = {\ frac {P (E \ mid H) \ cdot P (H)} {P (E)}}}

P (H \ mid E) = {\ frac {P (E \ mid H) \ cdot P (H)} {P (E)}}

где

$H {\ displaystyle \ textstyle H}$ $\ textstyle H$ обозначает любую гипотезу, вероятность которой могут повлиять данные (называемые доказательства). Часто существуют конкурирующие гипотезы, и задача состоит в том, чтобы определить, какая из них наиболее вероятна.
$P (H) {\ displaystyle \ textstyle P (H)}$ $\ textstyle P (H)$ , априорная вероятность - это оценка вероятности гипотезы $H {\ displaystyle \ textstyle H}$ $\ textstyle H$ до данных $E {\ displaystyle \ textstyle E}$ $\ textstyle E$ , текущее свидетельство соблюдается.
$E {\ displaystyle \ textstyle E}$ $\ textstyle E$ , свидетельство, соответствует новым данным, которые не использовались при вычислении априорной вероятности.
$P (H ∣ E) {\ displaystyle \ textstyle P (H \ mid E)}$ $\ textstyle P (H \ mid E)$ , апостериорная вероятность, это вероятность $H {\ displaystyle \ textstyle H }$ $\ textstyle H$ задано $E {\ displaystyle \ textstyle E}$ $\ textstyle E$ , то есть после $E {\ displaystyle \ textstyle E}$ $\ textstyle E$ . Это то, что мы хотим знать: вероятность гипотезы с учетом наблюдаемых свидетельств.
$P (E ∣ H) {\ displaystyle \ textstyle P (E \ mid H)}$ $\ textstyle P (E \ mid H)$ - вероятность того, что соблюдение $E {\ displaystyle \ textstyle E}$ $\ textstyle E$ при заданном $H {\ displaystyle \ textstyle H}$ $\ textstyle H$ и называется правдоподобием. Как функция от $E {\ displaystyle \ textstyle E}$ $\ textstyle E$ с фиксированным $H {\ displaystyle \ textstyle H}$ $\ textstyle H$ , это указывает на совместимость доказательства с гипотеза. Функция правдоподобия является функцией свидетельства, $E {\ displaystyle \ textstyle E}$ $\ textstyle E$ , тогда как апостериорная вероятность является функцией гипотезы, $H {\ displaystyle \ textstyle H}$ $\ textstyle H$ .
$P (E) {\ displaystyle \ textstyle P (E)}$ $\ textstyle P (E)$ иногда называют предельным правдоподобием или «модельным свидетельством». Этот фактор одинаков для всех рассматриваемых гипотез (что очевидно из того факта, что гипотеза $H {\ displaystyle \ textstyle H}$ $\ textstyle H$ нигде в символе не появляется, в отличие от всех других факторов), поэтому этот фактор не учитывается при определении относительной вероятности различных гипотез.

Для разных значений $H {\ displaystyle \ textstyle H}$ $\ textstyle H$ только факторы $П (ЧАС) {\ displaystyle \ textstyle P (H)}$ $\ textstyle P (H)$ и $P (E ∣ H) {\ displaystyle \ textstyle P (E \ mid H)}$ $\ textstyle P (E \ mid H)$ , оба значения в числителе значение $P (H ∣ E) {\ displaystyle \ textstyle P (H \ mid E)}$ $\ textstyle P (H \ mid E)$ - апостериорная вероятность гипотезы пропорциональна ее априорной вероятности (присущая ему вероятность) и вновь приобретенная вероятность (ее совместимость с новыми наблюдаемыми свидетельствами).

правило Байеса также можно записать следующим образом:

P (H ∣ E) = P (E ∣ H) P (H) P (E) = P (E ∣ H) P (H) P (E ∣ H) P (H) + P (E ∣ ¬ H) P (¬ H) = 1 1 + (1 P (H) - 1) P (E ∣ ¬ H) P (E ∣ H) {\ Displaystyle {\ begin {align} P (H \ mid E) = {\ frac {P (E \ mid H) P (H)} {P (E)}} \\\\ = {\ frac {P (E \ mid H) P (H)} {P (E \ mid H) P (H) + P (E \ mid \ neg H) P (\ neg H)}} \\\\ = {\ frac {1} {1+ \ left ({\ frac {1} {P (H)}} - 1 \ right) {\ frac {P (E \ mid \ neg H)} {P (E \ mid H)} }}} \\\ конец {выровнен}}}

{\ displaystyle {\ begin {выровнено} P (H \ mid E) = {\ frac {P (E \ mid H) P (H)} {P (E)}} \\\\ = {\ frac {P (E \ mid H) P (H)} {P (E \ mid H) P (H) + P (E \ mid \ neg H) P (\ neg H)}} \\\\ = {\ frac {1} {1+ \ left ({\ frac {1} { P (H)}} - 1 \ right) {\ frac {P (E \ mid \ neg H)} {P (E \ mid H)}}}} \\\ end {выровнено}}}

потому что

P (E) = P (E ∣ H) P (H) + P (EH ¬ H) P (¬ H) {\ Displaystyle P (E) = P (E \ mid H) P (H) + P (E \ mid \ neg H) P (\ neg H)}

{\ Displaystyle P (E) = P (E \ mid H) P (H) + P (E \ mid \ neg H) P (\ neg H)}

P (H) + P (¬ H) Знак равно 1 {\ displaystyle P (H) + P (\ neg H) = 1}

{\ displaystyle P (H) + П (\ нег H) = 1}

где $¬ H {\ displaystyle \ neg H}$ ${\ displaystyle \ neg H}$ равно «не $H {\ displaystyle \ textstyle H}$ $\ textstyle H$ ", логическое отрицание из $H {\ displaystyle \ textstyle H}$ $\ textstyle H$ .

Один быстрый и простой способ запомнить уравнение: для ис правила использования умножения:

$P (E ∩ H) = P (E ∣ H) P (H) = P (H ∣ E) P (E) {\ displaystyle P (E \ cap H) = P (E \ mid H) P (H) = P (H \ mid E) P (E)}$ ${\ displaystyle P (E \ cap H) = P (E \ mid H) P (H) = P (H \ mid E) P (E)}$

Альтернативы байесовскому обновлению

Байесовское обновление широко используется и удобно с вычислительной точки зрения. Однако это не единственное правило обновления, которое можно считать рациональным.

Ян Хакинг отмечает, что стандартные аргументы «голландской книги » не определяют байесовское обновление: они оставляют возможность открытой того, что небайесовские правила обновления могут избежать голландской книги. Хакерский писал: «И ни аргумент в голландской книге, ни какой-либо другой аргумент в персоналистском арсенале доказательств аксиом вероятности не влечет за собой динамическое допущение. Ни одно из них не влечет за собой байесианство. Таким образом, персоналист требует, чтобы динамическое допущение было байесовским. верно, что в случае персоналист может отказаться от байесовской модели обучения на собственном опыте. Соль может потерять свой вкус ».

Действительно, существуют небайесовские правила обновления, которые также избегают голландских книг (как обсуждается в литературе по «вероятностной кинематике ») после публикации Ричарда К. Джеффри, которое применяет правило Байеса к случаю, когда самому свидетельству приписывается вероятность. Дополнительные гипотезы, необходимые для однозначного требования байесовского обновления, были сочтены существенными, сложными и неудовлетворительными.

Формальное описание байесовского вывода

Определения

$x {\ displaystyle x}$ $x$ , точка данных в целом. Фактически это может быть вектор значений.
$θ {\ displaystyle \ theta}$ $\ theta$ , параметр распределения точки данных, т. Е. $Икс ∼ п (Икс ∣ θ) {\ Displaystyle х \ сим р (х \ середина \ тета)}$ $x \ sim p (x \ mid \ theta)$ . Фактически это может быть вектор параметров.
$α {\ displaystyle \ alpha}$ $\ alpha$ , гиперпараметр распределения параметров, т. Е. $θ ∼ п (θ ∣ α) {\ displaystyle \ theta \ sim p (\ theta \ mid \ alpha)}$ $\ theta \ sim p (\ theta \ mid \ alpha)$ . Фактически это может быть вектор гиперпараметров.
$X {\ displaystyle \ mathbf {X}}$ $\ mathbf {X}$ - образец, набор $n {\ displaystyle n}$ $n$ наблюдаемые точки данных, т. Е. $x 1,…, xn {\ displaystyle x_ {1}, \ ldots, x_ {n}}$ $x_ {1}, \ ldots, x_ {n}$ .
$x ~ {\ displaystyle {\ tilde {x}}}$ ${\ tilde {x}}$ , новая точка данных, где необходимо спрогнозировать.

Байесовский вывод

предшествующее распределение - это распределение распределения (ов) до любых данных соблюдаются, то есть $p (θ ∣ α) {\ displaystyle p (\ theta \ mid \ alpha)}$ $p (\ theta \ mid \ alpha)$ . Предыдущее распределение может быть нелегко определить; в такой одной из возможностей может быть использование предшествующего Джеффри предварительного распределения перед обновлением его новыми данными.
распределение выборки - это распределение имеющихся данных при условии их параметров, то есть $p (X ∣ θ) {\ displaystyle p (\ mathbf {X} \ mid \ theta) }$ $p (\ mathbf {X} \ mid \ theta)$ . Это называется правдобием, особенно если рассматривать его также как функцию программы (ов), иногда записывается как $L ⁡ (θ ∣ X) = p (X ∣ θ) {\ displaystyle \ operatorname {L} (\ theta \ mid \ mathbf {X}) = p (\ mathbf {X} \ mid \ theta)}$ $\ operatorname {L} (\ theta \ mid \ mathbf {X}) = p (\ mathbf {X} \ mid \ theta)$ .
предельное правдоподобие (иногда также называемое свидетельством) - это распределение наблюдаемых данных маргинализовано по параметрам, т.е. $п (Икс ∣ α) знак равно ∫ п (Икс ∣ θ) п (θ ∣ α) d θ {\ displaystyle p (\ mathbf {X} \ mid \ alpha) = \ int p (\ mathbf {X} \ mid \ theta) p (\ theta \ mid \ alpha) \ operatorname {d} \! \ theta}$ ${\ displaystyle p (\ mathbf {X} \ mid \ alpha) = \ int p (\ mathbf {X} \ mid \ theta) p (\ theta \ mid \ alpha) \ operatorname {d} \! \ theta}$ .
апостериорное распределение - это распределение (ов) после учета наблюдаемых данных. Это определяет правил Байеса, которое составляет основу основы вывода:

p (θ ∣ X, α) = p (θ, X, α) p (X, α) = p (X ∣ θ, α) p (θ, α) p (X ∣ α) p (α) = p (X ∣ θ, α) p (θ ∣ α) p (X ∣ α) ∝ p (X ∣ θ, α) п ( θ ∣ α) {\ Displaystyle p (\ theta \ mid \ mathbf {X}, \ alpha) = {\ frac {p (\ theta, \ mathbf {X}, \ alpha)} {p (\ mathbf {X}, \ alpha)}} = {\ frac {p (\ mathbf {X} \ mid \ theta, \ alpha) p (\ theta, \ alpha)} {p (\ mathbf {X} \ mid \ alpha) p ( \ alpha)}} = {\ frac {p (\ mathbf {X} \ mid \ theta, \ alpha) p (\ theta \ mid \ alpha)} {p (\ mathbf {X} \ mid \ alpha)}} \ propto p (\ mathbf {X} \ mid \ theta, \ alpha) p (\ theta \ mid \ alpha)}

{\ displaystyle p (\ theta \ mid \ mathbf {X}, \ alpha) = {\ frac {p (\ theta, \ mathbf {X}, \ alpha)} {p ( \ mathbf {X}, \ alpha)}} = {\ frac {p (\ mathbf {X} \ mid \ theta, \ alpha) p (\ theta, \ alpha)} {p (\ mathbf {X} \ mid \ alpha) p (\ alpha)}} = {\ frac {p (\ mathbf {X} \ mid \ theta, \ alpha) p (\ theta \ mid \ alpha)} {p (\ mathbf {X} \ mid \ alpha)}} \ propto p (\ mathbf {X} \ mid \ theta, \ alpha) p (\ theta \ mid \ alpha)}

Это выражается словами как «апостериорная пропорциональна времени вероятности до», или иногда как «апостериорная = вероятность предшествующего времени, превышающая доказательство ».

Байесовское предсказание

Апостериорное предсказывающее распределение - это распределение новой точки данных, маргинальное по сравнению с апостериорным:

p (x ~ ∣ X, α) = ∫ p (Икс ~ ∣ θ) п (θ ∣ Икс, α) d θ {\ Displaystyle p ({\ тильда {x}} \ mid \ mathbf {X}, \ alpha) = \ int p ({\ тильда {x}} \ mid \ theta) p (\ theta \ mid \ mathbf {X}, \ alpha) \ operatorname {d} \! \ theta}

{\ displaystyle p ({\ tilde {x}} \ mid \ mathbf {X}, \ alpha) = \ int p ({ \ tilde {x}} \ mid \ theta) p (\ theta \ mid \ mathbf {X}, \ alpha) \ operatorname {d} \! \ theta}

Предыдущее прогнозное распределение - это распределение новой точки данных, маргинализованная по сравнению с предыдущей:

p (x ~ ∣ α) = ∫ p (x ~ ∣ θ) p (θ ∣ α) d θ {\ Displaystyle p ({\ тильда {x}} \ mid \ alpha) = \ int p ({\ tilde {x}} \ mid \ theta) p (\ theta \ mid \ alpha) \ operatorname {d} \! \ theta}

{\ displaystyle p ({\ tilde {x}} \ середина \ альфа) = \ int п ({\ тильда {х}} \ середина \ тета) п (\ тета \ середина \ альфа) \ OperatorName {d} \! \ theta}

Байесовская теория требует использования апостериорного прогнозирующего распределения для выполнения прогнозного вывода, т. е. для прогнозирования распределения новой, ненаблюдаемой точки данных. То есть вместо фиксированной точки в качестве прогноза возвращается по возможным точкам. Только так можно использовать все апостериорное распределение задач (ов). Для сравнения прогноз в частотной статистике часто включает поиск оптимальной точечной оценки (ов), например, с помощью максимального правдоподобия или максимальной апостери оценочной (MAP) - а затем подставить эту оценку в формулу распределения точки данных. Это имеет недостаток, заключающийся в том, что он не учитывает какую-либо неопределенность в значении и, следовательно, недооценивает дисперсию прогнозного распределения.

(В некоторых случаях частотная статистика может обойти проблему., доверительные интервалы и Например интервалы прогноза в частотной статистике при построении из нормального распределения с неизвестным средним и дисперсией строятся с использованием t-распределения Стьюдента. Это правильно оценивает дисперсию тому благодаря, что (1) среднее значение нормально распределенных случайных величин также нормально (2) прогнозирование распределения нормально распределенной точки данных с неизвестным средним средним размером и дисперсией, с использованием сопряженных или неинформативных априорных значений, имеет t-распределение Сть байюдента в статистике апостериорное прогнозное распределение всегда можно определить - или по крайней мере, с произвольным уровнем производительности при использовании численных методов.)

Оба прогнозных распределений формула сложного типа распределения вероятно стей (как и маргинальное правдоподобие капюшон ). Фактически, если априорное распределение является сопряженным априорным, и, следовательно, априорное и апостериорное распределение происходит из одного семейства, легко из заметить, что как априорные, так и апостериорные предсказательные предсказательные распределения также соответствуют одному и тому же составному составному распределению. Единственное отличие состоит в том, что апостериорное прогнозное распределение использует обновленные значения гиперпараметров (применяя правила байесовского обновления, приведенные в сопряженной предыдущей статье ), в то время как предыдущее прогнозное распределение использует значения гиперпараметров, которые появляются в предварительном распределении.

Заключение по исключительным и исчерпывающим возможностям

Если свидетельство одновременных используемых обновлений по набору исключительных и исчерпывающих утверждений, можно рассматривать как действующее на это исследование в целом.

Общая формулировка

Схема, иллюстрирующая пространство событий

Ω {\ displaystyle \ Omega}

\ Omega

в общей формулировке байесовского вывода. Хотя эта диаграмма показывает дискретные модели и события, непрерывный случай может быть визуализирован аналогичным образом с использованием плотностей вероятностей.

Предположим, что процесс генерирует независимые и одинаково распределенные события $E n, n = 1, 2, 3,… {\ displaystyle E_ {n}, \, \, n = 1,2,3, \ ldots }$ ${\ displaystyle E_ {n}, \, \, n = 1,2, 3, \ ldots}$ , но распределение вероятностей неизвестно. Пусть пространство событий $Ω {\ displaystyle \ Omega}$ $\ Omega$ представляет текущее состояние иммунений для этого процесса. Каждая модель представлена присутствием $M m {\ displaystyle M_ {m}}$ $M_ {m}$ . Условные вероятности $P (E n ∣ M m) {\ displaystyle P (E_ {n} \ mid M_ {m})}$ $P (E_ {n} \ mid M_ {m})$ указаны для определения моделей. $P (M m) {\ displaystyle P (M_ {m})}$ $P (M_ {m})$ - степень веры в $M m {\ displaystyle M_ {m}}$ $M_ {m}$ . Перед первым шагом $\ {P (M_ {m}) \}$ представляет собой набор начальных априорных вероятностей. {P (M m)} {\ displaystyle \ {P (M_ {m}) \}} Сумма должна быть равна 1, но в остальном они произвольны.

Предположим, что в процессе наблюдается генерация $E ∈ {E n} {\ displaystyle \ textstyle E \ in \ {E_ {n} \}}$ $\ textstyle E \ in \ {E_ {n} \}$ . Для каждого $M ∈ {M m} {\ displaystyle M \ in \ {M_ {m} \}}$ $M\in \ {M_ {m} \}$ предыдущий $P (M) {\ displaystyle P (M)}$ $P (M)$ обновляется до заднего $P (M ∣ E) {\ displaystyle P (M \ mid E)}$ $P (M \ mid E)$ . Из теоремы Байеса :

P (M ∣ E) = P (E ∣ M) ∑ m P (E ∣ M m) P (M m) ⋅ P (M) {\ displaystyle P (M \ mid E)) = {\ frac {P (E \ mid M)} {\ sum _ {m} {P (E \ mid M_ {m}) P (M_ {m})}}} \ cdot P (M)}

P (M \ mid E) = {\ frac {P (E \ mid M)} {\ sum _ {m} {P (E \ mid M_ {m}) P (M_ {m})}}} \ cdot P (M)

После наблюдения дополнительных доказательств эта процедура может быть повторена.

Множественные наблюдения

Для наблюдения независимых и одинаково распределенных наблюдений $E = (e 1,…, en) {\ displaystyle \ mathbf {E} = ( e_ {1}, \ dots, e_ {n})}$ $\ mathbf {E} = (e_ {1}, \ dots, e_ {n})$ , можно показать по индукции, что повторное применение вышеуказанного эквивалентно

P (M ∣ E) = P (Е ∣ М) ∑ м п (Е ∣ М м) п (М м) ⋅ п (M) {\ Displaystyle P (M \ mid \ mathbf {E}) = {\ frac {P (\ mathbf {E} \ mid M)} {\ sum _ {m} {P (\ mathbf {E} \ mid M_ {m}) P (M_ {m})}}} \ cdot P (M)}

P (M \ mid \ mathbf {E}) = {\ frac {P (\ mathbf {E} \ mid M)} {\ sum _ {m} {P (\ mathbf {E} \ mid M_ {m}) P (M_ {m})}}} \ cdot P (M)

Где

P (E ∣ M) = ∏ k P (ek ∣ M). {\ displaystyle P (\ mathbf {E} \ mid M) = \ prod _ {k} {P (e_ {k} \ mid M)}.}

P (\ mathbf {E} \ mid M) = \ prod _ {k} { P (e_ {k} \ mid M)}.

Параметрическая формулировка

путем параметрической формулы пространства моделей, вера во все модели может быть обновлена за один шаг. Распределение по пространству модели рассматривать как распределение по пространству параметрам. Распределения в этом разделе выражены как непрерывные, представленные плотностью вероятностей, поскольку это обычная ситуация. Однако этот метод в равной применимости к дискретным распределениям.

Пусть вектор $θ {\ displaystyle \ mathbf {\ theta}}$ $\ mathbf {\ theta}$ охватывает пространство параметров. Пусть начальное априорное распределение по $θ {\ displaystyle \ mathbf {\ theta}}$ $\ mathbf {\ theta}$ будет $p (θ ∣ α) {\ displaystyle p (\ mathbf {\ theta} \ mid \ mathbf {\ alpha})}$ $p (\ mathbf {\ theta} \ mid \ mathbf {\ alpha})$ , где $α {\ displaystyle \ mathbf {\ alpha}}$ $\ mathbf {\ alpha}$ - это набор параметров самого предшествующего значения, или гиперпараметры. Пусть $E = (e 1,…, en) {\ displaystyle \ mathbf {E} = (e_ {1}, \ dots, e_ {n})}$ $\ mathbf {E} = (e_ {1}, \ dots, e_ {n})$ будет последовательностью независимые и одинаково распределенные наблюдения за событиями, где все $ei {\ displaystyle e_ {i}}$ $e_ {i}$ распределяются как $p (e ∣ θ) {\ displaystyle p (e \ mid \ mathbf {\ theta})}$ $p (e \ mid \ mathbf {\ theta})$ для некоторого $θ {\ displaystyle \ mathbf {\ theta}}$ $\ mathbf {\ theta}$ . Теорема Байеса применяемого для нахождения апостериорного распределения над $θ {\ displaystyle \ mathbf {\ theta}}$ $\ mathbf {\ theta}$ :

p (θ ∣ E, α) = p (E ∣ θ, α) p (E ∣ α) ⋅ p (θ ∣ α) знак равно п ( Е ∣ θ, α) ∫ п (E | θ, α) п (θ ∣ α) d θ ⋅ п (θ ∣ α) {\ Displaystyle {\ begin {выровнено} p (\ mathbf {\ theta} \ mid \ mathbf {E}, \ mathbf {\ alpha}) = {\ frac {p (\ mathbf {E} \ mid \ mathbf {\ theta}, \ mathbf {\ alpha})} {p (\ mathbf {E} \ mid \ mathbf {\ alpha})}} \ cdot p (\ mathbf {\ theta} \ mid \ mathbf {\ alpha}) \\ = {\ frac {p (\ mathbf {E} \ середина \ mathbf { \ theta}, \ mathbf {\alpha})} {\ int p (\ mathbf {E} | \ mathbf {\ theta}, \ mathbf {\ alpha}) p (\ mathbf {\ theta} \ mid \ mathbf {\ alpha}) \, d \ mathbf {\ theta}}} \ cdot p (\ mathbf {\ theta} \ mid \ mathbf {\ alpha}) \ end {выровнено}}

{\ отображает tyle {\ begin {align} p (\ mathbf {\ theta} \ mid \ mathbf {E}, \ mathbf {\ alpha}) = {\ frac {p ( \ mathbf {E} \ mid \ mathbf {\ theta}, \ mathbf {\ alpha})} {p (\ mathbf {E} \ mid \ mathbf {\ alpha})}} \ cdot p (\ mathbf {\ theta } \ mid \ mathbf {\ alpha}) \\ = {\ frac {p (\ mathbf {E} \ mid \ mathbf {\ theta}, \ mathbf {\ alpha})} {\ int p (\ mathbf { E} | \ mathbf {\ theta}, \ mathbf {\ alpha}) p (\ mathbf {\ theta} \ mid \ mathbf {\ alpha}) \, d \ mathbf {\ theta}}} \ cdot p (\ mathbf {\ theta} \ mid \ mathbf {\ alpha}) \ end {align}}}

где

p (E ∣ θ, α) = ∏ кп (эк ∣ θ) {\ displaystyle p (\ mathbf {E} \ mid \ mathbf {\ theta}, \ mathbf {\ alpha}) = \ prod _ {k} p (e_ {k} \ mid \ mathbf { \ theta})}

p (\ mathbf {E} \ mid \ mathbf {\ theta}, \ mathbf {\ alpha}) = \ prod _ {k} p (e_ {k} \ mid \ mathbf {\ theta})

Математические свойства

Интерпретация фактора

$P (E ∣ M) P (E)>1 ⇒ P (E ∣ M)>P (E) {\ displaystyle \ textstyle {\ гидроразрыва {P (E \ mid M)} {P (E)}}>1 \ Rightarrow \ textstyle P (E \ mid M)>P (E)}$ $\textstyle {\frac {P(E\mid M)}{P(E)}}>1 \ Rightarrow \ textstyle P (E \ mid M)>P (E)$ . То есть, если бы модель была верной, была предсказана более вероятными, чем предсказуемо текущим состоявшимся убийством. меняется, $п (E ∣ M) P (E) = 1 ⇒ P (E ∣ M) = P (E) {\ displaystyle \ textstyle {\ frac {P (E \ mid M)} {P (E)}} = 1 \ Rightarrow \ textstyle P (E \ mid M) = P (E)}$ $\ textstyle {\ frac {P (E \ mid M)} {P (E)}} = 1 \ Rightarrow \ textstyle P (E \ mid M) = P (E)$ . То есть доказывает не зависит от модели. Если бы модель была верной, были доказательства бы столь же вероятными, как предсказывает текущее состояние веры.

Правило Кромвеля

Если $P (M) = 0 {\ displaystyle P (M) = 0}$ $P (M) = 0$ , то $P (M ∣ E) Знак равно 0 {\ Displaystyle P (M \ mid E) = 0}$ $P (M \ mid E) = 0$ . Если $P (M) = 1 {\ displaystyle P (M) = 1}$ $P (M) = 1$ , то $P (M | E) = 1 {\ displaystyle P (M | E) = 1 }$ $P(M|E)=1$ . Это можно интерпретировать как то, что суровые приговоры нечувствительны к контрдоказательствам.

Первое следует непосредственно из теоремы Байеса. Последнее можно получить, применив первое правило к событию «не $M {\ displaystyle M}$ $M$ » вместо « $M {\ displaystyle M}$ $M$ . ", уступая", если $1 - P (M) = 0 {\ displaystyle 1-P (M) = 0}$ $1-P (M) = 0$ , то $1 - P (M ∣ E) = 0 {\ displaystyle 1-P (M \ mid E) = 0}$ $1-P (M \ mid E) = 0$ ", откуда немедленно следует результат.

Асимптотическое поведение апостериорного

Рассмотрим распределение поведения обвинений, поскольку оно обновляется большое количество раз с помощью независимых и одинаково распределенных испытаний. 465>независимо от исходной априорной вероятности при некоторых условиях, описанных впервые. И строго доказано Джозефом Л. Дубом в 1948 году, а именно, если рассматриваемая случайная величина имеет конечное вероятностное пространство. Более общие результаты были получены позже статистиком Дэвидом А. Фридманом, который опубликовал две основополагающие исследоват ельские работы в 1963 и 1965 годах, когда и при обстоятельствах гарантируется асимптотическое поведение апостериорного распределения. Его статья 1963 года, как и Дуб (1949), рассматривает конечный случай и приходит к удовлетельному заключению. Однако, если случайная величина имеет бесконечное, но счетное вероятностное пространство (т. Е. Соответствующее кубику с бесконечным множеством граней), статья 1965 года демонстрирует, что для плотного подмножества априорных значений Бернштейна-фон Мизеса Теорема неприменима. В этом случае почти наверняка нет асимптотической сходимости. Позже, в 1980-х и 1990-х годах Фридман и Перси Диаконис продолжили работу над случаем бесконечных счетных вероятностных пространств. Подводя итог, может быть недостаточно испытаний, чтобы подавить эффекты собственного выбора, и особенно для больших (но конечных) систем сходимость может быть очень медленной.

Конъюгированные приоры

В параметризованной форме часто возникают проблемы с распределением, называемых конъюгированных приоров. Полезность сопряженного априорного распределения заключается в том, что соответствующее апостериорное распределение будет в том же семействе, и расчет может быть выражен в закрытой форме.

Оценки параметров и прогнозы

Часто желательно использовать апостериорное распределение для оценки параметров или вариант. Несколько методов байесовской оценки выбирают измерения центральной тенденции из апостериорного распределения.

Для одномерных задач существует уникальная медиана для практических непрерывных задач. Апостериорная медиана привлекательна как робастная оценка.

Если существует конечное среднее для апостериорного распределения, то апостериорное среднее методом оценки.

θ ~ = E ⁡ [θ] = ∫ θ п (θ ∣ Икс, α) d θ {\ Displaystyle {\ тильда {\ theta}} = \ operatorname {E} [\ theta] = \ int \ theta \, p (\ theta \ mid \ mathbf {X}, \ alpha) \, d \ theta}

{\ displaystyle {\ tilde {\ theta}} = \ operatorname {E} [\ theta] = \ int \ theta \, p (\ theta \ mid \ mathbf {X}, \ alpha) \, d \ theta}

Выбор значения с наибольшей вероятностью определяет максимальные апостериорные (MAP) оценки:

{θ MAP} ⊂ arg ⁡ max θ p (θ ∣ X, α). {\ displaystyle \ {\ theta _ {\ text {MAP}} \} \ subset \ arg \ max _ {\ theta} p (\ theta \ mid \ mathbf {X}, \ alpha).}

\ {\ theta _ {\ text {MAP}} \} \ subset \ arg \ max _ {\ theta} р (\ theta \ mid \ mathbf {X}, \ alpha).

Есть примеры, когда максимум не достигается, в этом случае набор оценок MAP пуст.

Существуют и другие методы оценки, которые минимизируют апостериорный риск (ожидаемые-апостериорные потери) по отношению к функция потерь, и они представляют интерес для теории статистических решений с использованием выборочного распределения («частотная статистика»).

апостериорное прогнозирующее распределение нового наблюдения $x ~ {\ displaystyle {\ tilde {x}}}$ ${\ tilde {x}}$ (которое не зависит от предыдущих наблюдений) определяется как

p (x ~ | X, α) = ∫ p (x ~, θ ∣ X, α) d θ = ∫ p (x ~ ∣ θ) p (θ ∣ X, α) d θ. {\ Displaystyle р ({\ тильда {x}} | \ mathbf {X}, \ alpha) = \ int p ({\ tilde {x}}, \ theta \ mid \ mathbf {X}, \ alpha) \, d \ theta = \ int p ({\ tilde {x}} \ mid \ theta) p (\ theta \ mid \ mathbf {X}, \ alpha) \, d \ theta.}

{\ displaystyle p ({\ tilde {x}} | \ mathbf {X}, \ alpha) = \ int p ({\ tilde {x}}, \ theta \ mid \ mathbf { X}, \ alpha) \, d \ theta = \ int p ({\ tilde {x}} \ mid \ theta) p (\ theta \ mid \ mathbf {X}, \ альфа) \, d \ theta.}

Примеры

Вероятность гипотезы

Таблица непредвиденных обстоятельств
Чаша. Печенье		#1	#2	. Итого
Чаша. Печенье		H1	H2	. Итого
Простая	E	30	20	50
Шоколад	¬E	10	20	30

Итого		40	40	80
P (H 1 \| E) = 30/50 = 0,6

Предположим, есть две полные тарелки печенья. В чаше № 1 есть 10 шоколадных крошек и 30 простых печений, а в чаше № 2 - по 20 штук каждого вида. Наш друг Фред выбирает наугад миску, а затем наугад выбирает печенье. Мы предполагаем, что нет никаких оснований полагать, что Фред относится к одной миске иначе, чем к другому, как и к печеньям. Печенье оказывается обычным. Насколько вероятно, что Фред взял его из чаши №1?

Интуитивно кажется очевидным, что ответ должен быть больше половины, так как в чаше №1 простого печенья больше. Точный ответ дает теорема Байеса. Пусть $H 1 {\ displaystyle H_ {1}}$ $H_ {1}$ соответствует чаше №1, а $H 2 {\ displaystyle H_ {2}}$ $H_ {2}$ - чаше №2.. Предполагается, что чаши идентичны с точки зрения Фреда, поэтому $P (H 1) = P (H 2) {\ displaystyle P (H_ {1}) = P (H_ {2})}$ $P (H_ {1}) = P (H_ {2})$ , и эти два должны в сумме составлять 1, поэтому оба равны 0,5. Событие $E {\ displaystyle E}$ $E$ - это наблюдение за обычным файлом cookie. Из содержимого чаш мы знаем, что $P (E ∣ H 1) = 30/40 = 0,75 {\ displaystyle P (E \ mid H_ {1}) = 30/40 = 0,75}$ $P (E \ mid H_ {1}) = 30/40 = 0,75$ и $P (E ∣ H 2) = 20/40 = 0,5. {\ displaystyle P (E \ mid H_ {2}) = 20/40 = 0,5.}$ $P (E \ mid H_ {2 }) = 20 /40=0.5.$ Формула Байеса дает

P (H 1 ∣ E) = P (E ∣ H 1) P (H 1) P (EEH 1) P (H 1) + P (E ∣ H 2) P (H 2) = 0,75 × 0,5 0,75 × 0,5 + 0,5 × 0, 5 = 0,6 {\ displaystyle {\ begin {выровнено} P (H_ {1} \ mid E) = {\ frac {P (E \ mid H_ {1}) \, P (H_ {1})} {P (E \ mid H_ {1}) \, P (H_ {1}) \; + \; P (E \ mid H_ {2}) \, P (H_ {2})}} \\\\\ = {\ frac {0,75 \ times 0,5} {0,75 \ times 0,5 + 0,5 \ times 0,5}} \\\\\ = 0,6 \ end {align}}}

{\ begin {выровнено } P (H_ {1} \ mid E) = {\ гидроразрыв {P (E \ mid H_ {1}) \, P (H_ {1})} {P (E \ mid H_ {1}) \, P (H_ {1}) \; + \; P (E \ mid H_ {2}) \, P (H_ {2})}} \\\\\ = {\ frac {0,75 \ times 0,5} {0,75 \ times 0,5 + 0,5 \ times 0,5 }} \\\ \\ = 0,6 \ конец {выровненный}}

До того, как мы наблюдали за файлом cookie, вероятность, которую мы присвоили Фреду, выбравшему чашу № 1, была априорной вероятностью, $P (H 1) {\ displaystyle P (H_ {1})}$ $P (H_ {1 })$ , что было 0,5. После наблюдения за файлом cookie мы должны пересмотреть вероятность до $P (H 1 ∣ E) {\ displaystyle P (H_ {1} \ mid E)}$ $P (H_ {1} \ mid E)$ , что составляет 0,6.

Делаем прогноз

Пример результатов для примеров археологии. Это моделирование было создано с использованием c = 15.2.

Археолог работает на месте, которое, как считается, относится к средневековому периоду, между 11-м и 16-м веками. Однако точно неизвестно, когда именно в этот период это место было заселено. Найдены фрагменты глиняной посуды, некоторые из них глазированные, а некоторые украшенные. Если бы этот участок был заселен в период раннего средневековья, то 1% керамики был бы покрыт глазурью и 50% его площади украшали бы, тогда как если бы он был заселен в период позднего средневековья, то 81% был бы застеклен и 5 % его площади оформлено. Насколько точно археолог может быть уверен в дате заселения при обнаружении фрагментов?

Степень уверенности в непрерывной переменной $C {\ displaystyle C}$ $C$ (век) должна быть вычислена с дискретным набором событий ${GD, GD ¯, G ¯ D, G ¯ D ¯} {\ displaystyle \ {GD, G {\ bar {D}}, {\ bar {G}} D, {\ bar {G}} {\ bar {D}} \}}$ $\ {GD, G {\ bar {D}}, {\ bar {G}} D, {\ bar {G }} {\ bar {D}} \}$ в качестве доказательства. Предполагаемая линейное изменение глазури и декора во времени и что переменные независимые,

P (E = GD ∣ C = c) = (0,01 + 0,81 - 0,01 16-11 (c - 11)) ( 0,5 - 0,5 - 0,05 16 - 11 (c - 11)) {\ Displaystyle P (E = GD \ mid C = c) = (0,01 + {\ frac {0,81-0.01} {16-11}} (c-11)) (0,5 - {\ frac {0,5-0,05} {16-11}} (c-11))}

{\ displaystyle P (E = GD \ mid C = c) = (0,01 + {\ frac {0.81-0.01} {16-11}} (c-11)) (0,5 - {\ frac {0,5-0,05} {16-11}} (c-11))}

P (E = GD ¯ ∣ C = c) = (0,01 + 0,81 - 0,01 16 - 11 (c - 11)) (0,5 + 0,5 - 0,05 16-11 (c - 11)) { \ Displaystyle P (E = G {\ bar {D}} \ mid C = c) = (0,01 + {\ frac {0,81-0,01} {16-11}} (c-11)) (0,5 + {\ frac {0,5-0,05} {16-11}} (c-11))}

{\ displaystyle P (E = G {\ bar {D}) } \ mid C = c) = (0,01 + {\ frac {0.81-0.01} {16-11}} (c-11)) (0.5 + {\ frac {0.5-0.05} {16-11}} (c-11))}

P (E = G ¯ D ∣ C = c) = ((1 - 0,01) - 0,81 - 0,01 16-11 (c - 11)) (0,5 - 0,5 - 0,05 16-11 (c - 11)) {\ displaystyle P (E = { \ bar {G})} D \ mid C = c) = ((1-0.01) - {\ frac {0.81-0.01} {16-11}} (c-11)) (0.5 - {\ frac {0.5 -0.05} {16- 11}} (c-11))}

{ \ Displaystyle P (E = {\ bar {G}} D \ mid C = c) = ((1-0.01) - {\ frac {0.81-0.01} {16-11}} ( c-11)) (0,5 - {\ frac {0,5-0,05} {16-11}} (c-11))}

P (E = G ¯ D ¯ ∣ C = c) = ((1 - 0,01) - 0,81 - 0,01 16 - 11 (c - 11)) (0,5 + 0,5 - 0,05 16 - 11 (c - 11)) {\ displaystyle P (E = {\ bar {G}} {\ bar {D}}) \ mid C = c) = ((1-0,0 1) - {\ frac {0,81-0,01} {16 -11}} (c-11)) (0,5 + {\ frac {0,5-0,05} {16-11}} (c-11)) }

{\ displaystyle P (E = {\ bar {G}} {\ bar {D}} \ mid C = c) = ((1-0.01) - {\ frac {0.81-0.01} {16-11}} (c-11)) (0.5 + {\ frac {0.5-0.05} {16-11}} (c-11))}

Предположим, предварительная единообразие $f C (c) = 0,2 {\ displaystyle \ textstyle f_ {C} (c) = 0,2}$ $\ textstyle f_ {C} (c) = 0,2$ , и что испытания Независимы и одинаково распределены. Когда обнаруживается новый фрагмент типа $e {\ displaystyle e}$ $e$ , применяется теорема Байеса для обновления степени уверенности для каждого $c {\ displaystyle c}$ $c$ :

$f C (c ∣ E = e) = P (E = e ∣ C = c) P (E = e) f C (c) = P (E = e ∣ C = c) ∫ 11 16 P (E = e ∣ C = c) е C ( c) dcf C (c) {\ displaystyle f_ {C} (c \ mid E = e) = {\ frac {P (E = e \ mid C = c)} {P (E = e)}} f_ { C} (c) = {\ frac {P (E = e \ mid C = c)} {\ int _ {11} ^ {16} {P (E = e \ mid C = c) f_ {C} ( c) dc}}} f_ {C} (c)}$ $f_ {C} (c \ mid E = e) = {\ fra c {P (E = e \ mid C = c)} {P (E = e)}} f_ {C} (c) = {\ frac {P (E = e \ mid C = c)} {\ int _ {11} ^ {16} {P (E = e \ mid C = c) f_ {C} (c) dc}}} f_ {C} (c)$

На графике показано компьютерное моделирование изменяющейся веры при обнаружении 50 фрагментов. В моделировании сайт был заселен примерно в 1420 году, или $c = 15,2 {\ displaystyle c = 15.2}$ $c = 15,2$ . Археолог может сказать, что практически нет шансов, что оно заселено в XI и XII веках, примерно с 1% вероятности, что оно было заселено в XIII веке 63.% вероятности в 14 веке. 36% в 15 веке. Теорема Бернштейна-фон Мизеса утверждает здесь асимптотическую сходимость к «истинному» распределению, поскольку вероятностное пространство соответствует дискретному набору событий ${GD, GD ¯, G ¯ D, G ¯ D ¯} {\ displaystyle \ {GD, G {\ bar {D}}, {\ bar {G}} D, {\ bar {G}} {\ bar {D}} \}}$ $\ {GD, G {\ bar {D}}, {\ bar {G}} D, {\ bar {G }} {\ bar {D}} \}$ конечно (см. Выше раздел об асимптотическом поведении апостериорной функции).

В частотной статистике и теории принятия решений

A теории принятия решений обоснование использования байесовского вывода было дано Абрахамом Вальдом, который доказал, что каждая уникальная байесовская процедура допустимый. И наоборот, каждая допустимая статистическая процедура является либо байесовской процедурой, либо пределом байесовских процедур.

Вальд охарактеризовал допустимые процедуры как байесовские процедуры (и пределы байесовских процедур), делая байесовский формализм центральный метод в таких областях частотного вывода, как оценка параметров, проверка гипотез и вычисление доверительных интервалов. Например:

«При некоторых условиях все допустимые процедуры являются либо байесовскими процедурами, либо ограничениями байесовских процедур (в различных смыслах). Эти замечательные результаты, по крайней мере в их первоначальной форме, в основном принадлежат Вальду. Они полезны, потому что свойство быть байесовским легче проанализировать, чем допустимость. "
" В теории принятия решений довольно общий метод доказательства допустимости состоит в демонстрации процедуры как уникального байесовского решения. "
" В первых главах этой работы априорные распределения с конечным носителем и соответствующие процедуры Байеса использовались для установления некоторых основных теорем, касающихся сравнения экспериментов. Байесовские процедуры по отношению к более общим априорным распределениям сыграли очень важную роль в развитие статистики, в том числе ее асимптотической теории ». «Есть много проблем, когда взгляд на апостериорные распределения для подходящих априорных значений сразу дает интересную информацию. Кроме того, этого метода вряд ли можно избежать при последовательном анализе».

«Полезный факт заключается в том, что любое правило Байеса, полученное путем принятия должный априор по всему пространству параметров должен быть допустимым "
" Важной областью исследования в развитии идей допустимости было исследование традиционных процедур теории выборки, и было получено много интересных результатов. "

Выбор модели

Байесовская методология также играет роль в выборе модели, где цель состоит в том, чтобы выбрать одну модель из набора конкурирующих моделей, которая наиболее точно представляет основной процесс, который генерировал наблюдаемые данные. При сравнении байесовских моделей выбирается модель с наивысшей апостериорной вероятностью для данных. Апостериорная вероятность модели зависит от свидетельства или предельного правдоподобия, которое отражает вероятность того, что данные генерируются моделью и на основе априорного убеждения модели. Когда две конкурирующие модели априори считаются равновероятными, отношение их апостериорных вероятностей соответствует байесовскому фактору. Сравнение сравнения байесовских моделей направлено на выбор модели с наивысшей апостериорной вероятностью, эта методология также упоминается как правило максимального апостериорного выбора (MAP) или правило вероятности MAP.

Вероятностное программирование

Хотя байесовские методы концептуально просты, они могут быть сложными математически и численно. Вероятностные языки программирования (PPL) реализуют функции простого построения байесовских моделей вместе с эффективными методами автоматического вывода. Это помогает создать модели от логических выводов, позволяя практикам сосредоточиться на своих конкретных проблемах и оставляя PPL для обработки вычислительных деталей за них.

Приложения

Компьютерные приложения

Байесовский вывод находит применение в искусственном интеллекте и экспертных систем. Байесовские методы вывода были фундаментальной частью компьютеризированных методов распознавания образов с конца 1950-х годов. Существует также постоянно растущая связь между байесовскими методами и методами моделирования Монте-Карло, поскольку сложные модели не могут быть обработаны в закрытой форме с помощью байесовского анализа, в то время как структура графической модели может позволяют использовать эффективные алгоритмы моделирования, такие как выборка Гиббса и другие схемы алгоритма Метрополиса - Гастингса. Недавно байесовский вывод приобрел популярность в сообществе филогенетиков для этих причин; ряд приложений позволяет одновременно оценивать многие демографические и эволюционные параметры.

Применительно к статистической классификации, байесовский вывод использовался для разработки алгоритмов идентификации спама в электронной почте. Приложения, которые используют байесовский вывод для фильтрации спама, включают CRM114, DSPAM, Bogofilter, SpamAssassin, SpamBayes, Mozilla, XEAMS и другие. Классификация спама более подробно рассматривается в статье о наивном байесовском классификаторе.

Индуктивный вывод Соломонова - это теория предсказания, основанная на наблюдениях; например, предсказание следующего символа на основе заданной серии символов. Единственное предположение состоит в том, что окружающая среда следует некоторому неизвестному, но вычислимому распределению вероятностей. Это формальная индуктивная структура, сочетающаяся два хорошо изученных индуктивного вывода: байесовскую статистику и бритву Оккама. Универсальная априорная вероятность Соломонова любого префикса p вычислимой последовательности x - это сумма вероятностей всех программ (для универсального компьютера), которые вычисляют что-то, начинающееся с p. Из которого можно использовать универсальные априорную теорему и теорему, прогнозируемые предсказания еще невидимых частей x.

Приложения в области биоинформатики и здравоохранения

Байесовский вывод применен в различных приложениях биоинформатики, включая анализ дифференциальной экспрессии генов. Байесовский вывод также используется в общей модели риска рака, называемой CIRI (непрерывный индивидуальный индекс риска), где серийные измерения включены для обновления байесовской модели, которая в основном построена на основе предшествующих знаний.

В зале суда

байесовский вывод может использовать присяжными для последовательного накопления доказательств и против обвиняемого, а также для проверки соответствует ли он в целом их личному порогу для вне разумных сомнений. '. Теорема Байеса последовательно выполняющие следующие действия. Преимущество байесовского подхода в том, что он дает присяжным беспристрастный и рациональный механизм для объединения доказательств. Возможно, будет уместно объяснить присяжным теорему Байеса в форме шансы, поскольку ставки понимаются более широко, чем вероятности. В качестве альтернативы для жюри может быть проще использовать логарифмический подход , заменяющий умножение сложением.

Сложение доказательств.

Если существование преступления не вызывает сомнений, только личность виновника, было предложено предварительное мнение было одинаковым для квалифицированного населения. Например, если бы преступление могло совершить 1000 человек, априорная вероятность вины была бы 1/1000.

Использование теоремы Байеса присяжными является спорным. В Соединенном Королевстве защитник эксперт-свидетель объяснил присяжным теорему Байеса по делу Р против Адамса. Присяжные признали виновным, но дело было обжаловано на основании, что присяжным, не желавшим использовать теорему Байеса, не было предоставлено никаких средств для сбора доказательств. Апелляционный суд оставил приговор в силе, но также высказал мнение, что «введение методов лечения» или любого подобного метода в уголовный процесс погружает присяжных в неуместные и ненужные области теории и сложности, отвлекая их от их надлежащей задачи.. "

Гарднер-Медвин утверждает, что критерием, на котором должен быть приговор по уголовному делу, является не вероятность виновности, а скорее вероятность доказательства, учитывая, что обвиняемый невиновен (сродни частотник p-значение ). Он утверждает, что если апостериорная вероятность должна быть вычислена по теореме Байеса, это будет зависеть от частоты совершения преступления, что является необычным доказательством для рассмотрения в уголовном процессе. Рассмотрим следующие три утверждения:

AИзвестные факты и свидетельские показания произошедшего, если подсудимый показен

BИзвестные факты и свидетельства виновника произошедшего, если подсудимый невиновен

CПодсудимый виновен.

Гарднер. -Медвин утверждает, что присяжные A и не-B подразумевают истинность C, но обратное неверно, что B и C правы, но в этом слу чае он утверждает, что присяжные должны оправдать, даже если они знают, что они отпустят некоторых людей. См. Также парадокс Линдли.

Байесовская эпистемология

Байесовская эпистемология - это движение, которое защитесовский вывод как средство обоснования правил индуктивной логики.

Карл Поппер и Дэвид Миллер отвергли идею байесовского рационализма, т.е. Использование правил использования эпистемологических выводов: он подвержен тому же порочному кругу, что и другой другой юстифонистская эпистемология, потому что она предполагает то, что пытается оправдать. Согласно этой точке зрения, рациональная интерпретация вывода будет рассматривать его просто как вероятностную версию фальсификации, отвергая широко распространенное среди байесовцев мнение о том, что высокая вероятность, достигаемая с помощью ряда байесовских обновлений, что гипотеза вне разумных сомнений или даже с вероятностью больше 0.

Другое

научный метод иногда интерпретируется как применение байесовского вывода. С этой точки зрения правило Байеса направляет вероятностей относительно , гипотез, обусловленных новыми наблюдениями или экспериментами. Байесовский вывод также применяется для решения проблем стохастического планирования с неполной информацией Cai et al. (2009).
Байесовская теория поиска используется для поиска потерянных объектов.
Байесовский вывод в филогении
Байесовский инструмент для анализа метилирования
Байесовские подходы к функциям мозга исследуют мозг как байесовский механизм.
Байесовский вывод в экологических исследованиях
Байесовский вывод используется для оценки параметров стохастических химических кинетических моделей
Байесовский вывод в эконофизике для валюты или прогноз фондового рынка

Байесовский и байесовский вывод

Проблема, рассмотренная Байесом в предложении 9 его эссе, «Эссе для решения проблемы в Доктрине Шансов », апостериорным распределением для степени a (степень успеха) биномиального распределения.

История

Термин байесовский относится к Томасу Байесу (1702–1761), который доказал, что вероятностные пределы могут быть наложены на неизвестное событие. Пьер-Симон Лаплас (1749–1827) представил (как Принцип VI) то, что сейчас называется теоремой Байеса, и использовал ее для решения проблем в астрономии. Механика, медицинская статистика, надежность и юриспруденция. байесовский вывод, в котором использовались единые априорные значения в соответствии с принципом недостаточной причины Лапласа, был назван «обратной вероятностью » (поскольку он выводит в обратном направлении от наблюдений к параметрам или от следствий к причинам). После 1920-х годов «обратная вероятность» была в степени вытеснена набором методов, которые стали называть частотной статистикой.

. В 20-м веке идеи Лапласа получили дальнейшее развитие в двух разных направлениях, что привело к объективной и субъективные течения в байесовской практике. В объективном или «неинформативном» потоке статистический анализ зависит только от предполагаемой модели, проанализированные данные и метод, присваивающее априорное значение, которое отличается от одного объективного практикующего байесовского метода к другому. В субъективном или «информативном» потоке спецификации априорного мнения зависит от убеждения (т. Е. Предположений, на основании готового действовать анализ), которое может обобщать информацию от экспертов, предыдущих исследований и т. Д.

В 1980-х годах наблюдался резкий рост исследований и приложений байесовских методов, в основном связанный с открытием методов Монте-Карло с цепью Маркова, которые устранили многие вычислительные проблемы и растущий интерес к нестандартным, сложные приложения. Несмотря на рост байесовских исследований, большая часть обучения в бакалавриате по-прежнему на основе частотной статистике. Тем не менее, байесовские методы широко приняты и используются, например, в области машинного обучения.

См. Также

Ссылки

Цитаты

Источники

Дополнительная литература

Для получения полного отчета по истории Байесовская статистика и дебаты с частотными подходами, прочтите Валлверду, Хорди (2016). Байесовцы и частотники. Философские дебаты о статистических рассуждениях. Нью-Йорк: Спрингер. ISBN 978-3-662-48638-2.

Элементарный

Следующие книги через в порядке возрастания вероятностной сложности:

Stone, JV (2013), «Правило Байеса: Введение в байесовский анализ », Загрузите первую главу здесь, Sebtel Press, England.
Деннис В. Линдли (2013). Понимание неопределенности, переработанное издание (2-е изд.). Джон Вили. ISBN 978-1-118-65012-7.
Колин Хоусон и Питер Урбах (2005). Научное обоснование: байесовский подход (3-е изд.). Издательская компания «Открытый суд». ISBN 978-0-8126-9578-6.
Берри, Дональд А. (1996). Статистика: байесовская перспектива. Даксбери. ISBN 978-0-534-23476-8.
Моррис Х. ДеГрут и Марк Дж. Шервиш (2002). Вероятность и статистика (третье изд.). Эддисон-Уэсли. ISBN 978-0-201-52488-8.
Болстад, Уильям М. (2007) Введение в байесовскую статистику: второе издание, Джон Уайли ISBN 0-471-27020-2
Винклер, Роберт Л. (2003). Введение в байесовский вывод и решение (2-е изд.). Вероятностный. ISBN 978-0-9647938-4-2.Обновленный классический учебник. Четко представлена байесовская теория.
Ли, Питер М. Байесовская статистика: введение. Четвертое издание (2012 г.), Джон Уайли ISBN 978-1-1183-3257-3
Карлин, Брэдли П. и Луис, Томас А. (2008). Байесовские методы анализа данных, третье издание. Бока-Ратон, Флорида: Чепмен и Холл / CRC. ISBN 978-1-58488-697-6.
Гельман, Эндрю ; Карлин, Джон Б.; Стерн, Хэл С.; Дансон, Дэвид Б.; Вехтари, Аки; Рубин, Дональд Б. (2013). Байесовский анализ данных, третье издание. Чепмен и Холл CRC. ISBN 978-1-4398-4095-5.

Средний или продвинутый

Бергер, Джеймс О (1985). Статистическая теория принятия решений и байесовский анализ. Серия Спрингера в статистике (второе изд.). Springer-Verlag. Bibcode : 1985sdtb.book..... B. ISBN 978-0-387-96098-2.
Бернардо, Хосе М. ; Смит, Адриан Ф. М. (1994). Байесовская теория. Вайли. CS1 maint: ref = harv (ссылка )
ДеГрут, Моррис Х., Оптимальные статистические решения. Wiley Classics Library. 2004. (Первоначально опубликовано (1970) McGraw-Hill.) ISBN 0-471-68029-X.
Schervish, Mark J. (1995). Теория статистики. Springer-Verlag. ISBN 978-0- 387-94546-0.
Джейнс, ET (1998) Теория вероятностей: логика.
О'Хаган, А. и Форстер, Дж. (2003) Продвинутая теория статистики Кендалла, Том 2B: Байесовский вывод. Арнольд, Нью-Йорк. ISBN 0-340-52922-9.
Роберт, Кристиан П. (2001). Байесовский выбор - решение - Теоретическая мотивация (второе изд.). Springer. ISBN 978-0-387-94296-4.
Гленн Шафер и Перл, Иудея, ред. (1988) Вероятностное мышление в интеллектуальных системах, Сан-Матео, Калифорния: Морган Кауфманн.
Пьер Бессьер и др. (2013), «Байесовское программирование », CRC Press. ISBN 9781439880326
Франсис ко Дж. Саманьего (2010), «Сравнение байесовского и частичного подходов к оценке», Спрингер, Нью-Йорк, ISBN 978-1-4419-5940-9

Внешние ссылки

, Энциклопедия математики, EMS Press, 2001 [1994]
Байесовская статистика из Scholarpedia.
Введение в байесовскую вероятность из Лондонского университета Королевы Марии
Математические заметки по байесовской статистике и цепи Маркова Монте-Карло
Байесовский литература, классифицированный и аннотированный список Томом Гриффитсом
А. Hajek и S. Hartmann: байесовская эпистемология, в: J. Dancy et al. (ред.), компаньон по эпистемологии. Оксфорд: Блэквелл 2010, 93-106.
С. Хартманн и Дж. Шпренгер: Байесовская эпистемология, в: С. Бернекер и Д. Притчард (ред.), Routledge Companion to Epistemology. Лондон: Рутледж 2010, 609–620.
Стэнфордская энциклопедия философии: «Индуктивная логика»
Байесовская теория подтверждения
Что такое байесовское обучение?