Парадокс Берксона

редактировать
Пример парадокса Берксона: на рисунке 1 предположим, что талант и привлекательность не связаны между собой в популяции. На рисунке 2 кто-то, отобравший население с использованием знаменитостей, может ошибочно сделать вывод о том, что талант отрицательно коррелирует с привлекательностью, поскольку люди, которые не являются ни талантливыми, ни привлекательными, обычно не становятся знаменитостями.

Парадокс Берксон в, также известном как смещение Берксон в, коллайдере смещение или ошибочность Берксон в, является результатом в условной вероятности и статистике, которая часто оказываются парадоксальными, и, следовательно, правдивым парадоксом. Это усложняющий фактор, возникающий при статистических проверках пропорций. В частности, это возникает, когда есть предвзятость установления, присущая дизайну исследования. Эффект связан с феноменом объяснения в байесовских сетях и условием работы коллайдера в графических моделях.

Его часто описывают в области медицинской статистики или биостатистики, как в оригинальном описании проблемы Джозефом Берксоном.

СОДЕРЖАНИЕ
  • 1 Примеры
    • 1.1 Обзор
    • 1.2 Оригинальная иллюстрация
    • 1.3 Пример Элленберга
    • 1.4 Количественный пример
  • 2 Заявление
    • 2.1 Объяснение
  • 3 См. Также
  • 4 ссылки
  • 5 Внешние ссылки
Примеры

Обзор

Иллюстрация парадокса Берксона. Верхний график представляет фактическое распределение, при котором наблюдается положительная корреляция между качеством гамбургеров и картофеля фри. Однако человек, который не ест в любом месте, где оба являются плохими, наблюдает только распределение на нижнем графике, которое, по-видимому, показывает отрицательную корреляцию.

Наиболее распространенный пример парадокса Берксона - это ложное наблюдение отрицательной корреляции между двумя положительными чертами, т. Е. Того, что члены популяции, у которых есть какая-то положительная черта, как правило, не имеют второй. Парадокс Берксона возникает, когда это наблюдение кажется верным, когда на самом деле эти два свойства не связаны - или даже положительно коррелируют, - потому что члены популяции, в которых оба отсутствуют, наблюдаются неодинаково. Например, человек может на собственном опыте заметить, что рестораны быстрого питания в их районе, где подают хорошие гамбургеры, как правило, подают плохой картофель фри и наоборот; но поскольку они, вероятно, не будут есть там, где оба были плохими, они не учитывают большое количество ресторанов в этой категории, что ослабит или даже изменит корреляцию.

Оригинальная иллюстрация

Оригинальная иллюстрация Берксона включает ретроспективное исследование, изучающее фактор риска заболевания в статистической выборке из популяции стационарных пациентов в больнице. Поскольку образцы берутся у пациентов, находящихся в стационаре, а не у населения в целом, это может привести к ложной отрицательной связи между заболеванием и фактором риска. Например, если фактором риска является диабет, а заболевание - холецистит, больной пациент без диабета с большей вероятностью болеет холециститом, чем член общей популяции, поскольку у пациента, должно быть, не было диабета (возможно, вызывающего холецистит). причина попасть в больницу в первую очередь. Этот результат будет получен независимо от того, существует ли какая-либо связь между диабетом и холециститом в общей популяции.

Пример Элленберга

Пример, представленный Джорданом Элленбергом : предположим, что Алекс будет встречаться с мужчиной только в том случае, если его любезность плюс его красота превышают некоторый порог. Тогда более приятным мужчинам не обязательно быть такими красивыми, чтобы попасть в пул знакомств Алекса. Таким образом, среди мужчин, с которыми встречается Алекс, Алекс может заметить, что более хорошие в среднем менее красивы (и наоборот), даже если эти черты не коррелируют в общей популяции. Обратите внимание, что это не означает, что мужчины в пуле знакомств проигрывают мужчинам в популяции. Напротив, критерий отбора Алекса означает, что у Алекса высокие стандарты. Средний симпатичный мужчина, с которым встречается Алекс, на самом деле более красив, чем средний мужчина в населении (поскольку даже среди хороших мужчин самая уродливая часть населения пропускается). Отрицательная корреляция Берксона - это эффект, который возникает в пуле знакомств: грубые мужчины, с которыми встречается Алекс, должны были быть еще более красивыми, чтобы соответствовать критериям.

Количественный пример

В качестве количественного примера предположим, что у коллекционера есть 1000 почтовых марок, из которых 300 красивых и 100 редких, а 30 одновременно красивых и редких. 10% всех его марок - редкие, а 10% его красивых марок - редкие, поэтому красота ничего не говорит о редкости. Он выставляет на обозрение 370 красивых или редких марок. Чуть более 27% выставленных марок являются редкими (100/370), но все же только 10% симпатичных марок являются редкими (и 100% из 70 выставленных некрасивых марок редки). Если наблюдатель рассматривает только выставленные марки, он обнаружит ложную отрицательную взаимосвязь между красивостью и редкостью в результате смещения выбора (то есть некрасивость строго указывает на редкость на выставке, но не в общей коллекции).

Заявление

Два независимых события становятся условно зависимыми (отрицательно зависимыми) при условии, что хотя бы одно из них происходит. Символически:

Если, и, то. 0 lt; п ( А ) lt; 1 {\ Displaystyle 0 lt;P (A) lt;1} 0 lt; п ( B ) lt; 1 {\ Displaystyle 0 lt;P (B) lt;1} п ( А | B ) знак равно п ( А ) {\ Displaystyle P (A | B) = P (A)} п ( А | B , А B ) lt; п ( А | А B ) {\ Displaystyle P (A | B, A \ чашка B) lt;P (A | A \ cup B)}
  • Событие и событие могут произойти, а могут и не произойти А {\ displaystyle A} B {\ displaystyle B}
  • п ( А | B ) {\ Displaystyle P (A | B)}, условная вероятность, это вероятность наблюдения события при условии, что оно истинно. А {\ displaystyle A} B {\ displaystyle B}
  • Пояснение: Событие и не зависят друг от друга А {\ displaystyle A} B {\ displaystyle B}
  • п ( А | B , А B ) {\ Displaystyle P (A | B, A \ чашка B)}вероятность наблюдения события при условии, что и ( или) происходит. Это также можно записать как А {\ displaystyle A} B {\ displaystyle B} А {\ displaystyle A} B {\ displaystyle B} п ( А | B ( А B ) ) {\ Displaystyle P (A | B \ cap (A \ чашка B))}
  • Объяснение: Вероятность того и другого и ( или) меньше, чем вероятность данного ( или) А {\ displaystyle A} B {\ displaystyle B} А {\ displaystyle A} B {\ displaystyle B} А {\ displaystyle A} А {\ displaystyle A} B {\ displaystyle B}

Другими словами, учитывая два независимых события, если вы рассматриваете только те результаты, в которых происходит хотя бы одно, тогда они становятся отрицательно зависимыми, как показано выше.

Объяснение

Причиной является то, что условная вероятность события происходят, учитывая, что он или происходит, надувают: она выше, чем безусловной вероятности, потому что мы исключили случаи, когда ни происходит. А {\ displaystyle A} B {\ displaystyle B}

п ( А | А B ) gt; п ( А ) {\ Displaystyle P (A | A \ чашка B)gt; P (A)}
условная вероятность завышена относительно безусловной

В табличной форме это можно увидеть следующим образом: желтые области - это результаты, в которых происходит хотя бы одно событие (а ~ A означает «не A »).

А ~ А
B А и Б ~ А и Б
~ B A и ~ B ~ A и ~ B

Например, если есть образец, и оба, и происходят независимо друг от друга половину времени (), получаем: 100 {\ displaystyle 100} А {\ displaystyle A} B {\ displaystyle B} п ( А ) знак равно п ( B ) знак равно 1 / 2 {\ Displaystyle P (A) = P (B) = 1/2}

А ~ А
B 25 25
~ B 25 25

Таким образом, в результатах, либо или происходит, из которых уже происходит. Путем сравнения условной вероятности с безусловной вероятностью: 75 {\ displaystyle 75} А {\ displaystyle A} B {\ displaystyle B} 50 {\ displaystyle 50} А {\ displaystyle A} А {\ displaystyle A} А {\ displaystyle A}

п ( А | А B ) знак равно 50 / 75 знак равно 2 / 3 gt; п ( А ) знак равно 50 / 100 знак равно 1 / 2 {\ Displaystyle P (A | A \ чашка B) = 50/75 = 2/3gt; P (A) = 50/100 = 1/2}

Мы видим, что вероятность выше () в подмножестве исходов, где ( или) происходит, чем в общей популяции (). С другой стороны, вероятность даны как и ( или) просто безусловная вероятность,, так как не зависит от. В числовом примере мы условились находимся в верхнем ряду: А {\ displaystyle A} 2 / 3 {\ displaystyle 2/3} А {\ displaystyle A} B {\ displaystyle B} 1 / 2 {\ displaystyle 1/2} А {\ displaystyle A} B {\ displaystyle B} А {\ displaystyle A} B {\ displaystyle B} А {\ displaystyle A} п ( А ) {\ Displaystyle P (A)} А {\ displaystyle A} B {\ displaystyle B}

А ~ А
B 25 25
~ B 25 25

Здесь вероятность есть. А {\ displaystyle A} 25 / 50 знак равно 1 / 2 {\ displaystyle 25/50 = 1/2}

Парадокс Берксона возникает из-за того, что условная вероятность данного в трехэлементном подмножестве равна условной вероятности в общей популяции, но безусловная вероятность внутри подмножества завышена по сравнению с безусловной вероятностью в общей популяции, следовательно, внутри подмножества наличие уменьшает условную вероятность (обратно к ее общей безусловной вероятности): А {\ displaystyle A} B {\ displaystyle B} B {\ displaystyle B} А {\ displaystyle A}

п ( А | B , А B ) знак равно п ( А | B ) знак равно п ( А ) {\ Displaystyle P (A | B, A \ чашка B) = P (A | B) = P (A)}
п ( А | А B ) gt; п ( А ) {\ Displaystyle P (A | A \ чашка B)gt; P (A)}
Смотрите также
использованная литература
внешние ссылки
Последняя правка сделана 2023-08-10 04:11:50
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте