Отношение шансов

редактировать
Статистика, количественно определяющая связь между двумя событиями

отношение шансов (OR) равно статистика, которая количественно определяет силу ассоциации между двумя событиями, A и B. Отношение шансов определяется как отношение шансов для A в присутствии B и шансы A в отсутствие B или, что эквивалентно (из-за симметрии), отношение шансов B в присутствии A и шансов B в отсутствие A. Два события независимы тогда и только тогда, когда ИЛИ равно 1, т. е. шансы одного события одинаковы как при наличии, так и при отсутствии другого события. Если OR больше 1, то A и B связаны (коррелированы) в том смысле, что, по сравнению с отсутствием B, присутствие B увеличивает шансы A, а симметрично наличие A увеличивает шансы B И наоборот, если OR меньше 1, то A и B имеют отрицательную корреляцию, и наличие одного события снижает вероятность другого события.

Обратите внимание, что отношение шансов симметрично в двух событиях, и не предполагается причинно-следственная направленность (корреляция не подразумевает причинно-следственную связь ): положительное ИЛИ не установить, что B вызывает A, или что A вызывает B.

Две аналогичные статистические данные, которые часто используются для количественной оценки ассоциаций, - это коэффициент риска (RR) и абсолютное снижение риска (ARR). Часто наиболее интересным параметром на самом деле является RR, который представляет собой отношение вероятностей, аналогичное шансам, используемым в OR. Однако доступные данные часто не позволяют рассчитать RR или ARR, но позволяют вычислить OR, как в исследованиях типа случай-контроль, как объясняется ниже. С другой стороны, если одно из свойств (A или B) является достаточно редким (в эпидемиологии это называется предположением о редком заболевании ), то OR приблизительно равно соответствующему RR.

OR играет важную роль в логистической модели.

Содержание

  • 1 Определение и основные свойства
    • 1.1 Пример мотивации в контексте предположение о редком заболевании
    • 1.2 Определение в терминах групповых шансов
    • 1.3 Определение в терминах совместной и условной вероятностей
    • 1.4 Симметрия
    • 1.5 Отношение к статистической независимости
    • 1.6 Восстановление вероятностей клеток из отношение шансов и предельные вероятности
  • 2 Пример
  • 3 Статистический вывод
  • 4 Роль в логистической регрессии
  • 5 Нечувствительность к типу выборки
  • 6 Использование в количественных исследованиях
  • 7 Отношение к относительному риску
    • 7.1 Путаница и преувеличение
  • 8 Обратимость и инвариантность
  • 9 Оценки отношения шансов
    • 9.1 Пример отношения шансов
    • 9.2 Альтернативные оценки
  • 10 Числовые примеры
  • 11 Числовой пример
  • 12 Сопутствующая статистика
  • 13 См. Также
  • 14 Ссылки
    • 14.1 Ссылки
    • 14.2 Источники
  • 15 Внешние ссылки

Definitio n и основные свойства

мотивирующий пример в контексте предположения о редком заболевании

Представьте себе редкое заболевание, которым страдает, скажем, только один из многих тысяч взрослых в стране. Представьте, что мы подозреваем, что воздействие чего-либо (скажем, травмы определенного типа в детстве) увеличивает вероятность развития этого заболевания во взрослом возрасте. Наиболее информативным параметром для вычисления будет коэффициент риска RR. Чтобы сделать это в идеальном случае, для всех взрослых в популяции нам необходимо знать, (а) подвергались ли они травме в детстве и (б) развили ли они болезнь во взрослом возрасте. Из этого мы извлекаем следующую информацию: общее количество людей, подвергшихся травме в детстве, NE, {\ displaystyle N_ {E},}{\displaystyle N_{E},}из которых DE {\ displaystyle D_ {E}}{\displaystyle D_{E}}заболел, и HE {\ displaystyle H_ {E}}H_Eостался здоровым; и общее количество людей, не подвергавшихся воздействию, NN, {\ displaystyle N_ {N},}{\displaystyle N_{N},}из которых DN {\ displaystyle D_ {N}}D_Nзаболел, и HN {\ displaystyle H_ {N}}{\displaystyle H_{N}}остался здоровым. Поскольку NE = DE + HE {\ displaystyle N_ {E} = D_ {E} + H_ {E}}{\displaystyle N_{E}=D_{E}+H_{E }}и аналогично для NN {\ displaystyle N_ {N}}{ \displaystyle N_{N}}чисел, у нас есть только четыре независимых числа, которые мы можем организовать в таблицу :

Больные Здоровые Обнаруженные DEHE Неизвестные DNHN {\ displaystyle {\ begin {array} {| r | cc |} \ hline {\ text {Diseased}} {\ text {Healthy}} \\\ hline {\ text {Exposed}} {D_ {E}} {H_ {E}} \\ {\ text {Не подвергается}} {D_ {N}} {H_ {N}} \\\ hline \ end {array}}}{\displaystyle {\begin{array}{|r|cc|}\hline {\text{ Diseased }}{\text{ Healthy }}\\\hline {\text{ Exposed }}{D_{E}}{H_{E}}\\{\text{ Not exposed }}{D_{N}}{H_{N}}\\\hline \end{array}}}

Чтобы избежать возможной путаницы, мы подчеркиваем, что все эти числа относятся ко всей совокупности, а не к некоторому образцу этого.

Теперь риск развития болезни при воздействии составляет DE / NE {\ displaystyle D_ {E} / N_ {E}}D_{{E}}/N_{{E}}(где NE = DE + HE {\ displaystyle N_ {E} = D_ {E} + H_ {E}}{\displaystyle N_{E}=D_{E}+H_{E }}), а развитие заболевания при отсутствии контакта составляет DN / NN. {\ displaystyle D_ {N} / N_ {N}.}{\displaystyle D_{N}/N_{N}.}Коэффициент риска, RR, представляет собой просто соотношение двух,

RR = DE / NEDN / NN, {\ displaystyle RR = {\ frac {D_ {E} / N_ {E}} {D_ {N} / N_ {N}}} \,,}{\displaystyle RR={\frac {D_{E}/N_{E}}{D_{N}/N_{N}}}\,,}

который можно переписать как RR = DENNDNNE = DE / DNNE / NN. {\ displaystyle RR = {\ frac {D_ {E} N_ {N}} {D_ {N} N_ {E}}} = {\ frac {D_ {E} / D_ {N}} {N_ {E} / N_ {N}}}.}{\displaystyle RR={\frac {D_{E}N_{N}}{D_{N}N_{E}}}={\frac {D_{E}/D_{N}}{N_{E}/N_{N}}}.}

Напротив, шансы заболевания при воздействии DE / HE, {\ displaystyle D_ {E} / H_ {E} \,,}{\displaystyle D_{E}/H_{E}\,,}по сравнению с шансы заболеть, если не подвергнуться воздействию DN / HN. {\ displaystyle D_ {N} / H_ {N} \,.}{\displaystyle D_{N}/H_{N}\,.}Отношение шансов, ИЛИ, является соотношением двух,

ИЛИ = DE / HEDN / HN, {\ displaystyle OR = {\ frac {D_ {E} / H_ {E}} {D_ {N} / H_ {N}}} \,,}{\displaystyle OR={\frac {D_{E}/H_{E}}{D_{N}/H_{N}}}\,,}который может быть переписан как OR = DEHNDNHE = DE / DNHE / HN. {\ displaystyle OR = {\ frac {D_ {E} H_ {N}} {D_ {N} H_ {E}}} = {\ frac {D_ {E} / D_ {N}} {H_ {E} / H_ {N}}}.}{\displaystyle OR={\frac {D_{E}H_{N}}{D_{N}H_{E}}}={\frac {D_{E}/D_{N}}{H_{E}/H_{N}}}.}

Мы уже можем заметить, что если болезнь редкая, то OR = RR. Действительно, для редкого заболевания у нас будет D E ≪ H E, {\ displaystyle D_ {E} \ ll H_ {E},}{\displaystyle D_{E}\ll H_{E},}и поэтому D E + H E ≈ H E; {\ displaystyle D_ {E} + H_ {E} \ приблизительно H_ {E};}{\displaystyle D_{E}+H_{E}\approx H_{E};}но тогда DE / (DE + HE) ≈ DE / HE, {\ displaystyle D_ {E} / (D_ {E} + H_ {E}) \ приблизительно D_ {E} / H_ {E},}{\displaystyle D_{E}/(D_{E}+H_{E})\approx D_{E}/H_{E},}другими словами, для популяции, подвергшейся воздействию, риск развития болезни примерно равен шансы. Аналогичные рассуждения показывают, что риск примерно равен шансам и для не подвергшегося облучению населения; но тогда отношение рисков, равное RR, примерно равно отношению шансов, то есть OR. Или мы могли бы просто заметить, что предположение о редком заболевании гласит, что NE ≈ HE {\ displaystyle N_ {E} \ приблизительно H_ {E}}{\displaystyle N_{E}\approx H_{E}}и NN ≈ HN, {\ displaystyle N_ {N} \ приблизительно H_ {N},}{\displaystyle N_{N}\approx H_{N},}из которого следует, что NE / NN ≈ HE / HN, {\ displaystyle N_ {E} / N_ {N} \ приблизительно H_ { E} / H_ {N},}{\displaystyle N_{E}/N_{N}\approx H_{E}/H_{N},}другими словами, знаменатели в окончательных выражениях для RR и OR примерно одинаковы. Числители точно такие же, поэтому снова заключаем, что OR ≈ RR. Возвращаясь к нашему гипотетическому исследованию, проблема, с которой мы часто сталкиваемся, заключается в том, что у нас может не быть данных для оценки этих четырех чисел. Например, у нас может не быть данных по населению о том, кто получил или не получил травму в детстве.

Часто мы можем преодолеть эту проблему, используя случайную выборку из популяции: а именно, если ни болезнь, ни подверженность травмам не слишком редки в нашей популяции, то мы можем выбрать ( скажем) сто человек наугад и найдите эти четыре числа в этой выборке; если предположить, что выборка достаточно репрезентативна для генеральной совокупности, тогда RR, вычисленный для этой выборки, будет хорошей оценкой RR для всей генеральной совокупности.

Однако некоторые заболевания могут быть настолько редкими, что, по всей вероятности, даже большая случайная выборка может не содержать даже одного больного человека (или может содержать некоторые, но слишком мало, чтобы быть статистически значимыми). Это сделало бы невозможным вычисление RR. Но мы, тем не менее, можем оценить OR при условии, что, в отличие от болезни, травмы в детстве не так уж редки. Конечно, поскольку заболевание встречается редко, это также наша оценка ОР.

Глядя на последнее выражение для ИЛИ: дробь в числителе, DE / DN, {\ displaystyle D_ {E} / D_ {N},}{\displaystyle D_{E}/D_{N},}мы можем оцените, собрав все известные случаи заболевания (предположительно, они должны быть, иначе мы, скорее всего, не будем проводить исследование в первую очередь), и увидев, сколько заболевших людей подверглись воздействию, а сколько - не. А дробь в знаменателе, HE / HN, {\ displaystyle H_ {E} / H_ {N},}{\displaystyle H_{E}/H_{N},}- это вероятность того, что здоровый человек в популяции получил травму в детстве.. Теперь обратите внимание, что этот последний шанс действительно можно оценить путем случайной выборки населения - при условии, как мы сказали, что распространенность воздействия травмы в детстве не слишком мала, так что случайная выборка управляемый размер, вероятно, будет содержать достаточное количество лиц, подвергшихся воздействию. Таким образом, здесь болезнь очень редка, но фактор, который, как считается, способствует ей, не так уж и редок; такие ситуации довольно часты на практике.

Таким образом, мы можем оценить OR, а затем, снова применяя предположение о редком заболевании, мы говорим, что это также хорошее приближение к RR. Между прочим, описанный выше сценарий является парадигматическим примером исследования «случай-контроль».

Ту же историю можно рассказать, даже не упоминая ИЛИ, например: как только мы получим это NE ≈ HE { \ displaystyle N_ {E} \ приблизительно H_ {E}}N_{{E}}\approx H_{{E}}и NN ≈ HN, {\ displaystyle N_ {N} \ приблизительно H_ {N},}{\displaystyle N_{N}\approx H_{N},}тогда мы имеют это NE / NN ≈ HE / HN. {\ displaystyle N_ {E} / N_ {N} \ приблизительно H_ {E} / H_ {N}.}{\displaystyle N_{E}/N_{N}\approx H_{E}/H_{N}.}Таким образом, если случайной выборкой нам удастся оценить HE / HN, { \ displaystyle H_ {E} / H_ {N},}{\displaystyle H_{E}/H_{N},}тогда, исходя из предположения о редком заболевании, это будет хорошей оценкой NE / NN, {\ displaystyle N_ {E} / N_ { N},}{\displaystyle N_{E}/N_{N},}это все, что нам нужно (кроме DE / DN, {\ displaystyle D_ {E} / D_ {N},}{\displaystyle D_{E}/D_{N},}, которые мы предположительно уже знаем изучая несколько случаев заболевания), чтобы вычислить RR. Однако в литературе принято явно указывать OR, а затем заявлять, что RR приблизительно равен ему.

Определение в терминах групповых шансов

Отношение шансов - это отношение шансов события, происходящего в одной группе, к вероятности того, что оно произойдет в другой. группа. Этот термин также используется для обозначения оценок этого отношения на основе выборки. Эти группы могут быть мужчинами и женщинами, экспериментальной группой и контрольной группой или любой другой дихотомической классификацией. Если вероятности события в каждой из групп равны p 1 (первая группа) и p 2 (вторая группа), то отношение шансов будет:

p 1 / (1 - п 1) п 2 / (1 - п 2) знак равно п 1 / q 1 п 2 / q 2 = п 1 q 2 п 2 q 1, {\ Displaystyle {p_ {1} / (1-p_ { 1}) \ over p_ {2} / (1-p_ {2})} = {p_ {1} / q_ {1} \ over p_ {2} / q_ {2}} = {\ frac {\; p_ {1} q_ {2} \;} {\; p_ {2} q_ {1} \;}},}{p_{1}/(1-p_{1}) \over p_{2}/(1-p_{2})}={p_{1}/q_{1} \over p_{2}/q_{2}}={\frac {\;p_{1}q_{2}\;}{\;p_{2}q_{1}\;}},

где q x = 1 - p x. Отношение шансов, равное 1, указывает на то, что изучаемое состояние или событие с одинаковой вероятностью произойдет в обеих группах. Отношение шансов больше 1 указывает на то, что условие или событие с большей вероятностью произойдет в первой группе. А отношение шансов меньше 1 указывает на то, что условие или событие с меньшей вероятностью произойдет в первой группе. Отношение шансов должно быть неотрицательным, если оно определено. Он не определен, если p 2q1равно нулю, т.е. если p 2 равно нулю или q 1 равно нулю.

Определение в терминах совместной и условной вероятностей

Отношение шансов также может быть определено в терминах совместного распределения вероятностей двух двоичных случайных величин. Совместное распределение двоичных случайных величин X и Y можно записать в виде

Y = 1 Y = 0 X = 1 p 11 p 10 X = 0 p 01 p 00 {\ displaystyle {\ begin {array} {c | cc} Y = 1 Y = 0 \\\ hline X = 1 p_ {11} p_ {10} \\ X = 0 p_ {01} p_ {00} \ end {array}}}\begin{array}{c|cc} Y = 1 Y = 0 \\ \hline X = 1 p_{11} p_{10} \\ X = 0 p_{01} p_{00} \end{array}

где p 11, p 10, p 01 и p 00 - неотрицательные «вероятности ячейки», сумма которых равна единице. Шансы для Y в двух подгруппах, определенных X = 1 и X = 0, определены в терминах условных вероятностей для X, т. Е. P (Y | X):

Y = 1 Y Знак равно 0 Икс = 1 п 11 п 11 + п 10 п 10 п 11 + п 10 Икс = 0 п 01 п 01 + п 00 п 00 п 01 + р 00 {\ displaystyle {\ begin {array} {c | cc} Y = 1 Y = 0 \\\ hline X = 1 {\ frac {p_ {11}} {p_ {11} + p_ {10}}} {\ frac {p_ {10}} {p_ {11} + p_ {10}}} \\ X = 0 {\ frac {p_ {01}} {p_ {01} + p_ {00}}} и {\ frac {p_ {00}} {p_ {01} + p_ {00}) }}} \ end {array}}} \begin{array}{c|cc} Y = 1 Y = 0 \\ \hline X = 1 \frac{p_{11}}{p_{11}+p_{10}} \frac{p_{10}}{p_{11}+p_{10}} \\ X = 0 \frac{p_{01}}{p_{01}+p_{00}} \frac{p_{00}}{p_{01}+p_{00}} \end{array}

Таким образом, отношение шансов равно

p 11 / (p 11 + p 10) p 10 / (p 11 + p 10) / p 01 / (p 01 + p 00) p 00 / (p 01 + p 00) = p 11 p 00 p 10 p 01 {\ displaystyle {{\ dfrac {p_ {11} / (p_ {11} + p_ {10})} {p_ {10 } / (p_ {11} + p_ {10})}} {\ bigg /} {\ dfrac {p_ {01} / (p_ {01} + p_ {00})} {p_ {00} / (p_ { 01} + p_ {00})}}} = {\ dfrac {p_ {11} p_ {00}} {p_ {10} p_ {01}}}}{\dfrac{p_{11}/(p_{11}+p_{10})}{p_{10}/(p_{11}+p_{10})}\bigg/{\dfrac{p_{01}/(p_{01}+p_{00})}{p_{00}/(p_{01}+p_{00})}}} = \dfrac{p_{11}p_{00}}{p_{10}p_{01}}

Простое выражение справа вверху: легко запомнить как произведение вероятностей «согласованных ячеек» (X = Y), деленное на произведение вероятностей «несогласованных ячеек» (X ≠ Y). Однако обратите внимание, что в некоторых приложениях маркировка категорий как ноль и единица является произвольной, поэтому в этих приложениях нет ничего особенного в сопоставлении согласованных и несогласованных значений.

Симметрия

Если бы мы вычислили отношение шансов на основе условных вероятностей с учетом Y,

Y = 1 Y = 0 X = 1 p 11 p 11 + p 01 p 10 p 10 + p 00 Икс знак равно 0 p 01 p 11 + p 01 p 00 p 10 + p 00 {\ displaystyle {\ begin {array} {c | cc} Y = 1 Y = 0 \\\ hline X = 1 {\ frac {p_ {11}} {p_ {11} + p_ {01}}} {\ frac {p_ {10}} {p_ {10} + p_ {00}}} \\ X = 0 {\ frac {p_ {01}} {p_ {11} + p_ {01}}} {\ frac {p_ {00}} {p_ {10} + p_ {00}}} \ end {array}}}\begin{array}{c|cc} Y = 1 Y = 0 \\ \hline X = 1 \frac{p_{11}}{p_{11}+p_{01}} \frac{p_{10}}{p_{10}+p_{00}} \\ X = 0 \frac{p_{01}}{p_{11}+p_{01}} \frac{p_{00}}{p_{10}+p_{00}} \end{array}

мы бы получили тот же результат

p 11 / (p 11 + p 01) p 01 / (p 11 + p 01) / p 10 / (p 10 + p 00) p 00 / (p 10 + p 00) = п 11 п 00 п 10 п 01. {\ Displaystyle {{\ dfrac {p_ {11} / (p_ {11} + p_ {01})} {p_ {01} / (p_ {11} + p_ {01})}} {\ bigg /} { \ dfrac {p_ {10} / (p_ {10} + p_ {00})} {p_ {00} / (p_ {10} + p_ {00})}}} = {\ dfrac {p_ {11} p_ {00}} {p_ {10} p_ {01}}}.}{{\dfrac {p_{{11}}/(p_{{11}}+p_{{01}})}{p_{{01}}/(p_{{11}}+p_{{01}})}}{\bigg /}{\dfrac {p_{{10}}/(p_{{10}}+p_{{00}})}{p_{{00}}/(p_{{10}}+p_{{00}})}}}={\dfrac {p_{{11}}p_{{00}}}{p_{{10}}p_{{01}}}}.

Другие меры величины эффекта для двоичных данных, такие как относительный риск, не имеют этого свойства симметрии.

Отношение к статистической независимости

Если X и Y независимы, их совместные вероятности могут быть выражены через их предельные вероятности p x = P (X = 1) и p y = P (Y = 1), как следует

Y = 1 Y = 0 X = 1 pxpypx (1 - py) X = 0 (1 - px) py (1 - px) (1 - py) {\ displaystyle {\ begin {array} {c | cc} Y = 1 Y = 0 \\\ hline X = 1 p_ {x} p_ {y} p_ {x} (1-p_ {y}) \\ X = 0 (1-p_ {x}) p_ {y} (1-p_ {x}) (1-p_ {y}) \ end {array}}}\begin{array}{c|cc} Y = 1 Y = 0 \\ \hline X = 1 p_xp_y p_x(1-p_y) \\ X = 0 (1-p_x)p_y (1-p_x)(1-p_y) \end{array}

В этом случае Отношение шансов равно единице, и, наоборот, отношение шансов может быть равно единице, только если совместные вероятности могут быть учтены таким образом. Таким образом, отношение шансов равно единице тогда и только тогда, когда X и Y независимы.

Восстановление вероятностей ячеек из отношения шансов и предельных вероятностей

Отношение шансов является функцией вероятностей ячеек, и и наоборот, вероятности ячеек можно восстановить, зная отношение шансов и предельные вероятности P (X = 1) = p 11 + p 10 и P (Y = 1) = p 11 + p 01. Если отношение шансов R отличается от 1, то

p 11 = 1 + (p 1 ⋅ + p ⋅ 1) (R - 1) - S 2 (R - 1) {\ displaystyle p_ {11} = {\ frac {1+ (p_ {1 \ cdot} + p _ {\ cdot 1}) (R-1) -S} {2 (R-1)}}}p_{{11}}={\frac {1+(p_{{1\cdot }}+p_{{\cdot 1}})(R-1)-S}{2(R-1)}}

где p 1 • = p 11 + p 10, p • 1 = p 11 + p 01 и

S = (1 + (p 1 ⋅ + p ⋅ 1) (R - 1)) 2 + 4 R (1 - R) p 1 ⋅ p ⋅ 1. {\ Displaystyle S = {\ sqrt {(1+ (p_ {1 \ cdot} + p _ {\ cdot 1}) (R-1)) ^ {2} + 4R (1-R) ​​p_ {1 \ cdot} p _ {\ cdot 1}}}.}S={\sqrt {(1+(p_{{1\cdot }}+p_{{\cdot 1}})(R-1))^{2}+4R(1-R)p_{{1\cdot }}p_{{\cdot 1}}}}.

В случае, когда R = 1, у нас есть независимость, поэтому p 11 = p 1•p•1.

Как только мы имеем p 11, вероятности остальных трех ячеек могут быть легко восстановлены из предельных вероятностей.

Пример

График, показывающий, как логарифмическое отношение шансов соотносится с лежащими в основе вероятностями результата X, возникающего в двух группах, обозначенных A и B. Логарифмическое отношение шансов, показанное здесь, основано на шансах для событие, происходящее в группе B, относительно шансов для события, происходящего в группе A. Таким образом, когда вероятность того, что X произойдет в группе B, больше, чем вероятность того, что X произойдет в группе A, отношение шансов больше 1, и логарифм отношения шансов больше 0.

Предположим, что в выборке из 100 мужчин 90 пили вино на предыдущей неделе, а в выборке из 80 женщин только 20 пили вино за тот же период. Шансы мужчины, пьющего вино, составляют 90 к 10, или 9: 1, тогда как вероятность того, что женщина пьет вино, составляет всего 20 к 60, или 1: 3 = 0,33. Таким образом, отношение шансов составляет 9 / 0,33, или 27, что показывает, что мужчины гораздо чаще пьют вино, чем женщины. Подробный расчет:

0,9 / 0,1 0,2 / 0,6 = 0,9 × 0,6 0,1 × 0,2 = 0,54 0,02 = 27 {\ displaystyle {0,9 / 0,1 \ более 0,2 / 0,6} = {\ frac {\; 0,9 \ раз 0,6 \;} {\; 0,1 \ times 0,2 \;}} = {0,54 \ более 0,02} = 27}{\displaystyle {0.9/0.1 \over 0.2/0.6}={\frac {\;0.9\times 0.6\;}{\;0.1\times 0.2\;}}={0.54 \over 0.02}=27}

Этот пример также показывает, насколько чувствительны отношения шансов при указании относительного положения: в этом примере мужчины (90 / 100) / (20/80) = вероятность выпить вина в 3,6 раза выше, чем у женщин, но у них в 27 раз больше шансов. Логарифм отношения шансов, разность логитов вероятностей, смягчает этот эффект, а также делает меру симметричной относительно упорядочения группы. Например, при использовании натуральных логарифмов отношение шансов 27/1 соответствует 3,296, а отношение шансов 1/27 соответствует -3,296.

Статистический вывод

График, показывающий минимальное значение логарифмической статистики отношения шансов выборки, которое должно наблюдаться, чтобы считаться значимым на уровне 0,05 для данного размера выборки. Три линии соответствуют различным настройкам предельных вероятностей в таблице непредвиденных обстоятельств 2 × 2 (предельные вероятности строки и столбца на этом графике равны).

Было разработано несколько подходов к статистическому выводу для отношений шансов.

Один из подходов к выводу использует приближения с большой выборкой для выборочного распределения логарифмического отношения шансов (натуральный логарифм отношения шансов). Если мы используем обозначение совместной вероятности, определенное выше, отношение логарифма совокупности шансов будет

log ⁡ (p 11 p 00 p 01 p 10) = log ⁡ (p 11) + log ⁡ (p 00) - log ⁡ (p 10) - лог ⁡ (п 01). {\ displaystyle {\ log \ left ({\ frac {p_ {11} p_ {00}} {p_ {01} p_ {10}}} \ right) = \ log (p_ {11}) + \ log (p_ {00} {\ big)} - \ log (p_ {10}) - \ log (p_ {01})}. \,}{\log \left({\frac {p_{{11}}p_{{00}}}{p_{{01}}p_{{10}}}}\right)=\log(p_{{11}})+\log(p_{{00}}{\big)}-\log(p_{{10}})-\log(p_{{01}})}.\,

Если мы наблюдаем данные в виде таблицы непредвиденных обстоятельств

Y = 1 Y = 0 X = 1 n 11 n 10 X = 0 n 01 n 00 {\ displaystyle {\ begin {array} {c | cc} Y = 1 Y = 0 \\\ hline X = 1 n_ {11} n_ {10} \\ X = 0 n_ {01} n_ {00} \ end {array}}}\begin{array}{c|cc} Y = 1 Y = 0 \\ \hline X = 1 n_{11} n_{10} \\ X = 0 n_{01} n_{00} \end{array}

тогда вероятности в совместном распределении можно оценить как

Y = 1 Y = 0 X = 1 p ^ 11 p ^ 10 X = 0 p ^ 01 p ^ 00 {\ displaystyle {\ begin {array} {c | cc} Y = 1 Y = 0 \\\ hline X = 1 {\ hat {p}} _ {11 } {\ hat {p}} _ {10} \\ X = 0 {\ hat {p}} _ {01} {\ hat {p}} _ {00} \ end {array}}}\begin{array}{c|cc} Y = 1 Y = 0 \\ \hline X = 1 \hat{p}_{11} \hat{p}_{10} \\ X = 0 \hat{p}_{01} \hat{p}_{00} \end{array}

где ︿p ij = n ij / n, где n = n 11 + n 10 + n 01 + n 00 - сумма всех четырех ячеек. Примерное отношение шансов журнала составляет

L = log ⁡ (p ^ 11 p ^ 00 p ^ 10 p ^ 01) = log ⁡ (n 11 n 00 n 10 n 01) {\ displaystyle {L = \ log \ left ({\ dfrac {{\ hat {p}} _ {11} {\ hat {p}} _ {00}} {{\ hat {p}} _ {10} {\ hat {p}} _ {01 }}} \ right) = \ log \ left ({\ dfrac {n_ {11} n_ {00}} {n_ {10} n_ {01}}} \ right)}}{L=\log \left({\dfrac {{\hat {p}}_{{11}}{\hat {p}}_{{00}}}{{\hat {p}}_{{10}}{\hat {p}}_{{01}}}}\right)=\log \left({\dfrac {n_{{11}}n_{{00}}}{n_{{10}}n_{{01}}}}\right)}.

Распределение логарифмических коэффициентов отношение приблизительно равно нормальному с:

L ∼ N (log ⁡ (OR), σ 2). {\ displaystyle L \ \ sim \ {\ mathcal {N}} (\ log (OR), \, \ sigma ^ {2}). \,}{\displaystyle L\ \sim \ {\mathcal {N}}(\log(OR),\,\sigma ^{2}).\,}

стандартная ошибка для журнала отношение шансов приблизительно равно

SE = 1 n 11 + 1 n 10 + 1 n 01 + 1 n 00 {\ displaystyle {{\ rm {SE}} = {\ sqrt {{\ dfrac {1} {n_ {11) }}} + {\ dfrac {1} {n_ {10}}} + {\ dfrac {1} {n_ {01}}} + {\ dfrac {1} {n_ {00}}}}}}}{{{\rm {SE}}}={\sqrt {{\dfrac {1}{n_{{11}}}}+{\dfrac {1}{n_{{10}}}}+{\dfrac {1}{n_{{01}}}}+{\dfrac {1}{n_{{00}}}}}}}.

Это асимптотическое приближение, которое не даст значимого результата, если какое-либо количество ячеек очень мало. Если L представляет собой отношение шансов логарифмической выборки, приблизительный 95% доверительный интервал для логарифмического отношения шансов генеральной совокупности составляет L ± 1,96SE. Это может быть отображено в exp (L - 1.96SE), exp (L + 1.96SE) для получения 95% доверительного интервала для отношения шансов. Если мы хотим проверить гипотезу о том, что отношение шансов населения равно единице, двустороннее p-значение равно 2P (Z < −|L|/SE), where P denotes a probability, and Z denotes a стандартная нормальная случайная величина.

Альтернативный подход к выводу для отношения шансов рассматривает распределение данных условно по предельным частотам X и Y. Преимущество этого подхода состоит в том, что выборочное распределение отношения шансов может быть выражено точно.

Роль в логистической регрессии

Логистика регрессия - это один из способов обобщения отношения шансов за пределами двух двоичных переменных.Предположим, у нас есть переменная двоичного ответа Y и переменная двоичного предиктора X, и, кроме того, у нас есть другие переменные предиктора Z 1,..., Z p, которые могут быть или не быть двоичными. Если мы используем множественную логистическую регрессию для регрессии Y на X, Z 1,..., Z p, то оценочный коэффициент β ^ x {\ displaystyle {\ hat {\ beta}} _ {x}}{\hat {\beta }}_{x}для X связан с условным отношением шансов. В частности, в генеральной совокупности уровень

exp ⁡ (β x) = P (Y = 1 ∣ X = 1, Z 1,…, Z p) / P (Y = 0 ∣ X = 1, Z 1,…, Z p) P (Y Знак равно 1 ∣ Икс знак равно 0, Z 1,…, Z п) / п (Y = 0 ∣ Икс = 0, Z 1,…, Z p), {\ displaystyle \ exp (\ beta _ {x}) = { \ frac {P (Y = 1 \ mid X = 1, Z_ {1}, \ ldots, Z_ {p}) / P (Y = 0 \ mid X = 1, Z_ {1}, \ ldots, Z_ {p })} {P (Y = 1 \ mid X = 0, Z_ {1}, \ ldots, Z_ {p}) / P (Y = 0 \ mid X = 0, Z_ {1}, \ ldots, Z_ { p})}},}\exp(\beta _{x})={\frac {P(Y=1\mid X=1,Z_{1},\ldots,Z_{p})/P(Y=0\mid X=1,Z_{1},\ldots,Z_{p})}{P(Y=1\mid X=0,Z_{1},\ldots,Z_{p})/P(Y=0\mid X=0,Z_{1},\ldots,Z_{p})}},

поэтому exp ⁡ (β ^ x) {\ displaystyle \ exp ({\ hat {\ beta}} _ {x})}\exp({\hat {\beta }}_{x})является оценкой этого условного отношения шансов. ехр ⁡ (β ^ x) {\ displaystyle \ exp ({\ hat {\ beta}} _ {x})}\exp({\hat {\beta }}_{x})- это оценка отношения шансов между Y и X, когда значения Z 1,..., Z p остаются фиксированными.

Нечувствительность к типу выборки

Если данные образуют «выборку населения», то вероятности ячеек ∧p ij интерпретируются как частоты каждого из четыре группы населения, определяемые их значениями X и Y. Во многих случаях получить выборку населения нецелесообразно, поэтому используется выбранная выборка. Например, мы можем выбрать выборку единиц с X = 1 с заданной вероятностью f, независимо от их частоты в генеральной совокупности (что потребует выборки единиц с X = 0 с вероятностью 1 - f). В этой ситуации наши данные будут следовать следующим совместным вероятностям:

Y = 1 Y = 0 X = 1 fp 11 p 11 + p 10 fp 10 p 11 + p 10 X = 0 (1 - f) p 01 p 01 + p 00 (1 - f) p 00 p 01 + p 00 {\ displaystyle {\ begin {array} {c | cc} Y = 1 Y = 0 \\\ hline X = 1 {\ frac {fp_ {11} } {p_ {11} + p_ {10}}} {\ frac {fp_ {10}} {p_ {11} + p_ {10}}} \\ X = 0 {\ frac {(1-f) p_ {01}} {p_ {01} + p_ {00}}} и {\ frac {(1-f) p_ {00}} {p_ {01} + p_ {00}}} \ end {array}}}\begin{array}{c|cc} Y = 1 Y = 0 \\ \hline X = 1 \frac{fp_{11}}{p_{11}+p_{10}} \frac{fp_{10}}{p_{11}+p_{10}} \\ X = 0 \frac{(1-f)p_{01}}{p_{01}+p_{00}} \frac{(1-f)p_{00}}{p_{01}+p_{00}} \end{array}

Отношение шансов p 11p00/ p 01p10для этого распределения не зависит от значения f. Это показывает, что отношение шансов (и, следовательно, логарифмическое отношение шансов) инвариантно для неслучайной выборки на основе одной из изучаемых переменных. Однако обратите внимание, что стандартная ошибка логарифмического отношения шансов зависит от значения f.

Этот факт используется в двух важных ситуациях:

  • Предположим, что получение выборки населения неудобно или непрактично, но практично получить удобную выборку единиц с разными значениями X, так что в подвыборках X = 0 и X = 1 значения Y репрезентативны для генеральной совокупности (т. е. они соответствуют правильным условным вероятностям).
  • Предположим, что предельное распределение одной переменной, скажем X, очень искажено. Например, если мы изучаем взаимосвязь между высоким потреблением алкоголя и раком поджелудочной железы в общей популяции, заболеваемость раком поджелудочной железы будет очень низкой, поэтому для получения скромного числа случаев рака поджелудочной железы потребуется очень большая выборка населения. Однако мы могли бы использовать данные из больниц, чтобы связаться с большинством или всеми их пациентами с раком поджелудочной железы, а затем произвольно выбрать равное количество субъектов без рака поджелудочной железы (это называется «исследование случай-контроль»).

В обоих случаях отношение шансов может быть рассчитано на основе выбранной выборки без смещения результатов относительно того, что было бы получено для выборки населения.

Использование в количественных исследованиях

Из-за широкого использования логистической регрессии отношение шансов широко используется во многих областях медицинских и социальных исследований. Отношение шансов обычно используется в обзорном исследовании, в эпидемиологии и для выражения результатов некоторых клинических испытаний, например, в случай-контроль. учеба. В отчетах часто используется аббревиатура «ИЛИ». Когда данные из нескольких опросов объединяются, это часто выражается как «объединенное ИЛИ».

Отношение к относительному риску

В клинических исследованиях, а также в некоторых других условиях наибольший интерес представляет параметр относительный риск, а не отношение шансов. Относительный риск лучше всего оценивать с использованием выборки населения, но если выполняется предположение редкого заболевания, отношение шансов является хорошим приближением к относительному риску - шансы равны p / (1 - p), поэтому, когда p приближается к нулю, 1 - p приближается к 1, что означает, что шансы приближаются к риску, а отношение шансов приближается к относительному риску. Когда предположение о редком заболевании не выполняется, отношение шансов может переоценить относительный риск.

Если доступен абсолютный риск в контрольной группе, преобразование между ними рассчитывается по формуле:

ОР ≈ ИЛИ 1 - RC + (RC × OR) {\ displaystyle RR \ приблизительно {\ frac {OR} {1-R_ {C} + (R_ {C} \ times OR)}}}RR\approx {\frac {OR}{1-R_{C}+(R_{C}\times OR)}}

где:

  • RR = относительный риск
  • ИЛИ = отношение шансов
  • RC= абсолютный риск в группе, не подвергавшейся воздействию, выраженный в виде дроби (например: укажите риск 10% как 0,1)

Путаница и преувеличение

В медицинской литературе отношение шансов часто путают с относительным риском. Для нестатистиков понятие отношения шансов является трудным для понимания, и оно дает более впечатляющую цифру для эффекта. Однако большинство авторов считают, что относительный риск легко понять. В одном исследовании члены национального фонда борьбы с болезнями на самом деле были в 3,5 раза чаще, чем не члены, слышали об общем лечении этого заболевания, но отношение шансов составляло 24, и в документе говорилось, что члены были более чем в 20 раз более вероятны. слышать о лечении. Исследование статей, опубликованных в двух журналах, показало, что 26% статей, в которых использовалось отношение шансов, интерпретировали его как отношение риска.

Это может отражать простой процесс, когда непонимающие авторы выбирают наиболее впечатляюще выглядящие и пригодные для публикации фигура. Но в некоторых случаях его использование может быть заведомо вводящим в заблуждение. Было высказано предположение, что отношение шансов следует представлять как меру величины эффекта, когда отношение рисков нельзя оценить напрямую.

Обратимость и инвариантность

Отношение шансов имеет еще одно уникальное свойство - быть прямо математически обратимым при анализе OR как выживаемости или заболеваемости, где OR для выживаемости является прямой обратной величиной 1 / OR для риска. Это известно как «неизменность отношения шансов». Напротив, относительный риск не обладает этим математическим обратимым свойством при изучении выживаемости болезни в сравнении с заболеваемостью. Этот феномен обратимости OR по сравнению с необратимостью RR лучше всего проиллюстрирован на примере:

Предположим, в клиническом исследовании риск нежелательных явлений составляет 4/100 в группе лекарств и 2/100 в группе плацебо.... что дает RR = 2 и OR = 2,04166 для неблагоприятного риска по сравнению с плацебо. Однако, если бы анализ был инвертирован, а нежелательные явления вместо этого анализировались как выживаемость без событий, тогда группа лекарств имела бы показатель 96/100, а группа плацебо имела бы показатель 98/100, что давало бы соотношение лекарств и плацебо. RR = 0,9796 для выживаемости, но OR = 0,48979. Как можно видеть, RR 0,9796 явно не является обратной величиной RR, равной 2. Напротив, OR 0,48979 действительно является прямым обратным OR 2,04166.

Это снова то, что называется «инвариантностью отношения шансов», и почему RR для выживания не то же самое, что RR для риска, в то время как OR имеет это симметричное свойство при анализе выживаемости или неблагоприятных риск. Опасность клинической интерпретации OR возникает, когда частота нежелательных явлений не является редкой, что приводит к преувеличению различий, когда предположение OR редкого заболевания не выполняется. С другой стороны, когда заболевание встречается редко, использование RR для выживаемости (например, RR = 0,9796 из приведенного выше примера) может клинически скрыть и скрыть важное удвоение неблагоприятного риска, связанного с лекарством или воздействием.

Оценщики отношения шансов

Отношение шансов выборки

Отношение шансов выборки n11n00/ n 10n01легко рассчитать, и для средних и больших выборок хорошо работает оценка отношения шансов популяции. Когда одна или несколько ячеек в таблице непредвиденных обстоятельств могут иметь небольшое значение, отношение шансов выборки может быть смещенным и иметь высокую дисперсию.

Альтернативные оценки

Число альтернативных оценок отношения шансов были предложены для устранения ограничений выборки отношения шансов. Один из альтернативных оценщиков - это оценщик условного максимального правдоподобия, который учитывает поля строки и столбца при формировании вероятности максимизации (как в точном критерии Фишера ). Другой альтернативный оценщик - это оценщик Мантеля – Хензеля.

Числовые примеры

Следующие четыре таблицы непредвиденных обстоятельств содержат наблюдаемое количество клеток, а также соответствующее отношение шансов (OR) и логарифмическое отношение шансов (LOR) для выборки.):

ИЛИ = 1, LOR = 0OR = 1, LOR = 0OR = 4, LOR = 1,39OR = 0,25, LOR = −1,39
Y = 1Y = 0Y = 1Y = 0Y = 1Y = 0Y = 1Y = 0
X = 1101010010020101020
X = 055505010202010

Следующие совместные распределения вероятностей содержат вероятности популяционных клеток вместе с соответствующее отношение шансов популяции (OR) и логарифм отношения шансов популяции (LOR):

OR = 1, LOR = 0OR = 1, LOR = 0OR = 16, LOR = 2,77OR = 0,67, LOR = -0,41
Y = 1Y = 0Y = 1Y = 0Y = 1Y = 0Y = 1Y = 0
X = 10.20.20.40.40.40.10.10.3
X = 00.30.30.10.10.10.40.20.4

Numerical example

Example of risk reduction
Experimental group (E)Control group (C)Total
Events (E)EE = 15CE = 100115
Non-events (N)EN = 135CN = 150285
Total subjects (S)ES = EE + EN = 150CS = CE + CN = 250400
Event rate (ER)EER = EE / ES = 0.1, or 10%CER = CE / CS = 0.4, or 40%
EquationVariableAbbr. Value
CER - EERabsolute risk reduction ARR0.3, or 30%
(CER - EER) / CERrelative risk reduction RR R0.75, or 75%
1 / (CER − EER)number needed to treat NNT3.33
EER / CERrisk ratio RR0.25
(EE / EN) / (CE / CN)odds ratio OR0.167
(CER - EER) / CERpreventable fraction among the unexposed PFu0.75

Related statistics

There are various other summary statistics for contingency tables that measure association between two events, such as Yule's Y, Yule's Q ; these two are normalized so they are 0 for independent events, 1 for perfectly correlated, −1 for perfectly negatively correlated. Edwards (1963)studied these and argued that these measures of association must be functions of the odds ratio, which he referred to as the cross-ratio.

See also

References

Citations

Sources

External links

Последняя правка сделана 2021-06-01 08:07:07
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте