отношение шансов (OR) равно статистика, которая количественно определяет силу ассоциации между двумя событиями, A и B. Отношение шансов определяется как отношение шансов для A в присутствии B и шансы A в отсутствие B или, что эквивалентно (из-за симметрии), отношение шансов B в присутствии A и шансов B в отсутствие A. Два события независимы тогда и только тогда, когда ИЛИ равно 1, т. е. шансы одного события одинаковы как при наличии, так и при отсутствии другого события. Если OR больше 1, то A и B связаны (коррелированы) в том смысле, что, по сравнению с отсутствием B, присутствие B увеличивает шансы A, а симметрично наличие A увеличивает шансы B И наоборот, если OR меньше 1, то A и B имеют отрицательную корреляцию, и наличие одного события снижает вероятность другого события.
Обратите внимание, что отношение шансов симметрично в двух событиях, и не предполагается причинно-следственная направленность (корреляция не подразумевает причинно-следственную связь ): положительное ИЛИ не установить, что B вызывает A, или что A вызывает B.
Две аналогичные статистические данные, которые часто используются для количественной оценки ассоциаций, - это коэффициент риска (RR) и абсолютное снижение риска (ARR). Часто наиболее интересным параметром на самом деле является RR, который представляет собой отношение вероятностей, аналогичное шансам, используемым в OR. Однако доступные данные часто не позволяют рассчитать RR или ARR, но позволяют вычислить OR, как в исследованиях типа случай-контроль, как объясняется ниже. С другой стороны, если одно из свойств (A или B) является достаточно редким (в эпидемиологии это называется предположением о редком заболевании ), то OR приблизительно равно соответствующему RR.
OR играет важную роль в логистической модели.
Представьте себе редкое заболевание, которым страдает, скажем, только один из многих тысяч взрослых в стране. Представьте, что мы подозреваем, что воздействие чего-либо (скажем, травмы определенного типа в детстве) увеличивает вероятность развития этого заболевания во взрослом возрасте. Наиболее информативным параметром для вычисления будет коэффициент риска RR. Чтобы сделать это в идеальном случае, для всех взрослых в популяции нам необходимо знать, (а) подвергались ли они травме в детстве и (б) развили ли они болезнь во взрослом возрасте. Из этого мы извлекаем следующую информацию: общее количество людей, подвергшихся травме в детстве, из которых заболел, и остался здоровым; и общее количество людей, не подвергавшихся воздействию, из которых заболел, и остался здоровым. Поскольку и аналогично для чисел, у нас есть только четыре независимых числа, которые мы можем организовать в таблицу :
Чтобы избежать возможной путаницы, мы подчеркиваем, что все эти числа относятся ко всей совокупности, а не к некоторому образцу этого.
Теперь риск развития болезни при воздействии составляет (где ), а развитие заболевания при отсутствии контакта составляет Коэффициент риска, RR, представляет собой просто соотношение двух,
который можно переписать как
Напротив, шансы заболевания при воздействии по сравнению с шансы заболеть, если не подвергнуться воздействию Отношение шансов, ИЛИ, является соотношением двух,
Мы уже можем заметить, что если болезнь редкая, то OR = RR. Действительно, для редкого заболевания у нас будет и поэтому но тогда другими словами, для популяции, подвергшейся воздействию, риск развития болезни примерно равен шансы. Аналогичные рассуждения показывают, что риск примерно равен шансам и для не подвергшегося облучению населения; но тогда отношение рисков, равное RR, примерно равно отношению шансов, то есть OR. Или мы могли бы просто заметить, что предположение о редком заболевании гласит, что и из которого следует, что другими словами, знаменатели в окончательных выражениях для RR и OR примерно одинаковы. Числители точно такие же, поэтому снова заключаем, что OR ≈ RR. Возвращаясь к нашему гипотетическому исследованию, проблема, с которой мы часто сталкиваемся, заключается в том, что у нас может не быть данных для оценки этих четырех чисел. Например, у нас может не быть данных по населению о том, кто получил или не получил травму в детстве.
Часто мы можем преодолеть эту проблему, используя случайную выборку из популяции: а именно, если ни болезнь, ни подверженность травмам не слишком редки в нашей популяции, то мы можем выбрать ( скажем) сто человек наугад и найдите эти четыре числа в этой выборке; если предположить, что выборка достаточно репрезентативна для генеральной совокупности, тогда RR, вычисленный для этой выборки, будет хорошей оценкой RR для всей генеральной совокупности.
Однако некоторые заболевания могут быть настолько редкими, что, по всей вероятности, даже большая случайная выборка может не содержать даже одного больного человека (или может содержать некоторые, но слишком мало, чтобы быть статистически значимыми). Это сделало бы невозможным вычисление RR. Но мы, тем не менее, можем оценить OR при условии, что, в отличие от болезни, травмы в детстве не так уж редки. Конечно, поскольку заболевание встречается редко, это также наша оценка ОР.
Глядя на последнее выражение для ИЛИ: дробь в числителе, мы можем оцените, собрав все известные случаи заболевания (предположительно, они должны быть, иначе мы, скорее всего, не будем проводить исследование в первую очередь), и увидев, сколько заболевших людей подверглись воздействию, а сколько - не. А дробь в знаменателе, - это вероятность того, что здоровый человек в популяции получил травму в детстве.. Теперь обратите внимание, что этот последний шанс действительно можно оценить путем случайной выборки населения - при условии, как мы сказали, что распространенность воздействия травмы в детстве не слишком мала, так что случайная выборка управляемый размер, вероятно, будет содержать достаточное количество лиц, подвергшихся воздействию. Таким образом, здесь болезнь очень редка, но фактор, который, как считается, способствует ей, не так уж и редок; такие ситуации довольно часты на практике.
Таким образом, мы можем оценить OR, а затем, снова применяя предположение о редком заболевании, мы говорим, что это также хорошее приближение к RR. Между прочим, описанный выше сценарий является парадигматическим примером исследования «случай-контроль».
Ту же историю можно рассказать, даже не упоминая ИЛИ, например: как только мы получим это и тогда мы имеют это Таким образом, если случайной выборкой нам удастся оценить тогда, исходя из предположения о редком заболевании, это будет хорошей оценкой это все, что нам нужно (кроме , которые мы предположительно уже знаем изучая несколько случаев заболевания), чтобы вычислить RR. Однако в литературе принято явно указывать OR, а затем заявлять, что RR приблизительно равен ему.
Отношение шансов - это отношение шансов события, происходящего в одной группе, к вероятности того, что оно произойдет в другой. группа. Этот термин также используется для обозначения оценок этого отношения на основе выборки. Эти группы могут быть мужчинами и женщинами, экспериментальной группой и контрольной группой или любой другой дихотомической классификацией. Если вероятности события в каждой из групп равны p 1 (первая группа) и p 2 (вторая группа), то отношение шансов будет:
где q x = 1 - p x. Отношение шансов, равное 1, указывает на то, что изучаемое состояние или событие с одинаковой вероятностью произойдет в обеих группах. Отношение шансов больше 1 указывает на то, что условие или событие с большей вероятностью произойдет в первой группе. А отношение шансов меньше 1 указывает на то, что условие или событие с меньшей вероятностью произойдет в первой группе. Отношение шансов должно быть неотрицательным, если оно определено. Он не определен, если p 2q1равно нулю, т.е. если p 2 равно нулю или q 1 равно нулю.
Отношение шансов также может быть определено в терминах совместного распределения вероятностей двух двоичных случайных величин. Совместное распределение двоичных случайных величин X и Y можно записать в виде
где p 11, p 10, p 01 и p 00 - неотрицательные «вероятности ячейки», сумма которых равна единице. Шансы для Y в двух подгруппах, определенных X = 1 и X = 0, определены в терминах условных вероятностей для X, т. Е. P (Y | X):
Таким образом, отношение шансов равно
Простое выражение справа вверху: легко запомнить как произведение вероятностей «согласованных ячеек» (X = Y), деленное на произведение вероятностей «несогласованных ячеек» (X ≠ Y). Однако обратите внимание, что в некоторых приложениях маркировка категорий как ноль и единица является произвольной, поэтому в этих приложениях нет ничего особенного в сопоставлении согласованных и несогласованных значений.
Если бы мы вычислили отношение шансов на основе условных вероятностей с учетом Y,
мы бы получили тот же результат
Другие меры величины эффекта для двоичных данных, такие как относительный риск, не имеют этого свойства симметрии.
Если X и Y независимы, их совместные вероятности могут быть выражены через их предельные вероятности p x = P (X = 1) и p y = P (Y = 1), как следует
В этом случае Отношение шансов равно единице, и, наоборот, отношение шансов может быть равно единице, только если совместные вероятности могут быть учтены таким образом. Таким образом, отношение шансов равно единице тогда и только тогда, когда X и Y независимы.
Отношение шансов является функцией вероятностей ячеек, и и наоборот, вероятности ячеек можно восстановить, зная отношение шансов и предельные вероятности P (X = 1) = p 11 + p 10 и P (Y = 1) = p 11 + p 01. Если отношение шансов R отличается от 1, то
где p 1 • = p 11 + p 10, p • 1 = p 11 + p 01 и
В случае, когда R = 1, у нас есть независимость, поэтому p 11 = p 1•p•1.
Как только мы имеем p 11, вероятности остальных трех ячеек могут быть легко восстановлены из предельных вероятностей.
Предположим, что в выборке из 100 мужчин 90 пили вино на предыдущей неделе, а в выборке из 80 женщин только 20 пили вино за тот же период. Шансы мужчины, пьющего вино, составляют 90 к 10, или 9: 1, тогда как вероятность того, что женщина пьет вино, составляет всего 20 к 60, или 1: 3 = 0,33. Таким образом, отношение шансов составляет 9 / 0,33, или 27, что показывает, что мужчины гораздо чаще пьют вино, чем женщины. Подробный расчет:
Этот пример также показывает, насколько чувствительны отношения шансов при указании относительного положения: в этом примере мужчины (90 / 100) / (20/80) = вероятность выпить вина в 3,6 раза выше, чем у женщин, но у них в 27 раз больше шансов. Логарифм отношения шансов, разность логитов вероятностей, смягчает этот эффект, а также делает меру симметричной относительно упорядочения группы. Например, при использовании натуральных логарифмов отношение шансов 27/1 соответствует 3,296, а отношение шансов 1/27 соответствует -3,296.
Было разработано несколько подходов к статистическому выводу для отношений шансов.
Один из подходов к выводу использует приближения с большой выборкой для выборочного распределения логарифмического отношения шансов (натуральный логарифм отношения шансов). Если мы используем обозначение совместной вероятности, определенное выше, отношение логарифма совокупности шансов будет
Если мы наблюдаем данные в виде таблицы непредвиденных обстоятельств
тогда вероятности в совместном распределении можно оценить как
где ︿p ij = n ij / n, где n = n 11 + n 10 + n 01 + n 00 - сумма всех четырех ячеек. Примерное отношение шансов журнала составляет
Распределение логарифмических коэффициентов отношение приблизительно равно нормальному с:
стандартная ошибка для журнала отношение шансов приблизительно равно
Это асимптотическое приближение, которое не даст значимого результата, если какое-либо количество ячеек очень мало. Если L представляет собой отношение шансов логарифмической выборки, приблизительный 95% доверительный интервал для логарифмического отношения шансов генеральной совокупности составляет L ± 1,96SE. Это может быть отображено в exp (L - 1.96SE), exp (L + 1.96SE) для получения 95% доверительного интервала для отношения шансов. Если мы хотим проверить гипотезу о том, что отношение шансов населения равно единице, двустороннее p-значение равно 2P (Z < −|L|/SE), where P denotes a probability, and Z denotes a стандартная нормальная случайная величина.
Альтернативный подход к выводу для отношения шансов рассматривает распределение данных условно по предельным частотам X и Y. Преимущество этого подхода состоит в том, что выборочное распределение отношения шансов может быть выражено точно.
Логистика регрессия - это один из способов обобщения отношения шансов за пределами двух двоичных переменных.Предположим, у нас есть переменная двоичного ответа Y и переменная двоичного предиктора X, и, кроме того, у нас есть другие переменные предиктора Z 1,..., Z p, которые могут быть или не быть двоичными. Если мы используем множественную логистическую регрессию для регрессии Y на X, Z 1,..., Z p, то оценочный коэффициент для X связан с условным отношением шансов. В частности, в генеральной совокупности уровень
поэтому является оценкой этого условного отношения шансов. - это оценка отношения шансов между Y и X, когда значения Z 1,..., Z p остаются фиксированными.
Если данные образуют «выборку населения», то вероятности ячеек ∧p ij интерпретируются как частоты каждого из четыре группы населения, определяемые их значениями X и Y. Во многих случаях получить выборку населения нецелесообразно, поэтому используется выбранная выборка. Например, мы можем выбрать выборку единиц с X = 1 с заданной вероятностью f, независимо от их частоты в генеральной совокупности (что потребует выборки единиц с X = 0 с вероятностью 1 - f). В этой ситуации наши данные будут следовать следующим совместным вероятностям:
Отношение шансов p 11p00/ p 01p10для этого распределения не зависит от значения f. Это показывает, что отношение шансов (и, следовательно, логарифмическое отношение шансов) инвариантно для неслучайной выборки на основе одной из изучаемых переменных. Однако обратите внимание, что стандартная ошибка логарифмического отношения шансов зависит от значения f.
Этот факт используется в двух важных ситуациях:
В обоих случаях отношение шансов может быть рассчитано на основе выбранной выборки без смещения результатов относительно того, что было бы получено для выборки населения.
Из-за широкого использования логистической регрессии отношение шансов широко используется во многих областях медицинских и социальных исследований. Отношение шансов обычно используется в обзорном исследовании, в эпидемиологии и для выражения результатов некоторых клинических испытаний, например, в случай-контроль. учеба. В отчетах часто используется аббревиатура «ИЛИ». Когда данные из нескольких опросов объединяются, это часто выражается как «объединенное ИЛИ».
В клинических исследованиях, а также в некоторых других условиях наибольший интерес представляет параметр относительный риск, а не отношение шансов. Относительный риск лучше всего оценивать с использованием выборки населения, но если выполняется предположение редкого заболевания, отношение шансов является хорошим приближением к относительному риску - шансы равны p / (1 - p), поэтому, когда p приближается к нулю, 1 - p приближается к 1, что означает, что шансы приближаются к риску, а отношение шансов приближается к относительному риску. Когда предположение о редком заболевании не выполняется, отношение шансов может переоценить относительный риск.
Если доступен абсолютный риск в контрольной группе, преобразование между ними рассчитывается по формуле:
где:
В медицинской литературе отношение шансов часто путают с относительным риском. Для нестатистиков понятие отношения шансов является трудным для понимания, и оно дает более впечатляющую цифру для эффекта. Однако большинство авторов считают, что относительный риск легко понять. В одном исследовании члены национального фонда борьбы с болезнями на самом деле были в 3,5 раза чаще, чем не члены, слышали об общем лечении этого заболевания, но отношение шансов составляло 24, и в документе говорилось, что члены были более чем в 20 раз более вероятны. слышать о лечении. Исследование статей, опубликованных в двух журналах, показало, что 26% статей, в которых использовалось отношение шансов, интерпретировали его как отношение риска.
Это может отражать простой процесс, когда непонимающие авторы выбирают наиболее впечатляюще выглядящие и пригодные для публикации фигура. Но в некоторых случаях его использование может быть заведомо вводящим в заблуждение. Было высказано предположение, что отношение шансов следует представлять как меру величины эффекта, когда отношение рисков нельзя оценить напрямую.
Отношение шансов имеет еще одно уникальное свойство - быть прямо математически обратимым при анализе OR как выживаемости или заболеваемости, где OR для выживаемости является прямой обратной величиной 1 / OR для риска. Это известно как «неизменность отношения шансов». Напротив, относительный риск не обладает этим математическим обратимым свойством при изучении выживаемости болезни в сравнении с заболеваемостью. Этот феномен обратимости OR по сравнению с необратимостью RR лучше всего проиллюстрирован на примере:
Предположим, в клиническом исследовании риск нежелательных явлений составляет 4/100 в группе лекарств и 2/100 в группе плацебо.... что дает RR = 2 и OR = 2,04166 для неблагоприятного риска по сравнению с плацебо. Однако, если бы анализ был инвертирован, а нежелательные явления вместо этого анализировались как выживаемость без событий, тогда группа лекарств имела бы показатель 96/100, а группа плацебо имела бы показатель 98/100, что давало бы соотношение лекарств и плацебо. RR = 0,9796 для выживаемости, но OR = 0,48979. Как можно видеть, RR 0,9796 явно не является обратной величиной RR, равной 2. Напротив, OR 0,48979 действительно является прямым обратным OR 2,04166.
Это снова то, что называется «инвариантностью отношения шансов», и почему RR для выживания не то же самое, что RR для риска, в то время как OR имеет это симметричное свойство при анализе выживаемости или неблагоприятных риск. Опасность клинической интерпретации OR возникает, когда частота нежелательных явлений не является редкой, что приводит к преувеличению различий, когда предположение OR редкого заболевания не выполняется. С другой стороны, когда заболевание встречается редко, использование RR для выживаемости (например, RR = 0,9796 из приведенного выше примера) может клинически скрыть и скрыть важное удвоение неблагоприятного риска, связанного с лекарством или воздействием.
Отношение шансов выборки n11n00/ n 10n01легко рассчитать, и для средних и больших выборок хорошо работает оценка отношения шансов популяции. Когда одна или несколько ячеек в таблице непредвиденных обстоятельств могут иметь небольшое значение, отношение шансов выборки может быть смещенным и иметь высокую дисперсию.
Число альтернативных оценок отношения шансов были предложены для устранения ограничений выборки отношения шансов. Один из альтернативных оценщиков - это оценщик условного максимального правдоподобия, который учитывает поля строки и столбца при формировании вероятности максимизации (как в точном критерии Фишера ). Другой альтернативный оценщик - это оценщик Мантеля – Хензеля.
Следующие четыре таблицы непредвиденных обстоятельств содержат наблюдаемое количество клеток, а также соответствующее отношение шансов (OR) и логарифмическое отношение шансов (LOR) для выборки.):
ИЛИ = 1, LOR = 0 | OR = 1, LOR = 0 | OR = 4, LOR = 1,39 | OR = 0,25, LOR = −1,39 | |||||
---|---|---|---|---|---|---|---|---|
Y = 1 | Y = 0 | Y = 1 | Y = 0 | Y = 1 | Y = 0 | Y = 1 | Y = 0 | |
X = 1 | 10 | 10 | 100 | 100 | 20 | 10 | 10 | 20 |
X = 0 | 5 | 5 | 50 | 50 | 10 | 20 | 20 | 10 |
Следующие совместные распределения вероятностей содержат вероятности популяционных клеток вместе с соответствующее отношение шансов популяции (OR) и логарифм отношения шансов популяции (LOR):
OR = 1, LOR = 0 | OR = 1, LOR = 0 | OR = 16, LOR = 2,77 | OR = 0,67, LOR = -0,41 | |||||
---|---|---|---|---|---|---|---|---|
Y = 1 | Y = 0 | Y = 1 | Y = 0 | Y = 1 | Y = 0 | Y = 1 | Y = 0 | |
X = 1 | 0.2 | 0.2 | 0.4 | 0.4 | 0.4 | 0.1 | 0.1 | 0.3 |
X = 0 | 0.3 | 0.3 | 0.1 | 0.1 | 0.1 | 0.4 | 0.2 | 0.4 |
Experimental group (E) | Control group (C) | Total | |
---|---|---|---|
Events (E) | EE = 15 | CE = 100 | 115 |
Non-events (N) | EN = 135 | CN = 150 | 285 |
Total subjects (S) | ES = EE + EN = 150 | CS = CE + CN = 250 | 400 |
Event rate (ER) | EER = EE / ES = 0.1, or 10% | CER = CE / CS = 0.4, or 40% |
Equation | Variable | Abbr. | Value |
---|---|---|---|
CER - EER | absolute risk reduction | ARR | 0.3, or 30% |
(CER - EER) / CER | relative risk reduction | RR R | 0.75, or 75% |
1 / (CER − EER) | number needed to treat | NNT | 3.33 |
EER / CER | risk ratio | RR | 0.25 |
(EE / EN) / (CE / CN) | odds ratio | OR | 0.167 |
(CER - EER) / CER | preventable fraction among the unexposed | PFu | 0.75 |
There are various other summary statistics for contingency tables that measure association between two events, such as Yule's Y, Yule's Q ; these two are normalized so they are 0 for independent events, 1 for perfectly correlated, −1 for perfectly negatively correlated. Edwards (1963)studied these and argued that these measures of association must be functions of the odds ratio, which he referred to as the cross-ratio.