Экологическая ошибка

редактировать

экологическая ошибка (также экологическая ошибка вывода или популяционная ошибка ) является формальной ошибкой в интерпретации статистических данных, которая возникает, когда выводы о природе индивидов выводятся из предположений о группе, к которой люди принадлежат. «Экологическая ошибка» - это термин, который иногда используется для описания ошибки разделения, которая не является статистической ошибкой. Четыре общих статистических экологических заблуждения: смешение экологических корреляций и индивидуальных корреляций, смешение между средним групповым и общим средним, парадокс Симпсона и смешение между более высоким средним и более высокой вероятностью.

Содержание

1 Примеры
- 1.1 Среднее значение и медиана
- 1.2 Индивидуальные и совокупные корреляции
- 1.3 Парадокс Робинсона
- 1.4 Формальная проблема
- 1.5 Выбор между совокупным и индивидуальным выводом
2 Групповые и общие средние
3 Парадокс Симпсона
4 Юридические приложения
5 См. Также
6 Ссылки
- 6.1 Цитаты
- 6.2 Дополнительная литература

Примеры

Среднее и медиана

Примером экологической ошибки является предположение о том, что среднее значение популяции имеет простую интерпретацию при рассмотрении вероятностей для отдельного человека.

Например, если средний балл группы больше нуля, это не означает, что случайный человек из этой группы с большей вероятностью получит положительный результат, чем отрицательный (при условии, что больше отрицательных оценок, чем положительных, человек с большей вероятностью получит отрицательную оценку). Точно так же, если определенная группа людей имеет более низкий средний IQ, чем общая популяция, будет ошибкой сделать вывод, что случайно выбранный член группы с большей вероятностью будет иметь более низкий IQ, чем средний IQ. населения в целом; Также не обязательно, чтобы случайно выбранный член группы имел более низкий IQ, чем случайно выбранный член общей популяции. Математически это происходит из-за того, что распределение может иметь положительное среднее, но отрицательное медианное значение. Это свойство связано с асимметрией распределения.

Рассмотрим следующий числовой пример:

Группа A: 80% людей получили 40 баллов, а 20% из них получили 95 баллов.. Средний балл составляет 51 балл.
Группа B: 50% людей получили 45 баллов и 50% получили 55 баллов. Средняя оценка составляет 50 баллов.
Если мы выберем двух человек наугад из A и B, есть 4 возможных результата:
- A - 40, B - 45 (B выигрывает, 40% вероятность - 0,8 × 0,5)
- A - 40, B - 55 (B выигрывает, вероятность 40% - 0,8 × 0,5)
- A - 95, B - 45 (A выигрывает, 10% вероятность - 0,2 × 0,5)
- A - 95, B - 55 (A выигрывает, вероятность 10% - 0,2 × 0,5)
Хотя группа A имеет более высокий средний балл, в 80% случаев случайный индивидуум из A получит меньше баллов, чем случайный человек из B.

Индивидуальные и совокупные корреляции

Предположим, что на индивидуальном уровне протестантство снижает его склонность к самоубийству, но вероятность того, что его сосед совершает самоубийство, увеличивается склонность стать протестантом. Тогда, даже если на индивидуальном уровне существует отрицательная корреляция между суицидными тенденциями и протестантизмом, может быть положительная корреляция на совокупном уровне.

Агрегированная модель правильно описывает однозначно положительную корреляцию между становлением протестантом и самоубийством по соседству, если и только если внутри каждой другой религии склонность человека к обращению или становлению более религиозным не коррелирует положительно с самоубийством соседей. 21>

Точно так же, даже если на индивидуальном уровне богатство положительно коррелирует со склонностью голосовать за республиканцев, мы наблюдаем, что более богатые штаты склонны голосовать за демократов. Например, в 2004 году кандидат от республиканцев Джордж Буш выиграл пятнадцать самых бедных штатов, а кандидат от демократов Джон Керри выиграл 9 из 11 самых богатых штатов. Тем не менее, 62% избирателей с годовым доходом более 200 000 долларов проголосовали за Буша, но только 36% избирателей с годовым доходом в 15 000 долларов или меньше проголосовали за Буша. Корреляция на совокупном уровне будет отличаться от корреляции на индивидуальном уровне, если на предпочтения при голосовании влияет общее богатство государства даже после контроля индивидуального богатства. Возможно, истинным движущим фактором предпочтения при голосовании является самооценка относительного богатства; возможно, те, кто считает себя более обеспеченными, чем их соседи, с большей вероятностью проголосуют за республиканцев. В этом случае человек с большей вероятностью проголосует за республиканца, если станет богаче, но он с большей вероятностью проголосует за демократа, если богатство его соседа увеличится (что приведет к более богатому государству).

Однако наблюдаемое различие в привычках голосования, основанное на уровне благосостояния на уровне штата и на индивидуальном уровне, также можно объяснить общей путаницей между более высокими средними значениями и более высокой вероятностью, как обсуждалось выше. Государства могут быть богаче не потому, что в них больше богатых людей (т. Е. Больше людей с годовым доходом более 200 000 долларов), а потому, что они содержат небольшое количество сверхбогатых людей; тогда экологическая ошибка возникает из-за неправильного предположения, что люди в более богатых государствах с большей вероятностью будут богатыми.

Ранним примером экологической ошибки было исследование Эмиля Дюркгейма 1897 самоубийства во Франции, которое было проведено во Франции в 1897 году, хотя некоторые обсуждали этот факт.

Многие примеры экологических заблуждений можно найти в исследованиях социальных сетей, которые часто сочетают анализ и выводы с разных уровней. Это было проиллюстрировано в академической статье о сетях фермеров на Суматре.

Парадокс Робинсона

В статье 1950 года Уильяма С. Робинсона вычислен уровень неграмотности и доля населения, рожденного за пределами США для каждого штата и округа Колумбия по данным переписи 1930 года. Он показал, что эти две цифры связаны с отрицательной корреляцией -0,53; Другими словами, чем больше доля иммигрантов в государстве, тем ниже его средний уровень неграмотности. Однако, если рассматривать индивидов, корреляция составила +0,12 (иммигранты в среднем были более неграмотными, чем коренные жители). Робинсон показал, что отрицательная корреляция на уровне населения штата объясняется тем, что иммигранты имеют тенденцию селиться в штатах, где коренное население более грамотно. Он предостерег от выводов о людях на основании популяционных или «экологических» данных. В 2011 году было обнаружено, что расчеты Робинсона экологических корреляций основаны на неверных данных на уровне штата. Вышеупомянутая корреляция -0,53 фактически равна -0,46. Работа Робинсона была плодотворной, но термин «экологическая ошибка» не был введен Селвином до 1958 года.

Формальная проблема

Корреляция совокупных величин (или экологическая корреляция ) не равно соотношению отдельных величин. Обозначим X i, Y i две величины на индивидуальном уровне. Формула ковариации агрегированных величин в группах размером N:

cov ⁡ (∑ i = 1 NY i, ∑ i = 1 NX i) = ∑ i = 1 N cov ⁡ (Y i, X i) + ∑ я знак равно 1 N ∑ l ≠ я cov ⁡ (Y l, X i) {\ displaystyle \ operatorname {cov} \ left (\ sum _ {i = 1} ^ {N} Y_ {i}, \ sum _ {i = 1} ^ {N} X_ {i} \ right) = \ sum _ {i = 1} ^ {N} \ operatorname {cov} (Y_ {i}, X_ {i}) + \ sum _ { i = 1} ^ {N} \ sum _ {l \ neq i} \ operatorname {cov} (Y_ {l}, X_ {i})}

\ operatorname {cov} \ left (\ sum _ {{i = 1}} ^ {N} Y_ {i}, \ sum _ {{i = 1}} ^ {N} X_ {i} \ right) = \ sum _ {{i = 1}} ^ {{N}} \ operatorname {cov} (Y _ {{i}}, X_ {i}) + \ sum _ {{i = 1}} ^ {N} \ sum _ {{l \ neq i}} \ operatorname {cov} (Y_ {l}, X_ {i})

Ковариация двух агрегированных переменных зависит не только от ковариации две переменные внутри одних и тех же людей, но также и на ковариации переменных между разными людьми. Другими словами, корреляция агрегированных переменных учитывает перекрестные эффекты, которые не актуальны на индивидуальном уровне.

Проблема корреляций, естественно, влечет за собой проблему для регрессий по совокупным переменным: поэтому ошибка корреляции является важной проблемой для исследователя, который хочет измерить причинные воздействия. Начнем с регрессионной модели, в которой на результат $Y i {\ displaystyle Y_ {i}}$ $Y_i$ влияет $X i {\ displaystyle X_ {i}}$ $X_i$

Y i = α + β Икс я + ui, {\ displaystyle Y_ {i} = \ alpha + \ beta X_ {i} + u_ {i},}

Y_ {i} = \ alpha + \ beta X_ {i} + u_ {i},

cov ⁡ [ui, X i] = 0. {\ displaystyle \ operatorname {cov} [u_ {i}, X_ {i}] = 0.}

\ operatorname {cov} [u_ {i}, X_ {i}] = 0.

Модель регрессии на агрегированном уровне получается путем суммирования отдельных уравнений:

∑ i = 1 NY i = α ⋅ N + β ∑ я знак равно 1 NX я + ∑ я знак равно 1 N ui, {\ displaystyle \ sum _ {i = 1} ^ {N} Y_ {i} = \ alpha \ cdot N + \ beta \ sum _ {i = 1} ^ {N} X_ {i} + \ sum _ {i = 1} ^ {N} u_ {i},}

{\ displaystyle \ sum _ {i = 1} ^ {N} Y_ {i} = \ alpha \ cdot N + \ beta \ sum _ {i = 1} ^ {N} X_ {i} + \ sum _ {i = 1} ^ {N} u_ {i},}

cov ⁡ [∑ i = 1 N ui, ∑ i = 1 NX i] ≠ 0. {\ displaystyle \ operatorname {cov} \ left [\ sum _ {i = 1} ^ {N} u_ {i}, \ sum _ {i = 1} ^ {N} X_ {i} \ right] \ neq 0.}

\ operatorname {cov} \ left [\ sum _ {{i = 1} } ^ {N} u_ {i}, \ sum _ {{i = 1}} ^ {{N}} X_ {i} \ right] \ neq 0.

Ничто не препятствует корреляции регрессоров и ошибок на агрегированном уровне. Поэтому, как правило, регрессия агрегированных данных не дает оценки той же модели, что и регрессия индивидуальных данных.

Агрегированная модель верна тогда и только тогда, когда

cov ⁡ [u i, ∑ k = 1 N X k] = 0 для всех i. {\ displaystyle \ operatorname {cov} \ left [u_ {i}, \ sum _ {k = 1} ^ {N} X_ {k} \ right] = 0 \ quad {\ text {для всех}} i.}

\ operatorname {cov} \ left [u_ {i}, \ sum _ {{k = 1}} ^ {{N}} X_ {k} \ rig ht] = 0 \ quad {\ text {для всех}} i.

Это означает, что при контроле $X i {\ displaystyle X_ {i}}$ $X_i$ , $∑ k = 1 NX k {\ displaystyle \ sum _ {k = 1} ^ {N} X_ {k} }$ $\ sum_ {k = 1} ^ {N} X_k$ не определяет $Y i {\ displaystyle Y_ {i}}$ $Y_ {i}$ .

Выбор между агрегированным и индивидуальным выводом

Нет ничего плохого в выполнении регрессии на агрегированных данных, если интересуется агрегатной моделью. Например, для губернатора штата будет правильным провести регрессию между полицейскими силами по уровню преступности на уровне штата, если вы заинтересованы в политических последствиях увеличения численности полиции. Однако экологическая ошибка может произойти, если городской совет выведет влияние увеличения полицейских сил на уровень преступности на уровне города из корреляции на уровне штата.

Выбор запуска агрегированной или индивидуальной регрессии для понимания совокупного воздействия на определенную политику зависит от следующего компромисса: агрегированные регрессии теряют данные индивидуального уровня, но отдельные регрессии добавляют сильные допущения моделирования. Некоторые исследователи предполагают, что экологическая корреляция дает лучшую картину результатов действий государственной политики, поэтому они рекомендуют для этой цели экологическую корреляцию, а не корреляцию на индивидуальном уровне (Lubinski Humphreys, 1996). Другие исследователи не согласны, особенно если отношения между уровнями четко не смоделированы. Чтобы предотвратить экологическую ошибку, исследователи, не располагающие индивидуальными данными, могут сначала смоделировать то, что происходит на индивидуальном уровне, затем смоделировать, как связаны индивидуальный и групповой уровни, и, наконец, исследовать, способствует ли что-либо происходящее на групповом уровне пониманию взаимосвязи. Например, при оценке воздействия государственной политики полезно знать, что влияние политики в разных штатах различается меньше, чем сама политика, что позволяет предположить, что различия в политике не очень хорошо преобразуются в результаты, несмотря на высокие экологические корреляции (Rose, 1973).).

Групповые и общие средние значения

Экологическое заблуждение также может относиться к следующему заблуждению: среднее значение для группы приблизительно равно среднему значению от общей численности населения, разделенному на размер группы. Предположим, кто-то знает количество протестантов и уровень самоубийств в США, но у вас нет данных, связывающих религию и самоубийства на индивидуальном уровне. Если кто-то интересуется уровнем самоубийств протестантов, было бы ошибкой оценивать его как общий уровень самоубийств, деленный на количество протестантов. Формально обозначим $P [Suicide ∣ Protestant] {\ displaystyle P [{\ text {Suicide}} \ mid {\ text {Protestant}}]}$ $P [{\ text {Suicide}} \ mid {\ text {Protestant}}]$ среднее значение группы, обычно мы имеем :

P [Самоубийство ∣ Протестант] ≠ P [Самоубийство] P (Протестант) {\ displaystyle P [{\ text {Suicide}} \ mid {\ text {Protestant}}] \ neq {\ frac {P [{ \ text {Suicide}}]} {P ({\ text {Protestant}})}}}

P [{\ text {Suicide}} \ mid {\ text {Protestant}}] \ neq {\ frac {P [{ \ text {Suicide}}]} {P ({\ text {Protestant}})}}

Однако закон полной вероятности дает

P [Suicide] = P [Suicide ∣ протестант] P (протестант) + P [самоубийство ∣ не протестант] (1 - P (протестант)) {\ displaystyle {\ begin {align} P [{\ text {Suicide}}] = {\ color {Blue} P [{\ text {Suicide}} \ mid {\ text {Protestant}}]} P ({\ text {Protestant}}) + {\ color {Blue} P [{\ text {Suicide}} \ mid {\ text {не протестантский}}]} (1-P ({\ text {Protestant}})) \ end {align}}}

{\ begin {align} P [{\ text {Suicide}}] = {\ color {Синий} P [{\ text {Suicide}} \ mid {\ text {Protestant}}]} P ({\ text {Protestant}}) + {\ color {Blue} P [{\ text {Suicide}} \ mid {\ текст {не протестантский}}]} (1-P ({\ text {протестантский}})) \ end {выровнен}}

Как мы знаем, $P [самоубийство ∣ не протестантское] {\ displaystyle P [ {\ text {Suicide}} \ mid {\ text {not Protestant}}]}$ $P [{\ text {Suicide}} \ mid {\ text {not Protestant}}]$ находится между 0 и 1, это уравнение дает оценку для $P [Suicide ∣ Protestant] {\ displaystyle P [{\ text {Суицид e}} \ mid {\ text {Протестант}}]}$ $P [{\ text {Suicide}} \ mid {\ text {Protestant}}]$ .

Парадокс Симпсона

Поразительной экологической ошибкой является парадокс Симпсона: тот факт, что при сравнении двух популяций, разделенных на группы, среднее значение некоторой переменной в первая популяция может быть выше в каждой группе и все же ниже в общей популяции. Формально, когда каждое значение Z относится к разной группе, а X относится к некоторой обработке, может случиться так, что

E [Y ∣ Z = z, X = 1]>E [Y ∣ Z = z, X = 0 ] для всех z, а E [Y ∣ X = 1] < E [ Y ∣ X = 0 ] {\displaystyle E[Y\mid Z=z,X=1]>E [Y \ mid Z = z, X = 0] \ {\ text {для всех}} z, {\ text {while}} E [ Y \ mid X = 1]

E[Y\mid Z=z,X=1]>E [Y \ mid Z = z, X = 0] \ {\ text {для всех}} z, {\ text {while}} E [Y \ mid X = 1] <E[Y\mid X=0]

Когда $E [Y ∣ Z = z, X = 1] - E [Y ∣ Z = z, X = 0] {\ displaystyle E [Y \ mid Z = z, X = 1] -E [Y \ mid Z = z, X = 0]}$ $E [Y \ mid Z = z, X = 1] -E [Y \ mid Z = z, X = 0]$ не зависит от $Z {\ displaystyle Z}$ $Z$ , парадокс Симпсона - это в точности пропущенная переменная bias для регрессии Y на X, где регрессор $X {\ displaystyle X}$ $X$ является фиктивной переменной, а пропущенная переменная $Z {\ displaystyle Z}$ $Z$ - это категориальная переменная, определяющая группы для каждого принимаемого значения. Приложение поражает тем, что смещение достаточно велико, и параметры имеют противоположные знаки.

Правовые применения

Экологическая ошибка обсуждалась в суде, оспаривающем выборы губернатора Вашингтона в 2004 г., в ходе которых после выборов был выявлен ряд нелегальных избирателей; их голоса были неизвестны, потому что голосование проводилось тайным голосованием. Претенденты утверждали, что незаконные голоса, поданные на выборах, соответствовали бы схеме голосования на участках, на которых они были поданы, и поэтому необходимо внести соответствующие корректировки. Свидетель-эксперт сказал, что такой подход походил на попытку вычислить средний уровень ответа Ичиро Судзуки, глядя на средний уровень ответа всей команды Seattle Mariners, поскольку незаконные голоса были отданы нерепрезентативная выборка избирателей каждого участка и может отличаться от среднего избирателя на участке, как Ичиро от остальной его команды. Судья решил, что аргумент оппонентов был экологической ошибкой, и отверг его.

См. Также

Ссылки