Ложная корреляция отношений

редактировать
понятие в статистике Иллюстрация ложного корреляции, этот рисунок показывает 500 наблюдений x / z, нанесенных на график против y / z. Выборочная корреляция составляет 0,53, даже несмотря на то, что x, y и z статистически независимы друг от друга (т. Е. Парные корреляции между каждым из них равны нулю). Значения z выделены на цветовой шкале.

В статистике, ложная корреляция отношений - это форма ложной корреляции, которая возникает между отношениями абсолютные измерения, которые сами по себе не коррелированы.

Феномен ложной корреляции соотношений является одним из основных мотивов анализа композиционных данных, который занимается анализом переменных, содержащих только относительная информация, такая как пропорции, проценты и доли на миллион.

Ложная корреляция отличается от неправильных представлений о корреляции и причинно-следственной связи.

Содержание
  • 1 Иллюстрация ложной корреляции
  • 2 Приблизительное количество ложной корреляции
  • 3 Соответствие биологии и другим наукам
  • 4 Ссылки
Иллюстрация ложной корреляции

Пирсон приводит простой пример ложной корреляции:

Выберите три числа из определенных случайные диапазоны, скажем x, y, z, они будут парами и парами некоррелированными. Сформируйте правильные дроби x / y и z / y для каждого триплета, и между этими индексами будет найдена корреляция.

График разброса выше иллюстрирует этот пример с использованием 500 наблюдений x, y и z. Переменные x, y и z взяты из нормальных распределений со средними значениями 10, 10 и 30 соответственно и стандартными отклонениями 1, 1 и 3 соответственно, т.е.

x, y ∼ N (10, 1) z ∼ N (30, 3) {\ displaystyle {\ begin {align} x, y \ sim N (10,1) \\ z \ sim N (30,3) \\\ end {align}}}{\ displaystyle {\ begin {выровнено} x, y \ sim N (10,1) \\ z \ sim N (30,3) \\\ конец {выровнено}}}

Даже хотя x, y и z являются статистически независимыми и, следовательно, некоррелированными, в изображенном типичном образце отношения x / z и y / z имеют корреляцию 0,53. Это связано с общим делителем (z), и его можно лучше понять, если мы раскрасим точки на диаграмме рассеяния по значению z. Трио (x, y, z) с относительно большими значениями z, как правило, появляются в нижнем левом углу графика; трио с относительно небольшими значениями z обычно появляются в правом верхнем углу.

Приблизительное количество ложной корреляции

Пирсон вывел аппроксимацию корреляции, которая будет наблюдаться между двумя индексами (x 1 / x 3 {\ displaystyle x_ {1} / x_ { 3}}x_ {1} / x_ {3} и x 2 / x 4 {\ displaystyle x_ {2} / x_ {4}}x_ {2} / x_ {4} ), т. Е. Отношения абсолютных измерений x 1, x 2, x 3, x 4 {\ displaystyle x_ {1}, x_ {2}, x_ {3}, x_ {4}}x_ {1}, x_ {2}, x_ {3 }, x_ {4} :

ρ = r 12 v 1 v 2 - r 14 v 1 v 4 - р 23 v 2 v 3 + р 34 v 3 v 4 v 1 2 + v 3 2 - 2 r 13 v 1 v 3 v 2 2 + v 4 2 - 2 r 24 v 2 v 4 {\ displaystyle \ rho = {\ frac {r_ {12} v_ {1} v_ {2} -r_ {14} v_ {1} v_ {4} -r_ {23} v_ {2} v_ {3} + r_ {34} v_ { 3} v_ {4}} {{\ sqrt {v_ {1} ^ {2} + v_ {3} ^ {2} -2r_ {13} v_ {1} v_ {3}}} {\ sqrt {v_ { 2} ^ {2} + v_ {4} ^ {2} -2r_ {24} v_ {2} v_ {4}}}}}\ rho = \ frac {r_ {12} v_1 v_2 - r_ {14} v_1 v_4 - r_ {23} v_2 v_3 + r_ {34} v_3 v_4} {\ sqrt {v_1 ^ 2 + v_3 ^ 2 - 2 r_ {13} v_1 v_3} \ sqrt {v_2 ^ 2 + v_4 ^ 2 - 2 r_ { 24} v_2 v_4}}

где vi {\ displaystyle v_ {i}}v_ {i} - коэффициент вариации для xi {\ displaystyle x_ {i}}x_ {i} и rij {\ displaystyle r_ {ij}}r_ {ij} корреляция Пирсона между xi {\ displaystyle x_ {i}}x_ {i} и xj {\ displaystyle x_ {j}}x_ {j} .

Это экспрессио n можно упростить для ситуаций, когда есть общий делитель, установив x 3 = x 4 {\ displaystyle x_ {3} = x_ {4}}x_ {3} = x_ {4} и x 1, x 2, x 3 {\ displaystyle x_ {1}, x_ {2}, x_ {3}}x_ {1}, x_ {2}, x_ {3} не коррелированы, что дает ложную корреляцию:

ρ 0 = v 3 2 v 1 2 + v 3 2 v 2 2 + v 3 2. {\ displaystyle \ rho _ {0} = {\ frac {v_ {3} ^ {2}} {{\ sqrt {v_ {1} ^ {2} + v_ {3} ^ {2}}} {\ sqrt {v_ {2} ^ {2} + v_ {3} ^ {2}}}}}.}\ rho _ {0} = {\ frac {v_ {3} ^ {2}} {{\ sqrt {v_ {1} ^ {2} + v_ {3} ^ {2}}} {\ sqrt {v_ {2} ^ {2} + v_ {3} ^ {2}}}}}.

Для особого случая, когда все коэффициенты вариации равны (как в случае на иллюстрациях справа), ρ 0 = 0,5 {\ displaystyle \ rho _ {0} = 0,5}\ rho _ {0} = 0,5

Соответствие биологии и другим наукам

К Пирсону присоединились сэр Фрэнсис Гальтон и Уолтер Фрэнк Рафаэль Велдон в предостережении ученых от ложной корреляции, особенно в биологии, где принято масштабировать или нормализовать измерения путем деления их на конкретную переменную или сумму. Опасность, которую он видел, заключалась в том, что выводы будут сделаны на основе корреляций, являющихся артефактами метода анализа, а не реальных «органических» взаимосвязей.

Однако, похоже, что ложная корреляция (и ее способность вводить в заблуждение) еще не получила широкого понимания. В 1986 году Джон Эйтчисон, который впервые применил логарифмический подход к анализу композиционных данных, писал:

Кажется удивительным, что предупреждения трех таких выдающихся статистиков-ученых, как Пирсон, Гальтон и Велдон должен был оставаться незамеченным так долго: даже сегодня регулярно сообщается о некритических применениях несоответствующих статистических методов к композиционным данным с вытекающими отсюда сомнительными выводами.

Более поздние публикации предполагают, что такое отсутствие осведомленности преобладает, по крайней мере, в молекулярной бионауке.

Ссылки
Последняя правка сделана 2021-06-09 04:03:58
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте