В статистике, ложная корреляция отношений - это форма ложной корреляции, которая возникает между отношениями абсолютные измерения, которые сами по себе не коррелированы.
Феномен ложной корреляции соотношений является одним из основных мотивов анализа композиционных данных, который занимается анализом переменных, содержащих только относительная информация, такая как пропорции, проценты и доли на миллион.
Ложная корреляция отличается от неправильных представлений о корреляции и причинно-следственной связи.
Пирсон приводит простой пример ложной корреляции:
Выберите три числа из определенных случайные диапазоны, скажем x, y, z, они будут парами и парами некоррелированными. Сформируйте правильные дроби x / y и z / y для каждого триплета, и между этими индексами будет найдена корреляция.
График разброса выше иллюстрирует этот пример с использованием 500 наблюдений x, y и z. Переменные x, y и z взяты из нормальных распределений со средними значениями 10, 10 и 30 соответственно и стандартными отклонениями 1, 1 и 3 соответственно, т.е.
Даже хотя x, y и z являются статистически независимыми и, следовательно, некоррелированными, в изображенном типичном образце отношения x / z и y / z имеют корреляцию 0,53. Это связано с общим делителем (z), и его можно лучше понять, если мы раскрасим точки на диаграмме рассеяния по значению z. Трио (x, y, z) с относительно большими значениями z, как правило, появляются в нижнем левом углу графика; трио с относительно небольшими значениями z обычно появляются в правом верхнем углу.
Пирсон вывел аппроксимацию корреляции, которая будет наблюдаться между двумя индексами (и ), т. Е. Отношения абсолютных измерений :
где - коэффициент вариации для и корреляция Пирсона между и .
Это экспрессио n можно упростить для ситуаций, когда есть общий делитель, установив и не коррелированы, что дает ложную корреляцию:
Для особого случая, когда все коэффициенты вариации равны (как в случае на иллюстрациях справа),
К Пирсону присоединились сэр Фрэнсис Гальтон и Уолтер Фрэнк Рафаэль Велдон в предостережении ученых от ложной корреляции, особенно в биологии, где принято масштабировать или нормализовать измерения путем деления их на конкретную переменную или сумму. Опасность, которую он видел, заключалась в том, что выводы будут сделаны на основе корреляций, являющихся артефактами метода анализа, а не реальных «органических» взаимосвязей.
Однако, похоже, что ложная корреляция (и ее способность вводить в заблуждение) еще не получила широкого понимания. В 1986 году Джон Эйтчисон, который впервые применил логарифмический подход к анализу композиционных данных, писал:
Кажется удивительным, что предупреждения трех таких выдающихся статистиков-ученых, как Пирсон, Гальтон и Велдон должен был оставаться незамеченным так долго: даже сегодня регулярно сообщается о некритических применениях несоответствующих статистических методов к композиционным данным с вытекающими отсюда сомнительными выводами.
Более поздние публикации предполагают, что такое отсутствие осведомленности преобладает, по крайней мере, в молекулярной бионауке.