В статистике, корреляция или зависимость - это любая статистическая взаимосвязь, причинная или нет, между двумя случайными величинами или двумерными данными. В самом широком смысле корреляция - это любая статистическая ассоциация, хотя обычно она относится к степени, в которой пара переменных линейно связана. Знакомые примеры зависимых явлений включают корреляцию между ростом родителей и их потомков, а также корреляцию между ценой товара и количеством, которое потребители готовы купить, как это изображено в так так называемая кривая спроса.
Корреляции полезны, потому что они могут указывать на прогнозирующую взаимосвязь, которую можно использовать на практике. Например, электроэнергетическая компания может производить меньше электроэнергии в мягкий день из-за корреляции между спросом на электроэнергию и погодой. В этом примере существует причинно-следственная связь, потому что экстремальные погодные условия заставляют людей использовать больше электроэнергии для обогрева или охлаждения. Однако, как правило, наличия корреляции недостаточно, чтобы сделать вывод о наличии причинно-следственной связи (т. Е. корреляция не подразумевает причинную связь ).
Формально случайные величины являются зависимыми, если они не удовлетворяют математическому свойству вероятностной независимости. Выражаясь неформальным языком, корреляция является синонимом зависимости. Однако при использовании в техническом смысле корреляция относится к любому из нескольких конкретных типов математических операций между тестируемыми переменными и их соответствующими ожидаемыми значениями. По сути, корреляция - это мера того, как две или более переменных связаны друг с другом. Существует несколько коэффициентов корреляции, часто обозначаемых или , измеряющих степень корреляции. Наиболее распространенным из них является коэффициент корреляции Пирсона, который чувствителен только к линейной зависимости между двумя переменными (которая может присутствовать, даже если одна переменная является нелинейной функцией другой). Другие коэффициенты корреляции, такие как ранговая корреляция Спирмена, были разработаны так, чтобы быть более надежными, чем коэффициенты Пирсона, то есть более чувствительными к нелинейным отношениям. Взаимная информация также может применяться для измерения зависимости между двумя переменными.
Наиболее известной мерой зависимости между двумя величинами является коэффициент корреляции продукта-момента Пирсона (PPMCC), или «коэффициент корреляции Пирсона», обычно называемый просто "коэффициент корреляции fficient ". Математически это определяется как качество подгонки наименьших квадратов к исходным данным. Он получается путем принятия отношения ковариации двух рассматриваемых переменных в нашем наборе числовых данных, нормированного на квадратный корень из их дисперсий. С математической точки зрения, можно просто разделить ковариацию двух переменных на произведение их стандартных отклонений. Карл Пирсон разработал коэффициент на основе похожей, но немного другой идеи, предложенной Фрэнсисом Гальтоном.
Коэффициент корреляции произведения-момента Пирсона пытается установить линию наилучшего соответствия на основе набора данных двух переменных по существу Отображение ожидаемых значений и результирующего коэффициента корреляции Пирсона указывает, насколько далеко фактический набор данных находится от ожидаемых значений. В зависимости от знака коэффициента корреляции нашего Пирсона мы можем получить либо отрицательную, либо положительную корреляцию, если существует какая-либо связь между переменными нашего набора данных.
Коэффициент корреляции населения между двумя случайными величинами и с ожидаемыми значениями и и стандартные отклонения и определяется как
где - это ожидаемое значение оператор, означает ковариацию, а - широко используемое альтернативное обозначение коэффициента корреляции. Корреляция Пирсона определяется, только если оба стандартных отклонения конечны и положительны. Альтернативная формула исключительно в терминах моментов:
Коэффициент корреляции симметричный: . Это подтверждается коммутативным свойством умножения.
Следствием неравенства Коши – Шварца является то, что абсолютное значение коэффициента корреляции Пирсона не превышает 1. Следовательно, значение коэффициента корреляции находится в диапазоне от -1 до +1. Коэффициент корреляции равен +1 в случае идеальной прямой (возрастающей) линейной зависимости (корреляции), -1 в случае идеальной обратной (убывающей) линейной зависимости (антикорреляция ) и некоторое значение в открытый интервал во всех остальных случаях, указывающий на степень линейной зависимости между переменными. По мере приближения к нулю взаимосвязь уменьшается (ближе к некоррелированной). Чем ближе коэффициент к -1 или 1, тем сильнее корреляция между переменными.
Если переменные независимы, коэффициент корреляции Пирсона равен 0, но обратное неверно, поскольку коэффициент корреляции обнаруживает только линейные зависимости между двумя переменными.
Например, предположим, что случайная величина симметрично распределено относительно нуля, а . Тогда полностью определяется , так что и полностью зависимы, но их корреляция равна нулю; они некоррелированы. Однако в особом случае, когда и являются вместе нормально, некоррелированность эквивалент независимости.
Несмотря на то, что некоррелированные данные не обязательно подразумевают независимость, можно проверить независимость случайных величин, если их взаимная информация равна 0.
Дана серия измерений пары проиндексировано по , коэффициент корреляции выборки может использоваться для оценки корреляции Пирсона для совокупности между и . Коэффициент корреляции выборки определяется как
где и - это образец означает из и и и - скорректированные стандартные отклонения выборки из и .
Эквивалентное выражение Эсси для равны
где и - нескорректированные стандартные отклонения выборки из и .
Если и являются результатами измерений, которые содержат ошибку измерения, реалистичный ограничения на коэффициент корреляции не от -1 до +1, а в меньшем диапазоне. Для случая линейной модели с одной независимой переменной коэффициент детерминации (R в квадрате) является квадратом , Коэффициент произведения-момента Пирсона.
Рассмотрим совместное распределение вероятностей и приведено в таблице ниже.
Для этого совместного распределения предельные распределения равны:
Это дает следующие ожидания и отклонения:
Следовательно:
Коэффициенты ранговой корреляции, такие как коэффициент ранговой корреляции Спирмена и коэффициент ранговой корреляции Кендалла (τ) измеряют степень, в которой, по мере увеличения одной переменной другая переменная имеет тенденцию к увеличению, не требуя этого увеличения должны быть представлены линейной зависимостью. Если по мере увеличения одной переменной другая уменьшается, коэффициенты ранговой корреляции будут отрицательными. Обычно эти коэффициенты ранговой корреляции рассматриваются как альтернативы коэффициенту Пирсона, используемому либо для уменьшения объема вычислений, либо для того, чтобы сделать коэффициент менее чувствительным к ненормальности в распределениях. Однако у этого взгляда мало математического обоснования, поскольку коэффициенты ранговой корреляции измеряют другой тип взаимосвязи, чем коэффициент корреляции продукта-момента Пирсона, и их лучше всего рассматривать как меры другого типа ассоциации, а не как альтернативный показатель коэффициента корреляции населения.
Чтобы проиллюстрировать природу ранговой корреляции и ее отличие от линейной корреляции, рассмотрим следующие четыре пары чисел :
При переходе от каждой пары к следующей паре увеличивается, как и . Эта связь идеальна в том смысле, что увеличение всегда сопровождается увеличением . Это означает, что у нас есть идеальная ранговая корреляция, и коэффициенты корреляции Спирмена и Кендалла равны 1, тогда как в этом примере коэффициент корреляции произведение-момент Пирсона равен 0,7544, что указывает на то, что точки находятся далеко от прямой линии. Таким же образом, если всегда уменьшается, когда увеличивается, коэффициенты ранговой корреляции будут равны -1, а коэффициент корреляции произведение-момент Пирсона может быть или не быть близким к -1, в зависимости от того, насколько близки точки к прямой. Хотя в крайних случаях идеальной ранговой корреляции оба коэффициента равны (оба +1 или оба -1), обычно это не так, и поэтому значения двух коэффициентов не могут быть осмысленно сравнены. Например, для трех пар (1, 1) (2, 3) (3, 2) коэффициент Спирмена равен 1/2, а коэффициент Кендалла равен 1/3.
Информация, предоставляемая коэффициентом корреляции, недостаточна для определения структуры зависимости между случайными величинами. Коэффициент корреляции полностью определяет структуру зависимости только в очень частных случаях, например, когда распределение является многомерным нормальным распределением . (См. Диаграмму выше.) В случае эллиптических распределений он характеризует (гипер-) эллипсы одинаковой плотности; однако он не полностью характеризует структуру зависимости (например, многомерное t-распределение , степени свободы определяют уровень хвостовой зависимости).
Корреляция расстояния была введена для устранения недостатка корреляции Пирсона, заключающейся в том, что она может быть нулевой для зависимых случайных величин; корреляция нулевого расстояния подразумевает независимость.
Рандомизированный коэффициент зависимости - это эффективная с вычислительной точки зрения мера зависимости между многомерными случайными величинами, основанная на копуле. RDC инвариантен по отношению к нелинейным вычислениям случайных величин, способен обнаруживать широкий спектр функциональных паттернов ассоциации и принимает нулевое значение при независимости.
Для двух двоичных переменных отношение шансов измеряет их зависимость и принимает диапазон неотрицательных чисел, возможно бесконечность: . Связанная статистика, такая как Y Юла и Q Юла, нормализует это до корреляционного диапазона . Отношение шансов обобщается с помощью логистической модели для моделирования случаев, когда зависимые переменные являются дискретными и могут быть одна или несколько независимых переменных.
коэффициент корреляции, энтропийный взаимная информация, общая корреляция, двойная общая корреляция и полихорическая корреляция также способны обнаруживать более общие зависимости, как и рассмотрение связки между ними, в то время как коэффициент детерминации обобщает корреляцию коэффициент к множественной регрессии.
Степень зависимости между переменными и не зависит от масштаба, в котором выражены переменные. То есть, если мы анализируем взаимосвязь между и , на большинство показателей корреляции преобразование до a + bX и до c + dY, где a, b, c и d - константы (b и d положительные). Это верно как для некоторых статистических данных по корреляции, так и для их популяционных аналогов. Некоторые статистические данные корреляции, такие как коэффициент ранговой корреляции, также инвариантны для монотонных преобразований предельных распределений и / или .
Пирсон / Spearman коэффициенты корреляции между и отображаются, когда диапазоны двух переменных не ограничены, и когда диапазон ограничен интервалом (0,1).Большинство Меры корреляции чувствительны к способу выборки и . Зависимости становятся сильнее, если рассматривать их в более широком диапазоне значений. Таким образом, если мы рассмотрим коэффициент корреляции между ростом отцов и их сыновей по всем взрослым мужчинам и сравним его с тем же коэффициентом корреляции, вычисленным, когда отцы выбраны ростом от 165 до 170 см, корреляция будет слабее в последнем случае. Было разработано несколько методов, которые пытаются исправить ограничение диапазона в одной или обеих переменных, и обычно используются в метаанализе; наиболее распространенными являются уравнения Торндайка для случая II и случая III.
Различные используемые меры корреляции могут быть неопределенными для некоторых совместных распределений X и Y. Например, коэффициент корреляции Пирсона определяется в терминах моменты, и, следовательно, будет неопределенным, если моменты не определены. Всегда определяются показатели зависимости на основе квантилей . Статистика на основе выборки, предназначенная для оценки показателей зависимости совокупности, может иметь или не иметь желательные статистические свойства, такие как несмещенная или асимптотическая согласованность, в зависимости от пространственной структуры совокупности, из которой данные были отобраны.
Чувствительность к распределению данных может быть использована с пользой. Например, масштабированная корреляция предназначена для использования чувствительности к диапазону, чтобы выбрать корреляции между быстрыми компонентами временного ряда. Контролируемое сокращение диапазона значений позволяет отфильтровать корреляции в долгой шкале времени, и выявляются только корреляции в короткой шкале времени.
Корреляционная матрица случайных величин - это матрица , запись: . Если используемые меры корреляции являются коэффициентами продукта-момента, матрица корреляции такая же, как ковариационная матрица для стандартизованных случайных величин для . Это применимо как к матрице корреляций совокупности (в этом случае - стандартное отклонение совокупности), так и к матрице корреляций выборки (в этом случае обозначает стандартное отклонение выборки). Следовательно, каждая обязательно является положительно-полуопределенной матрицей. Более того, корреляционная матрица строго положительно определена, если ни одна переменная не может иметь все свои значения, точно сгенерированные как линейная функция значений других.
Матрица корреляции симметрична, поскольку корреляция между и совпадает с корреляцией между и .
матрицей корреляции появляется, например, в одной формуле для коэффициента множественной детерминации, меры согласия в множественной регрессии.
В статистическом моделировании, корреляционные матрицы, представляющие отношения между переменными подразделяются на различные структуры корреляции, которые различаются такими факторами, как количество параметров, необходимых для их оценки. Например, в заменяемой корреляционной матрице все пары переменных моделируются как имеющие одинаковую корреляцию, поэтому все недиагональные элементы матрицы равны друг другу. С другой стороны, авторегрессионная матрица часто используется, когда переменные представляют собой временной ряд, поскольку корреляции, вероятно, будут больше, когда измерения ближе по времени. Другие примеры включают независимый, неструктурированный, M-зависимый и Toeplitz.
Аналогично для двух случайных процессов и : если они независимы, то они некоррелированы.
Обычные изложение, что «корреляция не подразумевает причинно-следственную связь » означает, что корреляция не может использоваться сама по себе для вывода причинно-следственной связи между переменными. Это изречение не следует понимать как то, что корреляции не могут указывать на возможное существование причинно-следственных связей. Однако причины, лежащие в основе корреляции, если таковые имеются, могут быть косвенными и неизвестными, а высокие корреляции также перекрываются с отношениями идентичность (тавтологиями ), где причинно-следственный процесс не существует. Следовательно, корреляция между двумя переменными не является достаточным условием для установления причинной связи (в любом направлении).
Корреляция между возрастом и ростом у детей довольно очевидна с точки зрения причинно-следственной связи, но корреляция между настроением и здоровьем людей менее очевидна. Приводит ли улучшение настроения к улучшению здоровья, или хорошее здоровье приводит к хорошему настроению, или и то, и другое? Или в основе обоих лежит какой-то другой фактор? Другими словами, корреляция может рассматриваться как свидетельство возможной причинной связи, но не может указывать на то, какой может быть причинная связь, если таковая имеется.
Коэффициент корреляции Пирсона указывает на силу линейной взаимосвязи между двумя переменными, но его значение обычно не полностью характеризует их взаимосвязь. В частности, если условное среднее для задано , обозначается , не является линейным в , коэффициент корреляции не полностью определяет форму .
На соседнем изображении показаны диаграммы разброса квартет Анскомба, набор из четырех разных пар переменных, созданный Фрэнсисом Анскомб. Четыре переменных имеют одинаковое среднее значение (7,5), дисперсию (4,12), корреляцию (0,816) и линию регрессии (y = 3 + 0,5x). Однако, как видно на графиках, распределение переменных сильно отличается. Первый (вверху слева), кажется, распределен нормально и соответствует тому, что можно было бы ожидать, рассматривая две коррелированные переменные и следуя предположению о нормальности. Второй (вверху справа) не распространяется нормально; Хотя можно наблюдать очевидную связь между двумя переменными, она не является линейной. В этом случае коэффициент корреляции Пирсона не указывает на то, что существует точная функциональная связь: только степень, в которой эта связь может быть аппроксимирована линейной зависимостью. В третьем случае (внизу слева) линейная зависимость идеальна, за исключением одного выброса , который оказывает достаточное влияние, чтобы снизить коэффициент корреляции с 1 до 0,816. Наконец, четвертый пример (внизу справа) показывает другой пример, когда одного выброса достаточно для получения высокого коэффициента корреляции, даже если связь между двумя переменными не является линейной.
Эти примеры показывают, что коэффициент корреляции, как сводная статистика, не может заменить визуальный анализ данных. Иногда говорят, что примеры демонстрируют, что корреляция Пирсона предполагает, что данные следуют нормальному распределению, но это неверно.
Если пара случайных величин следует двумерному нормальному распределению, условному среднему является линейной функцией от и условного среднего - линейная функция от . Коэффициент корреляции между и вместе с маргинальным средним значением и дисперсией и , определяет эту линейную зависимость:
где и - ожидаемые значения для и
Искать корреляция или зависимость в Викисловаре, бесплатном словаре. |
Викискладе есть материалы, связанные с корреляцией. |
Викиверситет имеет учебные ресурсы по корреляции |