Коэффициент ранговой корреляции Спирмена

редактировать
Корреляция Спирмена, равная 1, получается, когда две сравниваемые переменные связаны монотонно, даже если их взаимосвязь не является линейной. Это означает, что все точки данных с большими значениями x, чем у данной точки данных, также будут иметь большие значения y. Напротив, это не дает идеальной корреляции Пирсона. Когда данные распределены примерно по эллипсу и нет заметных выбросов, корреляция Спирмена и корреляция Пирсона дают аналогичные значения. Корреляция Спирмена менее чувствительна, чем корреляция Пирсона, к сильным выбросам, которые находятся в хвостах обеих выборок. Это потому, что ρ Спирмена ограничивает выброс значением его ранга.

В статистике, коэффициент ранговой корреляции Спирмена или Спирмен ρ, названный в честь Чарльза Спирмена и часто обозначается греческой буквой (Rho), или как, это непараметрическая мера ранговой корреляции ( статистическая зависимость между ранжированием двух переменных ). Он оценивает, насколько хорошо взаимосвязь между двумя переменными может быть описана с помощью монотонной функции. ρ {\ displaystyle \ rho} р s {\ displaystyle r_ {s}}

Корреляция Спирмена между двумя переменными равна корреляции Пирсона между значениями ранга этих двух переменных; в то время как корреляция Пирсона оценивает линейные отношения, корреляция Спирмена оценивает монотонные отношения (линейные или нет). Если нет повторяющихся значений данных, идеальная корреляция Спирмена +1 или -1 возникает, когда каждая из переменных является идеальной монотонной функцией другой.

Интуитивно корреляция Спирмена между двумя переменными будет высокой, когда наблюдения имеют одинаковый (или идентичный для корреляции 1) ранг (т. Е. Метку относительного положения наблюдений внутри переменной: 1-й, 2-й, 3-й и т. Д.) Между двумя. переменные, и низкий, когда наблюдения имеют несходный (или полностью противоположный для корреляции -1) ранг между двумя переменными.

Коэффициент Спирмена подходит как для непрерывных, так и для дискретных порядковых переменных. И Спирмена, и Кендалла можно сформулировать как частные случаи более общего коэффициента корреляции. ρ {\ displaystyle \ rho} τ {\ Displaystyle \ тау}

СОДЕРЖАНИЕ

  • 1 Определение и расчет
  • 2 Связанные количества
  • 3 Интерпретация
  • 4 Пример
  • 5 Определение значимости
  • 6 Анализ соответствия на основе ρ Спирмена
  • 7 Аппроксимация ρ Спирмена по потоку
  • 8 Программные реализации
  • 9 См. Также
  • 10 Ссылки
  • 11 Дальнейшее чтение
  • 12 Внешние ссылки

Определение и расчет

Коэффициент корреляции Спирмена определяется как коэффициент корреляции Пирсона между ранговыми переменными.

Для образца размера п, то п сырых баллов преобразуются в ряды, и вычисляются как Икс я , Y я {\ displaystyle X_ {i}, Y_ {i}} р ( Икс я ) , р ( Y я ) {\ displaystyle \ operatorname {R} ({X_ {i}}), \ operatorname {R} ({Y_ {i}})} р s {\ displaystyle r_ {s}}

р s знак равно ρ р ( Икс ) , р ( Y ) знак равно cov ( р ( Икс ) , р ( Y ) ) σ р ( Икс ) σ р ( Y ) , {\ displaystyle r_ {s} = \ rho _ {\ operatorname {R} (X), \ operatorname {R} (Y)} = {\ frac {\ operatorname {cov} (\ operatorname {R} (X), \ operatorname {R} (Y))} {\ sigma _ {\ operatorname {R} (X)} \ sigma _ {\ operatorname {R} (Y)}}},}

куда

ρ {\ displaystyle \ rho}обозначает обычный коэффициент корреляции Пирсона, но применяется к ранговым переменным,
cov ( р ( Икс ) , р ( Y ) ) {\ Displaystyle \ OperatorName {cov} (\ OperatorName {R} (X), \ OperatorName {R} (Y))}является ковариационным рангом переменных,
σ р ( Икс ) {\ displaystyle \ sigma _ {\ operatorname {R} (X)}}и - стандартные отклонения переменных ранга. σ р ( Y ) {\ displaystyle \ sigma _ {\ operatorname {R} (Y)}}

Только если все n рангов являются различными целыми числами, его можно вычислить по популярной формуле

р s знак равно 1 - 6 d я 2 п ( п 2 - 1 ) , {\ displaystyle r_ {s} = 1 - {\ frac {6 \ sum d_ {i} ^ {2}} {n (n ^ {2} -1)}},}

куда

d я знак равно р ( Икс я ) - р ( Y я ) {\ displaystyle d_ {i} = \ operatorname {R} (X_ {i}) - \ operatorname {R} (Y_ {i})} разница между двумя рангами каждого наблюдения,
n - количество наблюдений.
[Доказательство]

Рассмотрим двумерную выборку с соответствующими рангами. Тогда коэффициент корреляции Спирмена является ( Икс я , у я ) , я знак равно 1 , п {\ displaystyle (x_ {i}, y_ {i}), \, i = 1 \ dots, n} ( р ( Икс я ) , р ( Y я ) ) знак равно ( р я , S я ) {\ displaystyle (R (X_ {i}), R (Y_ {i})) = (R_ {i}, S_ {i})} Икс , у {\ displaystyle x, y} р s знак равно я знак равно 1 п ( р я - р ¯ ) ( S я - S ¯ ) я знак равно 1 п ( р я - р ¯ ) 2 я знак равно 1 п ( S я - S ¯ ) 2 {\ displaystyle r_ {s} = {\ frac {\ sum _ {i = 1} ^ {n} (R_ {i} - {\ overline {R}}) (S_ {i} - {\ overline {S}) })} {{\ sqrt {\ sum _ {i = 1} ^ {n} (R_ {i} - {\ overline {R}}) ^ {2}}} {\ sqrt {\ sum _ {i = 1} ^ {n} (S_ {i} - {\ overline {S}}) ^ {2}}}}}}

Где

р ¯ знак равно 1 п я знак равно 1 п р я , S ¯ знак равно 1 п я знак равно 1 п S я {\ displaystyle {\ overline {R}}: = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} R_ {i}, \ quad {\ overline {S}}: = {\ гидроразрыва {1} {n}} \ sum _ {i = 1} ^ {n} S_ {i}}

Сейчас мы покажем, что можно выразить только через, в случае, когда нет связей внутри каждой выборки. р s {\ displaystyle r_ {s}} d я 2 знак равно ( р я - S я ) 2 {\ displaystyle d_ {i} ^ {2} = (R_ {i} -S_ {i}) ^ {2}}

Сначала вспомните следующие формулы для треугольного числа и квадратного пирамидального числа :

я знак равно 1 п я знак равно п ( п + 1 ) 2 , я знак равно 1 п я 2 знак равно п ( п + 1 ) ( 2 п + 1 ) 6 {\ Displaystyle \ сумма _ {я = 1} ^ {п} я = {\ гидроразрыва {п (п + 1)} {2}} \,, \ четырехъядерный \ сумма _ {я = 1} ^ {п} я ^ {2} = {\ frac {n (n + 1) (2n + 1)} {6}}}

Следует, что

р ¯ знак равно S ¯ знак равно 1 п я знак равно 1 п я знак равно ( п + 1 ) 2 , я знак равно 1 п р я 2 знак равно я знак равно 1 п S я 2 знак равно я знак равно 1 п я 2 знак равно п ( п + 1 ) ( 2 п + 1 ) 6 {\ displaystyle {\ overline {R}} = {\ overline {S}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} i = {\ frac {(n + 1)} {2}} \,, \ quad \ sum _ {i = 1} ^ {n} R_ {i} ^ {2} = \ sum _ {i = 1} ^ {n} S_ {i} ^ {2} = \ sum _ {i = 1} ^ {n} i ^ {2} = {\ frac {n (n + 1) (2n + 1)} {6}}}

Таким образом,

я знак равно 1 п ( р я - р ¯ ) 2 знак равно я знак равно 1 п ( S я - S ¯ ) 2 знак равно я знак равно 1 п S я 2 - п S ¯ 2 знак равно я знак равно 1 п я 2 - п ( п + 1 2 ) 2 знак равно п ( п + 1 ) ( 2 п + 1 ) 6 - п ( п + 1 2 ) 2 знак равно ( п + 1 2 ) ( п ( 2 п + 1 ) 3 - п ( п + 1 ) 2 ) знак равно ( п + 1 2 ) ( п 2 - п 6 ) знак равно п ( п 2 - 1 ) 12 {\ displaystyle {\ begin {align} \ sum _ {i = 1} ^ {n} (R_ {i} - {\ overline {R}}) ^ {2} = \ sum _ {i = 1} ^ { n} (S_ {i} - {\ overline {S}}) ^ {2} amp; = \ sum _ {i = 1} ^ {n} S_ {i} ^ {2} -n {\ overline {S} } ^ {2} \\ amp; = \ sum _ {i = 1} ^ {n} i ^ {2} -n \ left ({\ frac {n + 1} {2}} \ right) ^ {2} \\ amp; = {\ frac {n (n + 1) (2n + 1)} {6}} - n \ left ({\ frac {n + 1} {2}} \ right) ^ {2} \\ amp; = \ left ({\ frac {n + 1} {2}} \ right) \ left ({\ frac {n (2n + 1)} {3}} - n {\ frac {(n + 1)} {2}} \ right) \\ amp; = \ left ({\ frac {n + 1} {2}} \ right) \ left ({\ frac {n ^ {2} -n} {6}} \ right) \\ amp; = {\ frac {n (n ^ {2} -1)} {12}} \ end {выровнено}}}

а также

я знак равно 1 п ( р я - р ¯ ) ( S я - S ¯ ) знак равно я знак равно 1 п р я S я - п р ¯ S ¯ знак равно я знак равно 1 п р я S я - п ( п + 1 ) 2 4 . {\ displaystyle \ sum _ {i = 1} ^ {n} (R_ {i} - {\ overline {R}}) (S_ {i} - {\ overline {S}}) = \ sum _ {i = 1} ^ {n} R_ {i} S_ {i} -n {\ overline {R}} \ cdot {\ overline {S}} = \ sum _ {i = 1} ^ {n} R_ {i} S_ {i} - {\ frac {n (n + 1) ^ {2}} {4}}.}

Итак, до этого момента у нас есть это:

р s знак равно я знак равно 1 п р я S я - п ( п + 1 ) 2 4 п ( п 2 - 1 ) 12 знак равно 12 я знак равно 1 п р я S я п ( п 2 - 1 ) - 3 п ( п + 1 ) 2 п ( п 2 - 1 ) знак равно 12 я знак равно 1 п р я S я п ( п 2 - 1 ) - 3 п ( п + 1 ) 2 п ( п - 1 ) ( п + 1 ) знак равно 12 я знак равно 1 п р я S я п ( п 2 - 1 ) - 3 ( п + 1 ) п - 1 {\ Displaystyle {\ begin {align} r_ {s} = {\ frac {\ sum _ {i = 1} ^ {n} R_ {i} S_ {i} - {\ dfrac {n (n + 1) ^ {2}} {4}}} {\ dfrac {n (n ^ {2} -1)} {12}}} amp; = {\ frac {12 \ sum _ {i = 1} ^ {n} R_ { i} S_ {i}} {n (n ^ {2} -1)}} - {\ frac {3n (n + 1) ^ {2}} {n (n ^ {2} -1)}} \ \ amp; = {\ frac {12 \ sum _ {i = 1} ^ {n} R_ {i} S_ {i}} {n (n ^ {2} -1)}} - {\ frac {3n (n +1) ^ {2}} {n (n-1) (n + 1)}} \\ amp; = {\ frac {12 \ sum _ {i = 1} ^ {n} R_ {i} S_ {i }} {n (n ^ {2} -1)}} - {\ frac {3 (n + 1)} {n-1}} \ end {выровнено}}}

Теперь пусть, значит, d я 2 знак равно ( р я - S я ) 2 знак равно р я 2 + S я 2 - 2 р я S я {\ displaystyle d_ {i} ^ {2}: = (R_ {i} -S_ {i}) ^ {2} = R_ {i} ^ {2} + S_ {i} ^ {2} -2R_ {i } S_ {i} \,}

я знак равно 1 п d я 2 знак равно я знак равно 1 п р я 2 + я знак равно 1 п S я 2 - 2 я знак равно 1 п р я S я знак равно 2 я знак равно 1 п я 2 - 2 я знак равно 1 п р я S я знак равно п ( п + 1 ) ( 2 п + 1 ) 6 - 2 я знак равно 1 п р я S я . {\ displaystyle \ sum _ {i = 1} ^ {n} d_ {i} ^ {2} = \ sum _ {i = 1} ^ {n} R_ {i} ^ {2} + \ sum _ {i = 1} ^ {n} S_ {i} ^ {2} -2 \ sum _ {i = 1} ^ {n} R_ {i} S_ {i} = 2 \ sum _ {i = 1} ^ {n } i ^ {2} -2 \ sum _ {i = 1} ^ {n} R_ {i} S_ {i} = {\ frac {n (n + 1) (2n + 1)} {6}} - 2 \ sum _ {i = 1} ^ {n} R_ {i} S_ {i}.}

Теперь мы можем выразить использование и получить я знак равно 1 п р я S я {\ Displaystyle \ сумма _ {я = 1} ^ {п} R_ {я} S_ {я}} d я 2 {\ displaystyle d_ {i} ^ {2}}

я знак равно 1 п р я S я знак равно п ( п + 1 ) ( 2 п + 1 ) 6 - 1 2 я знак равно 1 п d я 2 {\ displaystyle \ sum _ {я = 1} ^ {n} R_ {i} S_ {i} = {\ frac {n (n + 1) (2n + 1)} {6}} - {\ frac {1 } {2}} \ sum _ {i = 1} ^ {n} d_ {i} ^ {2}}

Подстановка этого результата обратно в последнее выражение дает нам р s {\ displaystyle r_ {s}}

р s знак равно 12 ( п ( п + 1 ) ( 2 п + 1 ) 6 - 1 2 я знак равно 1 п d я 2 ) п ( п 2 - 1 ) - 3 ( п + 1 ) п - 1 знак равно 2 п ( п + 1 ) ( 2 п + 1 ) - 6 я знак равно 1 п d я 2 п ( п - 1 ) ( п + 1 ) - 3 ( п + 1 ) п - 1 знак равно 4 п 3 + 6 п 2 + 2 п - 6 я знак равно 1 п d я 2 - 3 п ( п + 1 ) 2 п ( п - 1 ) ( п + 1 ) знак равно п 3 - 1 - 6 я знак равно 1 п d я 2 п ( п - 1 ) ( п + 1 ) знак равно п 3 - 1 - 6 я знак равно 1 п d я 2 п ( п 2 - 1 ) знак равно 1 - 6 я знак равно 1 п d я 2 п ( п 2 - 1 ) {\ displaystyle {\ begin {align} r_ {s} amp; = {\ frac {12 \ cdot \ left ({\ dfrac {n (n + 1) (2n + 1)} {6}} - {\ dfrac { 1} {2}} \ sum _ {i = 1} ^ {n} d_ {i} ^ {2} \ right)} {n (n ^ {2} -1)}} - {\ frac {3 ( n + 1)} {n-1}} \\ [2ex] amp; = {\ frac {2n (n + 1) (2n + 1) -6 \ sum _ {i = 1} ^ {n} d_ {i } ^ {2}} {n (n-1) (n + 1)}} - {\ frac {3 (n + 1)} {n-1}} \\ [2ex] amp; = {\ frac {4n ^ {3} + 6n ^ {2} + 2n-6 \ sum _ {i = 1} ^ {n} d_ {i} ^ {2} -3n (n + 1) ^ {2}} {n (n -1) (n + 1)}} \\ [2ex] amp; = {\ frac {n ^ {3} -1-6 \ sum _ {i = 1} ^ {n} d_ {i} ^ {2} } {n (n-1) (n + 1)}} \\ [2ex] amp; = {\ frac {n ^ {3} -1-6 \ sum _ {i = 1} ^ {n} d_ {i } ^ {2}} {n (n ^ {2} -1)}} \\ [2ex] amp; = 1 - {\ frac {6 \ sum _ {i = 1} ^ {n} d_ {i} ^ {2}} {п (п ^ {2} -1)}} \ конец {выровнено}}}

Идентичным значениям обычно присваиваются дробные ранги, равные среднему значению их позиций в порядке возрастания значений, что эквивалентно усреднению по всем возможным перестановкам.

Если в наборе данных присутствуют связи, приведенная выше упрощенная формула дает неверные результаты: только если в обеих переменных все ранги различны, то (рассчитывается в соответствии со смещенной дисперсией). Первое уравнение - нормализация на стандартное отклонение - может использоваться даже тогда, когда ранги нормализованы до [0, 1] («относительные ранги»), потому что оно нечувствительно как к сдвигу, так и к линейному масштабированию. σ р ( Икс ) σ р ( Y ) знак равно Вар ( р ( Икс ) ) знак равно Вар ( р ( Y ) ) знак равно ( п 2 - 1 ) / 12 {\ displaystyle \ sigma _ {\ operatorname {R} (X)} \ sigma _ {\ operatorname {R} (Y)} = \ operatorname {Var} {(\ operatorname {R} (X))} = \ operatorname {Вар} {(\ operatorname {R} (Y))} = (n ^ {2} -1) / 12}

Упрощенный метод также не следует использовать в случаях, когда набор данных усечен; то есть, когда коэффициент корреляции Спирмена желателен для верхних X записей (по рангу до изменения или рангу после изменения, или по обоим), пользователь должен использовать формулу коэффициента корреляции Пирсона, приведенную выше.

Связанные количества

Основная статья: Корреляция и зависимость

Есть несколько других числовых показателей, которые определяют степень статистической зависимости между парами наблюдений. Наиболее распространенным из них является коэффициент корреляции произведение-момент Пирсона, который представляет собой метод корреляции, аналогичный рангу Спирмена, который измеряет «линейные» отношения между необработанными числами, а не между их рангами.

Альтернативное название ранговой корреляции Спирмена - « ранговая корреляция»; в этом случае «ранг» наблюдения заменяется «оценкой». В непрерывных распределениях оценка наблюдения по соглашению всегда на половину меньше ранга, и, следовательно, корреляции оценок и рангов в этом случае одинаковы. В более общем смысле, «уровень» наблюдения пропорционален оценке доли населения меньше заданного значения с поправкой на половину наблюдения при наблюдаемых значениях. Таким образом, это соответствует одной из возможных трактовок равных рангов. Хотя это и необычно, термин «корреляция оценок» все еще используется.

Интерпретация

Положительные и отрицательные ранговые корреляции Спирмена
Положительный коэффициент корреляции Спирмен соответствует возрастающему монотонному тренду между X и Y. Отрицательный коэффициент корреляции Спирмена соответствует убывающей монотонного тренда между X и Y.

Знак корреляции Спирмена указывает направление связи между X (независимой переменной) и Y (зависимой переменной). Если Y имеет тенденцию к увеличению при увеличении X, коэффициент корреляции Спирмена положительный. Если Y имеет тенденцию к уменьшению при увеличении X, коэффициент корреляции Спирмена отрицательный. Корреляция Спирмена, равная нулю, указывает на отсутствие тенденции к увеличению или уменьшению Y при увеличении X. Корреляция Спирмена увеличивается по мере того, как X и Y становятся все более монотонными функциями друг друга. Когда X и Y совершенно монотонно связаны, коэффициент корреляции Спирмена становится 1. Совершенно монотонное возрастающее соотношение подразумевает, что для любых двух пар значений данных X i, Y i и X j, Y j, что X i - X j и Y i - Y j всегда имеют один и тот же знак. Совершенно монотонно убывающая связь означает, что эти различия всегда имеют противоположные знаки.

Коэффициент корреляции Спирмена часто называют «непараметрическим». Это может иметь два значения. Во-первых, идеальная корреляция Спирмена получается, когда X и Y связаны какой-либо монотонной функцией. Сравните это с корреляцией Пирсона, которая дает идеальное значение только тогда, когда X и Y связаны линейной функцией. Другой смысл, в котором корреляция Спирмена непараметрическая является то, что его распределение точной дискретизации может быть получено без необходимости знания (т.е., зная параметры) совместного распределения вероятностей по X и Y.

Пример

В этом примере необработанные данные в таблице ниже используются для расчета корреляции между IQ человека и количеством часов, проведенных перед телевизором в неделю.

IQ, Икс я {\ displaystyle X_ {i}} Часы просмотра ТВ в неделю, Y я {\ displaystyle Y_ {i}}
106 7
100 27
86 2
101 50
99 28 год
103 29
97 20
113 12
112 6
110 17

Во-первых, оцените. Для этого выполните следующие действия, указанные в таблице ниже. d я 2 {\ displaystyle d_ {i} ^ {2}}

  1. Отсортируйте данные по первому столбцу (). Создайте новый столбец и присвойте ему ранжированные значения 1, 2, 3,..., n. Икс я {\ displaystyle X_ {i}} Икс я {\ displaystyle x_ {i}}
  2. Затем отсортируйте данные по второму столбцу (). Создайте четвертый столбец и аналогичным образом присвойте ему ранжированные значения 1, 2, 3,..., n. Y я {\ displaystyle Y_ {i}} у я {\ displaystyle y_ {i}}
  3. Создайте пятый столбец для хранения различий между двумя столбцами ранжирования ( и). d я {\ displaystyle d_ {i}} Икс я {\ displaystyle x_ {i}} у я {\ displaystyle y_ {i}}
  4. Создайте один последний столбец для хранения значения столбца в квадрате. d я 2 {\ displaystyle d_ {i} ^ {2}} d я {\ displaystyle d_ {i}}
IQ, Икс я {\ displaystyle X_ {i}} Часы просмотра ТВ в неделю, Y я {\ displaystyle Y_ {i}} классифицировать Икс я {\ displaystyle x_ {i}} классифицировать у я {\ displaystyle y_ {i}} d я {\ displaystyle d_ {i}} d я 2 {\ displaystyle d_ {i} ^ {2}}
86 2 1 1 0 0
97 20 2 6 −4 16
99 28 год 3 8 −5 25
100 27 4 7 −3 9
101 50 5 10 −5 25
103 29 6 9 −3 9
106 7 7 3 4 16
110 17 8 5 3 9
112 6 9 2 7 49
113 12 10 4 6 36

С найденным, добавьте их, чтобы найти. Значение n равно 10. Теперь эти значения можно подставить обратно в уравнение. d я 2 {\ displaystyle d_ {i} ^ {2}} d я 2 знак равно 194 {\ displaystyle \ sum d_ {i} ^ {2} = 194}

ρ знак равно 1 - 6 d я 2 п ( п 2 - 1 ) {\ displaystyle \ rho = 1 - {\ frac {6 \ sum d_ {i} ^ {2}} {n (n ^ {2} -1)}}}

дать

ρ знак равно 1 - 6 × 194 10 ( 10 2 - 1 ) , {\ displaystyle \ rho = 1 - {\ frac {6 \ times 194} {10 (10 ^ {2} -1)}},}

который принимает значение ρ = -29/165 = -0,175757575... с р -значение = 0.627188 ( с использованием т -распределение ).

Диаграмма представленных данных. Можно видеть, что может быть отрицательная корреляция, но эта связь не кажется окончательной.

То, что это значение близко к нулю, показывает, что корреляция между IQ и часами, потраченными на просмотр телевизора, очень мала, хотя отрицательное значение предполагает, что чем дольше вы проводите время перед телевизором, тем ниже IQ. В случае совпадения исходных значений эту формулу использовать не следует; вместо этого коэффициент корреляции Пирсона должен быть рассчитан на рангах (где связи даны рангам, как описано выше).

Определение значения

Один из подходов к проверке того, значительно ли наблюдаемое значение ρ отличается от нуля ( r всегда будет поддерживать −1 ≤ r ≤ 1), заключается в вычислении вероятности того, что оно будет больше или равно наблюдаемому r, учитывая нулевую гипотезу, с помощью перестановочного теста. Преимущество этого подхода заключается в том, что он автоматически учитывает количество связанных значений данных в выборке и способ их обработки при вычислении ранговой корреляции.

Другой подход аналогичен использованию преобразования Фишера в случае коэффициента корреляции произведения-момента Пирсона. То есть доверительные интервалы и проверки гипотез, относящиеся к значению совокупности ρ, могут быть выполнены с использованием преобразования Фишера:

F ( р ) знак равно 1 2 пер 1 + р 1 - р знак равно Artanh р . {\ displaystyle F (r) = {\ frac {1} {2}} \ ln {\ frac {1 + r} {1-r}} = \ operatorname {artanh} r.}

Если F ( r) - это преобразование Фишера r, коэффициент ранговой корреляции Спирмена выборки, а n - размер выборки, то

z знак равно п - 3 1.06 F ( р ) {\ displaystyle z = {\ sqrt {\ frac {n-3} {1.06}}} F (r)}

является г -score для г, что примерно следующий стандартное нормальное распределение под нулевой гипотезой о статистической независимости ( ρ = 0).

Также можно проверить значимость, используя

т знак равно р п - 2 1 - р 2 , {\ displaystyle t = r {\ sqrt {\ frac {n-2} {1-r ^ {2}}}},}

которая распределяется примерно как Стьюдента т -распределения с п - 2 степенями свободы при нулевой гипотезе. Обоснование этого результата основывается на аргументе перестановки.

Обобщение коэффициента Спирмена полезно в ситуации, когда имеется три или более условий, в каждом из них наблюдается ряд субъектов, и предполагается, что наблюдения будут иметь определенный порядок. Например, нескольким субъектам может быть предложено по три испытания для одной и той же задачи, и прогнозируется, что результативность будет улучшаться от испытания к испытанию. Тест значимости тренда между условиями в этой ситуации был разработан Э. Б. Пейджем и обычно называется тестом тренда Пейджа для упорядоченных альтернатив.

Анализ соответствия на основе ρ Спирмена

Классический анализ соответствия - это статистический метод, который дает оценку каждому значению двух номинальных переменных. Таким образом, коэффициент корреляции Пирсона между ними максимизируется.

Существует эквивалент этого метода, называемый анализом соответствия оценок, который максимизирует ρ Спирмена или τ Кендалла.

Аппроксимация ρ Спирмена по потоку

Существует два существующих подхода к аппроксимации коэффициента ранговой корреляции Спирмена на основе потоковых данных. Первый подход предполагает укрупнение совместного распределения. Для непрерывных значений: точки отсечения выбираются для этих случайных величин и соответственно дискретизируются. Контрольные точки по умолчанию добавляются в и. Затем создается матрица подсчета размера, обозначенного, где хранится количество наблюдений, которые попадают в двумерную ячейку, проиндексированную. Для потоковой передачи данных, когда поступает новое наблюдение, соответствующий элемент увеличивается. Затем можно вычислить ранговую корреляцию Спирмена на основе счетной матрицы, используя операции линейной алгебры (алгоритм 2). Обратите внимание, что для дискретных случайных величин процедура дискретизации не требуется. Этот метод применим как к стационарным потоковым данным, так и к большим наборам данных. Для нестационарных потоковых данных, где коэффициент ранговой корреляции Спирмена может изменяться со временем, можно применить ту же процедуру, но к движущемуся окну наблюдений. При использовании движущегося окна требования к памяти растут линейно с выбранным размером окна. ( Икс , Y ) {\ displaystyle (X, Y)} Икс , Y {\ displaystyle X, Y} м 1 , м 2 {\ displaystyle m_ {1}, m_ {2}} Икс {\ displaystyle X} Y {\ displaystyle Y} - {\ displaystyle - \ infty} {\ displaystyle \ infty} ( м 1 + 1 ) × ( м 2 + 1 ) {\ Displaystyle (м_ {1} +1) \ раз (м_ {2} +1)} M {\ displaystyle M} M [ я , j ] {\ displaystyle M [я, j]} ( я , j ) {\ displaystyle (я, j)} M [ я , j ] {\ displaystyle M [я, j]} M {\ displaystyle M}

Второй подход к аппроксимации коэффициента ранговой корреляции Спирмена из потоковых данных включает использование оценок на основе ряда Эрмита. Эти оценки, основанные на полиномах Эрмита, позволяют последовательно оценивать функцию плотности вероятности и кумулятивную функцию распределения в одномерном и двумерном случаях. Двумерные оценщики плотности ряда Эрмита и одномерные оценщики кумулятивной функции распределения на основе ряда Эрмита включены в большую выборочную версию оценщика коэффициента ранговой корреляции Спирмена, чтобы дать последовательную оценку корреляции Спирмена. Эта оценка сформулирована в терминах операций линейной алгебры для вычислительной эффективности (уравнение (8) и алгоритм 1 и 2). Эти алгоритмы применимы только к непрерывным данным случайных величин, но в этой настройке имеют определенные преимущества перед подходом с использованием матриц подсчета. Первое преимущество - повышенная точность при применении к большому количеству наблюдений. Второе преимущество состоит в том, что коэффициент ранговой корреляции Спирмена можно вычислить для нестационарных потоков, не полагаясь на движущееся окно. Вместо этого оценщик на основе ряда Эрмита использует схему экспоненциального взвешивания для отслеживания изменяющейся во времени ранговой корреляции Спирмена из потоковых данных, которые имеют постоянные требования к памяти относительно «эффективного» размера движущегося окна.

Программные реализации

  • Базовый пакет статистики R реализует тест cor.test(x, y, method = "spearman") в своем пакете "stats" (также cor(x, y, method = "spearman")будет работать.
  • Реализация Stata : вычисляет все парные коэффициенты корреляции для всех переменных в списке переменных. spearman varlist
  • Реализация MATLAB : [r,p] = corr(x,y,'Type','Spearman')где r- коэффициент ранговой корреляции Спирмена, p- p-значение, xи y- векторы.
  • Python. Может быть вычислена с spearmanr функции модуля scipy.stats.

Смотрите также

использованная литература

дальнейшее чтение

внешние ссылки

Последняя правка сделана 2023-03-29 08:20:33
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте