Коэффициент корреляции

редактировать

В статистике коэффициент корреляции является мерой взаимосвязи между статистической дисперсией внутри отдельных категорий и дисперсией по всей генеральной совокупности или выборке. Мера определяется как отношение двух стандартных отклонений, представляющих эти типы вариации. Контекст здесь такой же, как у коэффициента внутриклассовой корреляции, значение которого является квадратом коэффициента корреляции.

Содержание
  • 1 Определение
  • 2 Диапазон
  • 3 Пример
  • 4 Пирсон против Фишера
  • 5 Ссылки
Определение

Предположим, каждое наблюдение - y xi, где x указывает категорию, к которой относится наблюдение, а i - метка конкретного наблюдения. Пусть n x будет количеством наблюдений в категории x, а

y ¯ x = ∑ iyxinx {\ displaystyle {\ overline {y}} _ {x} = {\ frac {\ sum _ { i} y_ {xi}} {n_ {x}}}}\ overline {y} _ {x} = {\ frac {\ sum _ {i} y_ {{xi}}} {n_ {x}}} и y ¯ = ∑ xnxy ¯ x ∑ xnx, {\ displaystyle {\ overline {y}} = {\ frac { \ sum _ {x} n_ {x} {\ overline {y}} _ {x}} {\ sum _ {x} n_ {x}}},}\ overline {y} = {\ frac {\ sum _ {x} n_ {x} \ overline {y} _ {x}} {\ sum _ {x} n_ {x}}},

где y ¯ x {\ displaystyle {\ overline {y}} _ {x}}\ overline {y} _ {x} - среднее значение категории x, а y ¯ {\ displaystyle {\ overline {y}}}{\ overline {y}} - это среднее для всего населения. Коэффициент корреляции η (eta ) определяется как удовлетворение

η 2 = ∑ xnx (y ¯ x - y ¯) 2 ∑ x, i (yxi - y ¯) 2 {\ displaystyle \ eta ^ {2} = {\ frac {\ sum _ {x} n_ {x} ({\ overline {y}} _ {x} - {\ overline {y}}) ^ {2}} {\ sum _ {x, i} (y_ {xi} - {\ overline {y}}) ^ {2}}}}\ eta ^ {2} = {\ frac {\ sum _ {x} n_ {x } (\ overline {y} _ {x} - \ overline {y}) ^ {2}} {\ sum _ {{x, i}} (y ​​_ {{xi}} - \ overline {y}) ^ { 2}}}

что может быть записано как

η 2 = σ y ¯ 2 σ y 2, где σ y ¯ 2 знак равно ∑ xnx (y ¯ x - y ¯) 2 ∑ xnx и σ y 2 = ∑ x, i (yxi - y ¯) 2 n, {\ displaystyle \ eta ^ {2} = {\ frac {{ \ sigma _ {\ overline {y}}} ^ {2}} {{\ sigma _ {y}} ^ {2}}}, {\ text {where}} {\ sigma _ {\ overline {y}} } ^ {2} = {\ frac {\ sum _ {x} n_ {x} ({\ overline {y}} _ {x} - {\ overline {y}}) ^ {2}} {\ sum _ {x} n_ {x}}} {\ text {and}} {\ sigma _ {y}} ^ {2} = {\ frac {\ sum _ {x, i} (y_ {xi} - {\ overline {y}}) ^ {2}} {n}},}\ eta ^ {2} = {\ frac {{\ sigma _ {{\ overline {y}}}} ^ {2}} {{\ sigma _ {{y}}} ^ {2}}}, {\ text {where}} {\ sigma _ { {\ overline {y}}}} ^ {2} = {\ frac {\ sum _ {x} n_ {x} (\ overline {y} _ {x} - \ overline {y}) ^ {2}} {\ sum _ {x} n_ {x}}} {\ text {and}} {\ sigma _ {{y}}} ^ {2} = {\ frac {\ sum _ {{x, i}} ( y _ {{xi}} - \ overline {y}) ^ {2}} {n}},

т.е. взвешенная дисперсия категории означает, деленную на дисперсию всех выборок.

Если связь между значениями x {\ displaystyle x}x и значениями y ¯ x {\ displaystyle {\ overline {y}} _ {x} }\ overline {y} _ {x} является линейным (что, безусловно, верно, когда есть только две возможности для x), это даст тот же результат, что и квадрат коэффициента корреляции Пирсона ; в противном случае коэффициент корреляции будет больше по величине. Следовательно, его можно использовать для оценки нелинейных отношений.

Диапазон

Коэффициент корреляции η {\ displaystyle \ eta}\ eta принимает значения от 0 до 1. Предел η = 0 {\ displaystyle \ eta = 0}\ eta = 0 представляет собой особый случай отсутствия разброса среди средних значений различных категорий, тогда как η = 1 {\ displaystyle \ eta = 1}\ eta = 1 относится к отсутствию разброс в соответствующих категориях. η {\ displaystyle \ eta}\ eta не определено, когда все точки данных полной генеральной совокупности принимают одно и то же значение.

Пример

Предположим, существует распределение результатов тестов по трем темам (категориям):

  • Алгебра: 45, 70, 29, 15 и 21 (5 баллов)
  • Геометрия: 40, 20, 30 и 42 (4 балла)
  • Статистика: 65, 95, 80, 70, 85 и 73 (6 баллов).

Тогда средние значения по предмету составляют 36, 33 и 78, с общим средним 52.

Суммы квадратов разностей от средних по предметам составляют 1952 для алгебры, 308 для геометрии и 600 для статистики, добавляя к 2860. Общая сумма квадратов разница от общего среднего составляет 9640. Разница в 6780 между ними также является взвешенной суммой квадратов разностей между средними значениями испытуемых и общим средним значением:

5 (36 - 52) 2 + 4 (33 - 52) 2 + 6 (78–52) 2 = 6780. {\ displaystyle 5 (36-52) ^ {2} +4 (33-52) ^ {2} +6 (78-52) ^ {2} = 6780.}{\ displaystyle 5 ( 36-52) ^ {2} +4 (33-52) ^ {2} +6 (78-52) ^ {2} = 6780.}

Это дает

η 2 = 6780 9640 = 0,7033… {\ displaystyle \ eta ^ {2} = {\ frac {6780} {9640}} = 0,7033 \ ldots}\ eta ^ {2} = {\ frac {6780} {9640}} = 0,7033 \ ldots

, предполагая, что большинство общей дисперсии является результатом различий между темами, а не внутри тем. Извлечение квадратного корня дает

η = 6780 9640 = 0,8386…. {\ displaystyle \ eta = {\ sqrt {\ frac {6780} {9640}}} = 0,8386 \ ldots.}{\ displaystyle \ eta = {\ sqrt {\ frac {6780} {9640}}} = 0,8386 \ ldots.}

Для η = 1 {\ displaystyle \ eta = 1}\ eta = 1 общий разброс выборки объясняется исключительно разбросом по категориям, а вовсе не разбросом внутри отдельных категорий. Для быстрого понимания просто представьте, что все оценки по алгебре, геометрии и статистике одинаковы соответственно, например 5 умножить на 36, 4 умножить на 33, 6 умножить на 78.

Предел η = 0 {\ displaystyle \ eta = 0}\ eta = 0 относится к случаю без разброса среди категорий, способствующих к общей дисперсии. Тривиальное требование для этой крайности состоит в том, чтобы все средние категории были одинаковыми.

Пирсон против Фишера

Коэффициент корреляции был введен Карлом Пирсоном как часть дисперсионного анализа. Рональд Фишер прокомментировал:

В качестве описательной статистики полезность отношения корреляции чрезвычайно ограничена. Следует отметить, что количество степеней свободы в числителе η 2 {\ displaystyle \ eta ^ {2}}\ eta ^ {2} зависит от количества массивов

, на который Эгон Пирсон (сын Карла) ответил:

Опять же, давно устоявшийся метод, такой как использование коэффициента корреляции [§45 «Коэффициент корреляции» η], пропускается в нескольких словах без адекватного описания, что, возможно, вряд ли справедливо по отношению к студенту, которому не дается возможность судить о его объеме для себя.

Ссылки
  1. ^Рональд Фишер (1926) Статистические методы исследования Рабочие, ISBN 0-05-002170-2 (отрывок)
  2. ^Pearson ES (1926) «Обзор статистических методов для научных работников (Р. А. Фишер)», Science Progress, 20, 733-734. (excerpt)
Последняя правка сделана 2021-05-15 13:08:57
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте