В статистике коэффициент корреляции является мерой взаимосвязи между статистической дисперсией внутри отдельных категорий и дисперсией по всей генеральной совокупности или выборке. Мера определяется как отношение двух стандартных отклонений, представляющих эти типы вариации. Контекст здесь такой же, как у коэффициента внутриклассовой корреляции, значение которого является квадратом коэффициента корреляции.
Предположим, каждое наблюдение - y xi, где x указывает категорию, к которой относится наблюдение, а i - метка конкретного наблюдения. Пусть n x будет количеством наблюдений в категории x, а
где - среднее значение категории x, а - это среднее для всего населения. Коэффициент корреляции η (eta ) определяется как удовлетворение
что может быть записано как
т.е. взвешенная дисперсия категории означает, деленную на дисперсию всех выборок.
Если связь между значениями и значениями является линейным (что, безусловно, верно, когда есть только две возможности для x), это даст тот же результат, что и квадрат коэффициента корреляции Пирсона ; в противном случае коэффициент корреляции будет больше по величине. Следовательно, его можно использовать для оценки нелинейных отношений.
Коэффициент корреляции принимает значения от 0 до 1. Предел представляет собой особый случай отсутствия разброса среди средних значений различных категорий, тогда как относится к отсутствию разброс в соответствующих категориях. не определено, когда все точки данных полной генеральной совокупности принимают одно и то же значение.
Предположим, существует распределение результатов тестов по трем темам (категориям):
Тогда средние значения по предмету составляют 36, 33 и 78, с общим средним 52.
Суммы квадратов разностей от средних по предметам составляют 1952 для алгебры, 308 для геометрии и 600 для статистики, добавляя к 2860. Общая сумма квадратов разница от общего среднего составляет 9640. Разница в 6780 между ними также является взвешенной суммой квадратов разностей между средними значениями испытуемых и общим средним значением:
Это дает
, предполагая, что большинство общей дисперсии является результатом различий между темами, а не внутри тем. Извлечение квадратного корня дает
Для общий разброс выборки объясняется исключительно разбросом по категориям, а вовсе не разбросом внутри отдельных категорий. Для быстрого понимания просто представьте, что все оценки по алгебре, геометрии и статистике одинаковы соответственно, например 5 умножить на 36, 4 умножить на 33, 6 умножить на 78.
Предел относится к случаю без разброса среди категорий, способствующих к общей дисперсии. Тривиальное требование для этой крайности состоит в том, чтобы все средние категории были одинаковыми.
Коэффициент корреляции был введен Карлом Пирсоном как часть дисперсионного анализа. Рональд Фишер прокомментировал:
В качестве описательной статистики полезность отношения корреляции чрезвычайно ограничена. Следует отметить, что количество степеней свободы в числителе зависит от количества массивов
, на который Эгон Пирсон (сын Карла) ответил:
Опять же, давно устоявшийся метод, такой как использование коэффициента корреляции [§45 «Коэффициент корреляции» η], пропускается в нескольких словах без адекватного описания, что, возможно, вряд ли справедливо по отношению к студенту, которому не дается возможность судить о его объеме для себя.