Коэффициент Фи

редактировать

В статистика, phi-коэффициент (или среднеквадратичный коэффициент сопряженности и обозначается φ или rφ) является мерой ассоциации для двух бинарные переменные. Введенный Карлом Пирсоном, этот показатель аналогичен коэффициенту корреляции Пирсона в своей интерпретации. Фактически, коэффициент корреляции Пирсона, оцененный для двух двоичных переменных, вернет коэффициент phi. Коэффициент фи связан со статистикой хи-квадрат для таблицы непредвиденных обстоятельств 2 × 2 (см. критерий хи-квадрат Пирсона )

ϕ = χ 2 n {\ displaystyle \ phi = {\ sqrt {\ frac {\ chi ^ {2}} {n}}}}

{\ displaystyle \ phi = {\ sqrt {\ frac {\ chi) ^ {2}} {n}}}}

где n - общее количество наблюдений. Две двоичные переменные считаются положительно связанными, если большая часть данных не соответствует диагональные ячейки. Напротив, две двоичные переменные считаются отрицательно связанными, если большая часть данных падает с диагонали. Если у нас есть таблица 2 × 2 для двух случайных величин x и y

	y = 1	y = 0	всего
x = 1	$n 11 {\ displaystyle n_ {11}}$ $n_ {11}$	$n 10 {\ displaystyle n_ {10}}$ $n _ {{10}}$	$n 1 ∙ { \ displaystyle n_ {1 \ bullet}}$ $n _ {{1 \ bullet}}$
x = 0	$n 01 {\ displaystyle n_ {01}}$ $n_ { {01}}$	$n 00 {\ displaystyle n_ {00}}$ $n _ {{00}}$	$n 0 ∙ {\ displaystyle п_ {0 \ bullet}}$ $n _ {{0 \ bullet}}$
итого	$n ∙ 1 {\ displaystyle n _ {\ bullet 1}}$ $n_ {{\ bullet 1}}$	$n ∙ 0 {\ displaystyle n _ {\ bullet 0}}$ $n _ {{\ bullet 0}}$	$n {\ displaystyle n}$ $n$

, где n 11, n 10, n 01, n 00, неотрицательные числа f количество наблюдений, сумма которых равна n, общее количество наблюдений. Коэффициент phi, описывающий связь x и y, равен

ϕ = n 11 n 00 - n 10 n 01 n 1 ∙ n 0 ∙ n ∙ 0 n ∙ 1. {\ displaystyle \ phi = {\ frac {n_ {11} n_ {00} -n_ {10} n_ {01}} {\ sqrt {n_ {1 \ bullet} n_ {0 \ bullet} n _ {\ bullet 0}) n _ {\ bullet 1}}}}.}

{\ displaystyle \ phi = {\ frac {n_ {11} n_ {00} - n_ {10} n_ {01}} {\ sqrt {n_ {1 \ bullet} n_ {0 \ bullet} n _ {\ bullet 0} n _ {\ bullet 1}}}}.}

Phi связана с коэффициентом точечной бисериальной корреляции и d Коэна и оценивает степень взаимосвязи между двумя переменными (2 × 2).

Коэффициент phi также можно выразить с помощью только $n {\ displaystyle n}$ $n$ , $n 11 {\ displaystyle n_ {11}}$ $n_ {11}$ , $n 1 ∙ {\ displaystyle n_ {1 \ bullet }}$ $n _ {{1 \ bullet}}$ и $n ∙ 1 {\ displaystyle n _ {\ bullet 1}}$ $n_ {{\ bullet 1}}$ , как

ϕ = nn 11 - n 1 ∙ n ∙ 1 n 1 ∙ n ∙ 1 (n - n 1 ∙) (n - n ∙ 1). {\ displaystyle \ phi = {\ frac {nn_ {11} -n_ {1 \ bullet} n _ {\ bullet 1}} {\ sqrt {n_ {1 \ bullet} n _ {\ bullet 1} (n-n_ {1 \ bullet}) (n-n _ {\ bullet 1})}}}.}

{\ displaystyle \ phi = {\ frac {nn_ {11} -n_ {1 \ bullet} n _ {\ bullet 1}} {\ sqrt {n_ {1 \ bullet} n_ { \ bullet 1} (n-n_ {1 \ bullet}) (n-n _ {\ bullet 1})}}}.}

Максимальные значения

Хотя в расчетах коэффициент корреляции Пирсона уменьшается до коэффициента phi в случае 2 × 2, они равны не в общем то же самое. Коэффициент корреляции Пирсона находится в диапазоне от -1 до +1, где ± 1 указывает на полное согласие или несогласие, а 0 указывает на отсутствие связи. Коэффициент phi имеет максимальное значение, которое определяется распределением двух переменных, если одна или обе переменные могут принимать более двух значений. См. Подробное обсуждение в Давенпорте и Эль-Санхури (1991).

См. Также

Таблица непредвиденных обстоятельств
Коэффициент корреляции Мэтьюса
V Крамера, аналогичный показатель связи между номинальными переменными.
Полихорическая корреляция (подтип: Тетрахорическая корреляция), когда переменные рассматриваются как дихотомические версии (скрытых) непрерывных переменных

Ссылки