В теории вероятностей и статистике, асимметрия является мерой асимметрии вероятности распределение реальной -значной случайной величины относительно ее среднего значения. Значение асимметрии может быть положительным, нулевым, отрицательным или неопределенным.
Для унимодального распределения отрицательный перекос обычно указывает на то, что хвост находится на левой стороне распределения, а положительный перекос указывает, что хвост находится справа. В случаях, когда один хвост длинный, а другой толстый, перекос не подчиняется простому правилу. Например, нулевое значение означает, что хвосты по обе стороны от среднего в целом уравновешиваются; это верно для симметричного распределения, но также может быть верно и для асимметричного распределения, когда один хвост длинный и тонкий, а другой короткий, но толстый.
Рассмотрим два распределения на рисунке ниже. На каждом графике значения на правой стороне распределения сужаются иначе, чем значения на левой стороне. Эти сужающиеся стороны называются хвостами, и они предоставляют визуальные средства для определения, какой из двух видов асимметрии имеет распределение:
Смещение в ряду данных иногда можно наблюдать не только графически, но и путем простого просмотра значений. Например, рассмотрим числовую последовательность (49, 50, 51), значения которой равномерно распределены вокруг центрального значения 50. Мы можем преобразовать эту последовательность в отрицательно искаженное распределение, добавив значение намного ниже среднего, что, вероятно, является отрицательный выброс, например (40, 49, 50, 51). Следовательно, среднее значение последовательности становится 47,5, а медиана - 49,5. На основе формулы непараметрический перекос, определенный как перекос отрицательный. Точно так же мы можем сделать последовательность положительно искаженной, добавив значение, намного превышающее среднее, что, вероятно, является положительным выбросом, например (49, 50, 51, 60), где среднее значение равно 52,5, а медиана - 50,5.
Как упоминалось ранее, унимодальное распределение с нулевым значением асимметрии не означает, что это распределение обязательно симметрично. Однако симметричное унимодальное или мультимодальное распределение всегда имеет нулевую асимметрию.
Пример асимметричного распределения с нулевой асимметрией. Этот рисунок служит контрпримером, что нулевая асимметрия не обязательно означает симметричное распределение. (Асимметрия рассчитывалась с помощью моментного коэффициента асимметрии Пирсона.)Асимметрия не имеет прямого отношения к соотношению между средним и медианным: распределение с отрицательным перекосом может иметь свое среднее значение. больше или меньше медианы, а также для положительного перекоса.
Общая взаимосвязь среднего и медианного значений при разном асимметричном одномодальном распределенииВ старом понятии непараметрический перекос, определяемом как где - это означает, - это медиана, а является стандартным отклонением, асимметрия определяется в терминах этого отношения: положительный / непараметрический перекос вправо означает, что среднее значение больше (справа от) медианы, в то время как отрицательный / непараметрический перекос влево означает среднее меньше (слева от) t он средний. Однако современное определение асимметрии и традиционное непараметрическое определение не всегда имеют один и тот же знак: хотя они совпадают для некоторых семейств распределений, они различаются в некоторых случаях, и их объединение вводит в заблуждение.
Если распределение симметрично, то среднее значение равно медиане, и распределение имеет нулевую асимметрию. Если распределение одновременно симметричное и унимодальное, то среднее = медианное = мода. Это случай подбрасывания монеты или серии 1, 2, 3, 4,... Обратите внимание, однако, что обратное неверно в целом, т.е. нулевая асимметрия не означает, что среднее значение равно медиане.
В журнальной статье 2005 г. указывается:
Многие учебники учат практическому правилу, согласно которому среднее значение находится справа от медианы при наклоне вправо и слева от медианы при наклоне слева. Это правило с удивительной частотой не работает. Он может дать сбой в мультимодальных распределениях или в распределениях, в которых один конец имеет длинный, а другой тяжелый. Однако чаще всего правило не работает в дискретных распределениях, где площади слева и справа от медианы не равны. Такое распределение не только противоречит учебным соотношениям между средним, медианным и перекосом, но и противоречит интерпретации медианы в учебниках.
Распределение взрослых жителей по домохозяйствам СШАНапример, в распределении взрослых жителей США домохозяйств перекос вправо. Однако, поскольку в большинстве случаев меньше или равно моду, которая также является медианной, среднее значение находится в более тяжелом левом хвосте. В результате не удалось применить эмпирическое правило, согласно которому среднее значение находится справа от медианы при правом перекосе.
Асимметрия случайного переменная X является третьим стандартизированным моментом , определяемым как:
где μ - среднее значение, σ - стандартное отклонение, E - оператор ожидания, μ 3 - это третий центральный момент, а κ t - t-е кумулянты. Иногда его называют моментным коэффициентом асимметрии Пирсона или просто моментным коэффициентом асимметрии, но его не следует путать с другими статистическими данными Пирсона (см. Ниже). Последнее равенство выражает асимметрию в терминах отношения третьего кумулянта κ 3 к 1,5-й степени второго кумулянта κ 2. Это аналогично определению эксцесса как четвертого кумулянта, нормализованного квадратом второго кумулянта. Асимметрию также иногда обозначают Skew [X].
Если σ конечно, μ тоже конечно, и перекос можно выразить через нецентральный момент E [X], расширив предыдущую формулу,
Асимметрия может быть бесконечной, например, когда
где третьи кумулянты бесконечны, или как когда
, где третий кумулянт не определен.
Примеры распределений с конечной асимметрией включают следующее:
Для выборки из n значений естественный метод моментов оценка асимметрии генеральной совокупности
где - это выборочное среднее, s - стандартное отклонение выборки, а числитель m 3 - это третий центральный момент.
выборки. Другое общее определение асимметрии выборки:
где - это уникальная симметричная несмещенная оценка третьего кумулянта и - симметричная несмещенная оценка второго кумулянта (т. Е. выборочная дисперсия ). Этот скорректированный стандартизованный коэффициент момента Фишера – Пирсона является версией, найденной в Excel и нескольких статистических пакетах, включая Minitab, SAS и SPSS.
Как правило, отношения и оба являются смещенными оценками асимметрии генеральной совокупности ; их ожидаемые значения могут даже иметь знак, противоположный истинной асимметрии. (Например, смешанное распределение, состоящее из очень тонких гауссианов с центрами -99, 0,5 и 2 с весами 0,01, 0,66 и 0,33, имеет асимметрию примерно -9,77, но в выборке из 3 имеет ожидаемое значение около 0,32, поскольку обычно все три выборки находятся в положительной части распределения, которое искажено в другую сторону.) Тем не менее, и , очевидно, имеют правильное ожидаемое значение нуля для любого симметричного распределения с конечный третий момент, включая нормальное распределение.
В предположении, что основная случайная величина нормально распределена, можно показать, что , т.е. его распределение сходится к нормальному распределению со средним 0 и дисперсией 6. Отклонение асимметрии случайной выборки размера n от нормального распределения составляет
An приблизительный вариант - 6 / n, но это неточно для небольших выборок.
В нормальных выборках имеет меньшую дисперсию из двух оценок, с
где в знаменателе
- (смещенный) выборочный второй центральный момент.
Асимметрия - это описательная статистика, которую можно использовать в сочетании с гистограммой и нормальным графиком квантилей для характеристики данных или распределения.
Асимметрия указывает направление и относительную величину отклонения распределения от нормального распределения.
При явной асимметрии стандартные процедуры статистического вывода, такие как доверительный интервал для среднего значения, будут не только неверными в том смысле, что истинный уровень охвата будет отличаться от номинального (например, 95%), но они также приведут к неравной вероятности ошибки с каждой стороны.
Асимметрия может использоваться для получения приблизительных вероятностей и квантилей распределений (таких как значение риска в финансах) с помощью разложения Корниш-Фишера.
Многие модели предполагают нормальное распределение ; т.е. данные симметричны относительно среднего. У нормального распределения асимметрия равна нулю. Но на самом деле точки данных могут не быть идеально симметричными. Итак, понимание асимметрии набора данных указывает на то, будут ли отклонения от среднего положительными или отрицательными.
К-квадрат Д'Агостино - это критерий пригодности нормальности, основанный на асимметрии выборки и эксцессе выборки.
Были использованы другие меры асимметрии, включая более простые вычисления, предложенные Карлом Пирсоном (не путать с моментным коэффициентом асимметрии Пирсона, см. выше). Этими другими показателями являются:
Асимметрия режима Пирсона или первый коэффициент асимметрии определяется как
Медианная асимметрия Пирсона или второй коэффициент асимметрии определяется как
Что является простым кратным непараметрического перекоса.
показателя асимметрии Боули (от 1901), также называемый коэффициент Юла (с 1912 года) определяется как:
При записи как , легче увидеть, что числитель - это разница между среднее значение верхнего и нижнего квартилей (мера местоположения) и медианы (еще одна мера местоположения), а знаменателем является полумежквартильный диапазон (Q3-Q1) / 2, который для симметричных распределений является MAD мерой дисперсии.
Другие названия этой меры - мера асимметрии Гальтона, индекс Юла – Кендалла и квартиль асимметрии,
более общая формулировка функция асимметрии была описана Groeneveld, RA и Meeden, G. (1984):
где F - кумулятивное распределение функция. Это приводит к соответствующей общей мере асимметрии, определяемой как супремум этого в диапазоне 1/2 ≤ u < 1. Another measure can be obtained by integrating the numerator and denominator of this expression. The function γ(u) satisfies −1 ≤ γ(u) ≤ 1 and is well defined without requiring the existence of any moments of the distribution. Quantile-based skewness measures are at first glance easy to interpret, but they often show significantly larger sample variations, than moment-based methods. This means that often samples from a symmetric distribution (like the uniform distribution) have a large quantile-based skewness, just by chance.
мера асимметрии Боули равна γ (u), оцениваемой при u = 3/4. Для меры асимметрии Келли используется u = 0,1.
Греневельд и Меден предложили в качестве альтернативной меры асимметрии
где μ - среднее значение, ν - медиана, |... | - абсолютное значение, а E () - это оператор ожидания. Это тесно связано по форме со вторым коэффициентом асимметрии Пирсона.
Использование L-моментов вместо моментов обеспечивает меру асимметрии, известную как L -scewness.
Значение асимметрии, равное нулю, не означает, что распределение вероятностей является симметричным. Таким образом, существует потребность в другой мере асимметрии, обладающей этим свойством: такая мера была введена в 2000 году. Она называется асимметрия расстояния и обозначается dSkew. Если X - случайная величина, принимающая значения в d-мерном евклидовом пространстве, X имеет конечное ожидание, X 'является независимой идентично распределенной копией X и обозначает норму в евклидовом пространстве, тогда простая мера асимметрии относительно параметра местоположения θ равна
и dSkew (X): = 0 для X = θ (с вероятностью 1). Асимметрия расстояния всегда находится между 0 и 1, равна 0 тогда и только тогда, когда X диагонально симметрична относительно θ (X и 2θ − X имеют одинаковое распределение вероятностей) и равна 1 тогда и только тогда, когда X является константой c () с вероятностью единица. Таким образом, существует простой согласованный статистический тест диагональной симметрии, основанный на асимметрии выборочного расстояния :
medcouple - масштабно-инвариантная надежная мера асимметрии, с точкой пробоя 25%. Это медиана значений функции ядра
взяты по всем парам такие, что , где - медиана выборки . Его можно рассматривать как медианное значение всех возможных мер квантильной асимметрии.
В Викиверситете есть учебные ресурсы о Асимметрии |
Викискладе есть средства массовой информации, связанные с Асимметрия ( статистика). |