В статистика и теория вероятности, непараметрический перекос - это статистика , которая иногда используется с случайными величинами, которые принимают действительные значения. Это мера асимметрии распределения случайной величины, то есть тенденции распределения «наклоняться» в ту или иную сторону от среднего. Для его расчета не требуется никакого знания формы основного распределения - отсюда и название непараметрический. У него есть несколько желаемых свойств: он равен нулю для любого симметричного распределения ; на него не влияет сдвиг шкалы ; и он одинаково хорошо выявляет как левый, так и правый перекос. В некоторых статистических выборках было показано, что он менее эффективен, чем обычные меры асимметрии при обнаружении отклонений совокупности от нормальности.
непараметрический перекос определяется как
, где означает (µ), медиана (ν) и стандартное отклонение (σ) совокупности имеют свои обычные значения.
Непараметрический перекос составляет одну треть от коэффициента асимметрии Пирсона 2 и находится между -1 и +1 для любого распределения. Этот диапазон подразумевается тем фактом, что среднее значение находится в пределах одного стандартного отклонения от любой медианы.
При аффинном преобразовании переменной (X) значение S не изменяется, кроме на предмет возможного изменения знака. В символах
где a ≠ 0 и b - константы, а S (X) - непараметрический перекос переменной X.
Границы этой статистики (± 1) были уточнены Маджиндаром, который показал, что его абсолютное значение ограничено
с
и
, где X - случайная величина с конечной дисперсией, E () - оператор математического ожидания, а Pr () - вероятность возникновения события.
Когда p = q = 0,5, абсолютное значение этой статистики ограничено 1. При p = 0,1 и p = 0,01 статистика Абсолютное значение tic ограничено 0,6 и 0,199 соответственно.
Также известно, что
, где ν 0 - любая медиана, а E (.) - оператор ожидания.
Было показано, что
где x q - квантиль q . Квантили лежат между 0 и 1: медиана (квантиль 0,5) имеет q = 0,5. Это неравенство также использовалось для определения меры асимметрии.
Последнее неравенство было дополнительно уточнено.
Еще одно расширение для распределения с конечным средним было опубликовано:
Границы в последней паре неравенств достигаются, когда и для фиксированных чисел a < b.
Для конечной выборки с размером выборки n ≥ 2 с x r - это статистика порядка r , m - среднее значение выборки и s - стандартное отклонение выборки с поправкой на степени свободы,
Замена r на n / 2 дает результат, подходящий для медианы выборки:
где a - медиана выборки.
Хотеллинг и Соломоновы рассматривали распределение тестовой статистики
где n - размер выборки, m - среднее значение выборки, a - медиана выборки, а s - стандартное отклонение выборки.
Статистические тесты D предполагают, что проверяемая нулевая гипотеза заключается в том, что распределение является симметричным.
Гаствирт оценил асимптотическую дисперсию nD. Если распределение является одномодальным и симметричным относительно 0, асимптотическая дисперсия находится между 1/4 и 1. Допущение консервативной оценки (приравнивание дисперсии к 1) может привести к истинному уровню значимости значительно ниже номинального уровня.
Предполагая, что основное распределение является симметричным, Кабилио и Масаро показали, что распределение S является асимптотически нормальным. Асимптотическая дисперсия зависит от основного распределения: для нормального распределения асимптотическая дисперсия S√n равна 0,5708...
Предполагая, что основное распределение является симметричным, учитывая распределение значений выше и ниже медиана Чжэн и Гаствирт утверждали, что
где n размер выборки, распределен как t-распределение.
Мира изучила распределение разницы между средним и медианным значением.
где m - выборочное среднее, а a - медиана. Если основное распределение является симметричным, то γ 1 само асимптотически нормально. Эта статистика была ранее предложена Бонферрони.
Предполагая симметричное основное распределение, модификация S была изучена Мяо, Гелем и Гаствиртом, которые изменили стандартное отклонение для создания своей статистики. 388>J = 1 n π 2 ∑ | X i - a | {\ displaystyle J = {\ frac {1} {n}} {\ sqrt {\ frac {\ pi} {2}}} \ sum {| X_ {i} -a |}}
где X i - примерные значения, || - абсолютное значение, а сумма берется по всем n выборочным значениям.
Статистика теста была
Масштабированная статистика T√n асимптотически нормальна со средним нулем для симметричного распределения. Его асимптотическая дисперсия зависит от основного распределения: предельные значения: для нормального распределения var (T√n) = 0,5708... и для t-распределения с тремя степенями свободы, var (T√n) = 0,9689...
Для симметричных распределений вероятностей значение непараметрического перекоса равно 0.
Оно положительно для распределений с перекосом вправо и отрицательно для распределений с перекосом влево. Абсолютные значения ≥ 0,2 указывают на заметную асимметрию.
Может быть сложно определить S для некоторых распределений. Обычно это происходит потому, что закрытая форма для медианы неизвестна: примеры таких распределений включают гамма-распределение, распределение обратного хи-квадрат, обратное гамма-распределение. и масштабированное обратное распределение хи-квадрат.
Известны следующие значения S:
В 1895 г. Пирсон впервые предложил измерять асимметрию путем стандартизации разницы между средним значением и модой, давая
где μ, θ и σ - среднее значение, мода и стандартное отклонение распределения соответственно. Оценки режима генеральной совокупности на основе данных выборки могут быть трудными, но разница между средним значением и модой для многих распределений примерно в три раза превышает разницу между средним и медианным значением, которое предложило Пирсону второй коэффициент асимметрии:
, где ν - медиана распределения. Боули исключил множитель 3 из этой формулы в 1901 году, что привело к непараметрической статистике перекоса.
Взаимосвязь между медианой, средним значением и модой была впервые отмечена Пирсоном, когда он исследовал свои распределения типа III.
Для произвольного распределения мода, медиана и среднее значение могут появляться в любом порядке.
Был проведен анализ некоторых из отношения между средним значением, медианой, модой и стандартным отклонением. и эти отношения накладывают некоторые ограничения на знак и величину непараметрического перекоса.
Простым примером, иллюстрирующим эти отношения, является биномиальное распределение с n = 10 и p = 0,09. На графике это распределение имеет длинный правый хвост. Среднее значение (0,9) находится слева от медианы (1), но перекос (0,906), определенный третьим стандартизированным моментом, положительный. Напротив, непараметрический перекос составляет -0,110.
Правило, согласно которому для некоторых распределений разница между средним и модой в три раза больше, чем между средним и медианой, принадлежит Пирсону, который обнаружил его при исследовании своего Типа 3. раздачи. Его часто применяют к слегка асимметричным распределениям, которые напоминают нормальное распределение, но это не всегда верно.
В 1895 году Пирсон отметил, что для того, что сейчас известно как гамма-распределение, соотношение
где θ, ν и µ - мода, медиана и среднее значение распределения, соответственно, было приблизительно верно для распределений с большим параметром формы.
Дудсон в 1917 году доказал, что медиана лежит между модой и средним значением для умеренно искаженных распределений с конечными четвертыми моментами. Это соотношение сохраняется для всех распределений Пирсона, и все эти распределения имеют положительный непараметрический перекос.
Дудсон также отметил, что для этого семейства распределений с хорошим приближением
где θ, ν и µ - мода, медиана и среднее значение распределения соответственно. Приближение Дудсона было дополнительно исследовано и подтверждено Haldane. Холдейн отметил, что выборки с идентичными и независимыми переменными с третьим кумулянтом имели выборочные средства, которые подчинялись соотношению Пирсона для больших размеров выборки. Холдейн требовал выполнения ряда условий для этого отношения, включая существование расширения Эджворта и уникальность как медианы, так и моды. В этих условиях он обнаружил, что мода и медиана сходятся к 1/2 и 1/6 третьего момента соответственно. Этот результат был подтвержден Холлом в более слабых условиях с использованием характеристических функций..
Отношение Дудсона было изучено Кендаллом и Стюартом в логнормальном распределении, для которого они нашли близкое к нему точное соотношение. 252>
Холл также показал, что для распределения с правильно меняющимися хвостами и показателем α
В 1823 году Гаусс показал, что для унимодального распределения
и
, где ω - среднеквадратичное отклонение от режима.
Для большого класса унимодальных распределений, которые имеют положительный перекос, мода, медиана и среднее падают в указанном порядке. И наоборот, для большого класса унимодальных распределений, которые имеют отрицательный перекос, среднее значение меньше медианы, которое, в свою очередь, меньше, чем мода. В символах этих положительно скошенных одномодальных распределений
и для этих отрицательно скошенных одномодальных распределений
Этот класс включает важные распределения F, бета и гамма.
Это правило не выполняется для унимодального распределения Вейбулла.
Для унимодального распределения известны следующие точные границы:
где μ, ν и θ - среднее значение, медиана и режим соответственно.
Средняя граница ограничивает непараметрический перекос унимодального распределения примерно до ± 0,775.
Следующее неравенство,
где θ, ν а µ - мода, медиана и среднее значение распределения соответственно, выполняется, если
где F - кумулятивная функция распределения распределения. С тех пор эти условия были обобщены и распространены на дискретные распределения. Любое распределение, для которого это верно, имеет либо нулевой, либо положительный непараметрический перекос.
В 1964 году ван Цвет предложил ряд аксиом для упорядочивания мер асимметрии. Непараметрический перекос не удовлетворяет этим аксиомам.
Закон Бенфорда - это эмпирический закон, касающийся распределения цифр в списке чисел. Было высказано предположение, что случайные вариации из распределений с положительным непараметрическим перекосом будут подчиняться этому закону.
Эту статистику можно получить из коэффициента асимметрии Боули
где Q i - i-й квартиль распределения.
Хинкли обобщил это
где находится в диапазоне от 0 до 0,5. Коэффициент Боули - это особый случай, когда равняется 0,25.
Греневельд и Миден устранили зависимость от, интегрировав по ней.
Знаменатель является мерой дисперсии. Заменяя знаменатель на стандартное отклонение, мы получаем непараметрический перекос.