В теории вероятностей и статистике, эксцесс (от греческого : κυρτός, kyrtos или kurtos, что означает «изогнутый, изогнутый») - это мера «хвостичности» распределения вероятностей вещественная -значная случайная величина. Как и асимметрия, эксцесс описывает форму распределения вероятностей, и существуют различные способы его количественной оценки для теоретического распределения и соответствующие способы его оценки по выборке из генеральной совокупности. Различные меры эксцесса могут иметь разные интерпретации.
Стандартная мера эксцесса распределения, происходящая от Карла Пирсона, является масштабированной версией четвертого момента распределения.. Это число относится к хвостам распределения, а не к его пику; следовательно, иногда наблюдаемая характеристика эксцесса как «остроконечность» неверна. Для этого показателя более высокий эксцесс соответствует большей величине отклонений (или выбросов ), а не конфигурации данных около среднего.
Эксцесс любого одномерного нормального распределения равен 3. Обычно эксцесс распределения сравнивают с этим значением. Распределения с эксцессом менее 3 называются плоскостными, хотя это не означает, что распределение является «плоским», как иногда утверждают. Скорее, это означает, что распределение производит меньше и меньше выбросов, чем нормальное распределение. Примером платикуртического распределения является равномерное распределение, которое не производит выбросов. Распределения с эксцессом более 3 называются лептокуртическими. Примером лептокуртического распределения является распределение Лапласа, которое имеет хвосты, которые асимптотически приближаются к нулю медленнее, чем гауссовское, и поэтому дает больше выбросов, чем нормальное распределение. Также обычной практикой является использование скорректированной версии эксцесса Пирсона, избыточного эксцесса, который представляет собой эксцесс минус 3, для обеспечения сравнения со стандартным нормальным распределением. Некоторые авторы используют термин «эксцесс» сам по себе для обозначения избыточного эксцесса. Однако для ясности и общности эта статья следует соглашению о недопустимости эксцесса и явно указывает, где имеется в виду избыточный эксцесс.
Альтернативные меры эксцесса: L-эксцесс, который является масштабированной версией четвертого L-момента ; меры на основе четырех квантилей генеральной совокупности или выборки. Они аналогичны альтернативным мерам асимметрии, которые не основаны на обычных моментах.
Эксцесс - это четвертый стандартизованный момент, определяемый как
где μ 4 - четвертый центральный момент, а σ - стандартное отклонение. В литературе для обозначения эксцесса используются несколько букв. Очень распространенный выбор - κ, что нормально, если ясно, что он не относится к кумулянту . Другие варианты включают γ 2, чтобы быть похожим на обозначение для асимметрии, хотя иногда это вместо этого зарезервировано для избыточного эксцесса.
эксцесс ограничен снизу квадратом асимметрии плюс 1:
где μ 3 - третий центральный момент. Нижняя граница реализуется с помощью распределения Бернулли. Верхнего предела эксцесса общего распределения вероятностей нет, и он может быть бесконечным.
Причина, по которой некоторые авторы отдают предпочтение избыточному эксцессу, заключается в том, что кумулянты обширны. Формулы, относящиеся к экстенсивному свойству, более естественно выражаются в терминах избыточного эксцесса. Например, пусть X 1,..., X n будут независимыми случайными величинами, для которых существует четвертый момент, и пусть Y будет случайной величиной, определяемой суммой X я. Избыточный эксцесс Y равен
где - стандартное отклонение . В частности, если все X i имеют одинаковую дисперсию, то это упрощается до
Причина, по которой не следует вычитать 3, состоит в том, что самое лучшее обобщается на многомерные распределения, особенно когда независимость не предполагается. кокуртоз между парами переменных - это тензор четвертого порядка. Для двумерного нормального распределения тензор кокуртоза имеет недиагональные члены, которые в целом не равны ни 0, ни 3, поэтому попытка "исправить" избыток становится запутанной. Однако верно, что совместные кумулянты степени больше двух для любого многомерного нормального распределения равны нулю.
Для двух случайных величин X и Y, не обязательно независимых, эксцесс суммы X + Y равен
Обратите внимание, что биномиальные коэффициенты появляются в приведенном выше уравнении.
Точная интерпретация меры эксцесса (или избыточного эксцесса) Пирсона раньше оспаривалась, но теперь решена. Как отмечает Вестфолл в 2014 году, «... его единственная недвусмысленная интерпретация - это конечность хвоста; то есть либо существующие выбросы (для выборочного эксцесса), либо склонность производить выбросы (для эксцесса распределения вероятностей)». Логика проста: эксцесс - это среднее (или ожидаемое значение ), возведенное в четвертую степень. Любые стандартизованные значения меньше 1 (т. Е. Данные в пределах одного стандартного отклонения от среднего, где будет «пик») практически не влияют на эксцесс, поскольку увеличение числа, меньшего 1, до четвертой степени делает его ближе к нулю. Единственные значения данных (наблюдаемые или наблюдаемые), которые вносят какой-либо значимый вклад в эксцесс, - это значения за пределами области пика; т.е. выбросы. Следовательно, эксцесс измеряет только выбросы; он ничего не измеряет о «пике».
Было дано много неверных интерпретаций эксцесса, включающих понятие пика. Во-первых, эксцесс измеряет как «пиковость» распределения, так и тяжесть его хвоста. Были предложены различные другие неправильные интерпретации, такие как «отсутствие плеч» (где «плечо» неопределенно определяется как область между пиком и хвостом, или, более конкретно, как площадь около одного стандартного отклонения от среднего) или «бимодальность». Баланда и МакГилливрей утверждают, что стандартное определение эксцесса «является плохой мерой эксцесса, пиковости или хвостового веса распределения», и вместо этого предлагают «неопределенно определять эксцесс как локализацию и отсутствие масштаба. движение вероятностной массы от центра к ее центру и хвостам ».
В 1986 году мавры дали интерпретацию эксцесса. Пусть
где X - случайная величина, μ - среднее, а σ - стандартное отклонение.
Теперь по определению эксцесса , и по хорошо известному тождеству
Эксцесс теперь можно рассматривать как меру разброса Z вокруг его ожидания. В качестве альтернативы можно увидеть меру дисперсии Z около +1 и -1. κ достигает минимального значения в симметричном двухточечном распределении. С точки зрения исходной переменной X, эксцесс - это мера разброса X вокруг двух значений μ ± σ.
Высокие значения κ возникают в двух случаях:
Избыточный эксцесс определяется как эксцесс минус 3. Существует 3 различных режима, как описано ниже.
Распределения с нулевым избыточным эксцессом называются мезокуртозом или мезокуртозом. Наиболее ярким примером мезокуртического распределения является семейство нормального распределения, независимо от значений его параметров. Некоторые другие хорошо известные распределения могут быть мезокуртическими, в зависимости от значений параметров: например, биномиальное распределение является мезокуртическим для .
Распределение с положительным избыточным эксцессом называется лептокуртическим, или лептокуртотическим. «Лепто-» означает «стройный». Что касается формы, лептокуртическое распределение имеет более толстые хвосты. Примеры лептокуртических распределений включают t-распределение Стьюдента, распределение Рэлея, распределение Лапласа, экспоненциальное распределение, распределение Пуассона и логистическое распределение. Такие распределения иногда называют супергауссами.
Распределение с отрицательным избыточным эксцессом называется платикуртоз, или платикуртоз. «Platy-» означает «широкий». По форме у платикуртика хвосты более тонкие. Примеры платикуртических распределений включают непрерывное и дискретные равномерные распределения и распределение с приподнятым косинусом. Наиболее распространенным из всех распределений является распределение Бернулли с p = 1/2 (например, сколько раз выпадал орел при подбрасывании монеты один раз, подбрасывание монеты ), для которого избыточный эксцесс равен −2. Такие распределения иногда называют субгауссовым распределением, первоначально предложенным Жан-Пьером Каханом и далее описанным Булдыгиным и Козаченко.
Эффекты эксцесса проиллюстрированы с помощью параметрического семейства распределений, эксцесс которых можно регулировать, в то время как их моменты нижнего порядка и кумулянты остаются постоянными. Рассмотрим семейство типа VII Пирсона, которое является частным случаем семейства типа IV Пирсона, ограниченное симметричной плотностью. Функция плотности вероятности определяется выражением
, где a - параметр масштаба и m - параметр формы ..
Все плотности в этом семействе симметричны. K-й момент существует, если m>(k + 1) / 2. Для существования эксцесса нам требуется m>5/2. Тогда существуют среднее значение и асимметрия, и оба они равны нулю. Установка a = 2m - 3 делает дисперсию равной единице. Тогда единственным свободным параметром является m, который управляет четвертым моментом (и кумулянтом) и, следовательно, эксцессом. Можно изменить параметры с помощью , где - это избыточный эксцесс, как определено выше. Это дает однопараметрическое лептокуртическое семейство с нулевым средним, единичной дисперсией, нулевой асимметрией и произвольным неотрицательным избыточным эксцессом. Повторно параметризованная плотность равна
В пределе получается плотность
, что показано красной кривой на изображениях справа.
В другом направлении, как , получается стандартная нормальная плотность как предельное распределение, показанное черной кривой.
На изображениях справа синяя кривая представляет плотность с избыточный эксцесс, равный 2. Верхнее изображение показывает, что лептокуртические плотности в этом семействе имеют более высокий пик, чем мезокуртическая нормальная плотность, хотя этот вывод действителен только для этого избранного семейства распределений. Сравнительно более толстые хвосты лептокуртических плотностей проиллюстрированы на втором изображении, на котором изображен натуральный логарифм плотностей Пирсона типа VII: черная кривая - это логарифм стандартной нормальной плотности, которая является параболой . Можно видеть, что нормальная плотность наделяет небольшую вероятностную массу областям, далеким от среднего («имеет тонкие хвосты»), по сравнению с синей кривой лептокуртической плотности Пирсона типа VII с избыточным эксцессом, равным 2. Между синей кривой и черные - другие плотности типа VII Пирсона с γ 2 = 1, 1/2, 1/4, 1/8 и 1/16. Красная кривая снова показывает верхний предел семейства Пирсона типа VII, с (что, строго говоря, означает, что четвертого момента не существует). Красная кривая уменьшается медленнее всего по мере движения наружу от начала координат («имеет толстые хвосты»).
Несколько хорошо известных унимодальных и симметричных распределений из разных параметрических семейств сравниваются здесь. Каждый имеет нулевое среднее значение и асимметрию. Параметры были выбраны так, чтобы в каждом случае дисперсия была равна 1. На изображениях справа показаны кривые для следующих семи плотностей в линейной шкале и логарифмической шкале :
Обратите внимание, что в В этих случаях пластические плотности имеют ограниченный носитель, тогда как плотности с положительными или нулевой избыточный эксцесс поддерживается на всей действительной прямой.
Нельзя сделать вывод, что распределения с высоким или низким эксцессом имеют характеристики, указанные в этих примерах. Существуют пластинчатые плотности с бесконечной опорой,
, и существуют лептокуртические плотности с конечной опорой.
Также существуют платикуртические плотности с бесконечной остротой,
и существуют лептокуртические плотности, которые кажутся плоскими,
Для выборки из n значений эксцесс выборки равно
где m 4 - момент четвертой выборки около среднего, m 2 - второй момент выборки около среднего (то есть выборочная дисперсия ), x i - это значение i, а - выборка среднее.
Эта формула имеет более простое представление:
где значения представляют собой стандартизованные значения данных с использованием стандартных отклонение определяется с помощью n, а не n - 1 в знаменателе.
Например, предположим, что значениями данных являются 0, 3, 4, 1, 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 999.
Тогда значения равны -0,239, -0,225, -0,221, -0,234, -0,230, -0,225, −0,239, −0,230, −0,234, −0,225, −0,230, −0,239, −0,230, −0,230, −0,225, −0,230, −0,216, −0,230, −0,225, 4,359
и значения: 0.003, 0.003, 0.002, 0.003, 0.003, 0.003, 0.003, 0.003, 0.003, 0.003, 0.003, 0.003, 0.003, 0.003, 0,003, 0,003, 0,002, 0,003, 0,003, 360,976.
Среднее значение этих значений составляет 18,05, и, таким образом, избыточный эксцесс составляет 18,05 - 3 = 15,05. Этот пример проясняет, что данные около «середины» или «пика» распределения не влияют на статистику эксцесса, следовательно, эксцесс не измеряет «пиковость». Это просто показатель выброса, 999 в этом примере.
Верхняя граница для выборочного эксцесса n (n>2) действительных чисел составляет
где - выборочная асимметрия .
Дисперсия эксцесса выборки для выборки размера n от нормального распределения is
Другими словами, в предположении, что базовая случайная величина нормально распределена, можно показать, что .
Дан подмножество выборок из в популяции, приведенный выше выборочный эксцесс является смещенной оценкой избыточного эксцесса в популяции. Альтернативная оценка эксцесса эксцесса популяции определяется следующим образом:
где k 4 - уникальная симметричная несмещенная оценка четвертого кумулянта, k 2 - несмещенная оценка второго кумулянта (идентично несмещенной оценке выборочной дисперсии), m 4 - это четвертый момент выборки относительно среднего, m 2 - второй выборочный момент относительно среднего, x i - это значение i, а - выборочное среднее. К сожалению, сам по себе обычно предвзят. Для нормального распределения оно несмещено.
Примерный эксцесс - полезная мера того, есть ли проблема с выбросами в наборе данных. Большой эксцесс указывает на более серьезную проблему с выбросами и может побудить исследователя выбрать альтернативные статистические методы.
К-квадрат Д'Агостино - это критерий пригодности нормальности, основанный на комбинации асимметрии выборки и эксцесса выборки, как и Тест Жарка – Бера на нормальность.
Для нестандартных выборок дисперсия выборочной дисперсии зависит от эксцесса; подробнее см. дисперсия.
Определение эксцесса, данное Пирсоном, используется в качестве индикатора перемежаемости в турбулентности.
Конкретным примером является следующая лемма Хэ, Чжана и Чжана: Предположим случайную величину имеет ожидание , дисперсия и эксцесс . Предположим, мы выбираем много независимых копий. Тогда
Это показывает, что с много выборок, мы увидим тот, который превосходит ожидания с вероятностью не менее . Другими словами: если эксцесс большой, мы можем увидеть много значений либо ниже, либо выше среднего.
При применении полосовых фильтров к цифровым изображениям значения эксцесса имеют тенденцию быть однородными, независимо от диапазона фильтра. Это поведение, называемое конвергенцией эксцесса, может быть использовано для обнаружения сращивания изображений в судебном анализе.
Другая мера «эксцесса» обеспечивается с помощью L-моментов вместо обычных моментов.
Викискладе есть материалы, связанные с эксцессом. |
Викиверситет содержит обучающие ресурсы по Kurtosis |