L-оценка

редактировать

Простые L-оценки могут быть визуально оценены из прямоугольной диаграммы и включают межквартильный диапазон, midhinge, range, mid-range и trimean.

В статистике, L-оценка - это оценка, которая является L-статистикой - линейной комбинацией статистики порядка измерений. Это может быть всего одна точка, как в медиане (нечетного числа значений), или столько, сколько все точки, как в среднем.

Основное преимущество L-оценок состоит в том, что они часто чрезвычайно просты и часто надежны в статистике : предполагая отсортированные данные, их очень легко вычислить и интерпретировать, и они часто устойчивы к выбросы. Таким образом, они полезны в надежной статистике, например, в описательной статистике, в статистике образования, а также когда вычисления затруднены. Однако они неэффективны, и в наше время предпочтительны надежные статистические данные M-оценки, хотя они намного сложнее в вычислительном отношении. Во многих случаях L-оценки достаточно эффективны и, следовательно, подходят для первоначальной оценки.

Содержание

1 Примеры
2 Надежность
3 Приложения
4 Преимущества
5 Эффективность
6 См. Также
7 Ссылки

Примеры

Базовый пример - медиана. Дано n значений $x 1,…, xn {\ displaystyle x_ {1}, \ ldots, x_ {n}}$ $x_ {1}, \ ldots, x_ {n}$ , если $n = 2 k + 1 {\ displaystyle n = 2k + 1}$ $n = 2k + 1$ нечетно, медиана равна $x (k + 1) {\ displaystyle x _ {(k + 1)}}$ $x_{{(k+1)}}$ , $(n + 1) / 2 {\ displaystyle (n + 1) / 2}$ $(n + 1) / 2$ статистика -го порядка; если $n = 2 k {\ displaystyle n = 2k}$ $n=2k$ четно, это среднее значение статистики двух порядков: $(x (k) + x (k + 1)) / 2 {\ displaystyle (x _ {(k)} + x _ {(k + 1)}) / 2}$ $(x _ {{(k)}} + x _ {{(k + 1)}}) / 2$ . Это обе линейные комбинации порядковых статистик, и поэтому медиана является простым примером L-оценки.

Более подробный список примеров включает: с одной точкой, максимум, минимум или любую статистику одного порядка или квантиль ; с одним или двумя баллами - медиана; с двумя точками: средний диапазон, диапазон, midsummary (обрезанный средний диапазон, включая midhinge ) и обрезанный диапазон (включая межквартильный интервал и интердесильный интервал ); с тремя точками трим. ; с фиксированной долей точек, усеченное среднее (включая межквартильное среднее ) и Winsorized среднее ; со всеми точками, среднее.

Обратите внимание, что некоторые из них (например, медиана или средний диапазон) являются показателями центральной тенденции и используются в качестве оценок для параметра местоположения, например в качестве среднего нормального распределения, тогда как другие (например, диапазон или усеченный диапазон) являются показателями статистической дисперсии и используются в качестве оценок параметра масштаба, например стандартное отклонение нормального распределения.

L-оценки могут также измерять форму распределения, помимо местоположения и масштаба. Например, середина минус медиана - это трехчленная L-оценка, которая измеряет асимметрию, а другие различия срединных сумм дают меры асимметрии в разных точках хвоста.

Выборка L-моменты являются L-оценками для L-момента совокупности и имеют довольно сложные выражения. L-моменты обычно рассматриваются отдельно; подробности см. в этой статье.

Устойчивость

L-оценки часто статистически устойчивы, имея высокую точку разрушения. Это определяется как доля измерений, которая может быть произвольно изменена, не вызывая стремления результирующей оценки к бесконечности (то есть к «разрушению»). Точка разбивки L-оценки задается статистикой ближайшего порядка к минимуму или максимуму: например, медиана имеет точку разбивки 50% (максимально возможное значение), а% усеченное или среднее значение с усечением имеет точку пробоя n%.

Не все L-оценки устойчивы; если он включает минимум или максимум, то он имеет точку разбивки 0. Эти ненадежные L-оценки включают минимум, максимум, среднее и среднее значение. Однако обрезанные эквиваленты надежны.

Надежные L-оценки, используемые для измерения дисперсии, такие как IQR, обеспечивают надежные меры масштаба.

Приложения

Практически используются в надежной статистике, L-оценки были заменены на M-оценки, которые обеспечивают надежную статистику, которая также имеет высокую относительную эффективность, но за счет того, что они намного сложнее и непрозрачны с точки зрения вычислений.

Однако простота L-оценок означает, что они легко интерпретируются и визуализируются, и делает их пригодными для описательной статистики и обучения статистике ; многие из них даже могут быть вычислены мысленно из сводки из пяти чисел или сводки из семи цифр или визуализированы из рамочной диаграммы. L-оценки играют фундаментальную роль во многих подходах к непараметрической статистике.

Хотя и непараметрические, L-оценки часто используются для оценки параметров, как указано в названии, хотя они необходимо часто корректировать, чтобы получить несмещенную непротиворечивую оценку. Выбор L-оценки и настройки зависят от распределения, параметр которого оценивается.

Например, при оценке параметра местоположения для симметричного распределения симметричный L-оценочный показатель (например, медиана или середина) будет несмещенным. Однако, если распределение имеет перекос, симметричные L-оценки обычно будут смещены и потребуют корректировки. Например, в асимметричном распределении непараметрический перекос (и коэффициенты асимметрии Пирсона ) измеряют смещение медианы как оценку среднего.

При оценке параметра масштаба, например, при использовании L-оценки в качестве надежных мер масштаба, например, для оценки дисперсии совокупности или совокупность стандартное отклонение, обычно необходимо умножить на масштабный коэффициент, чтобы получить несмещенную согласованную оценку; см. параметр масштаба: оценка.

Например, разделив IQR на $2 2 erf - 1 ⁡ (1/2) ≈ 1,349 {\ displaystyle 2 {\ sqrt {2}} \ operatorname {erf} ^ {- 1} (1/2) \ приблизительно 1,349}$ $2 {\ sqrt {2}} \ operatorname {erf} ^ {{- 1}} (1/2) \ приблизительно 1,349$ (с использованием функции ошибок ) делает его беспристрастным и непротиворечивым средством оценки дисперсии генеральной совокупности, если данные соответствуют нормальное распределение.

L-оценки могут также использоваться как статистические данные сами по себе - например, медиана является мерой местоположения, а IQR - мерой дисперсии. В этих случаях статистика выборки может выступать в качестве оценок собственного ожидаемого значения ; например, медиана выборки является оценкой медианы совокупности.

Преимущества

Помимо простоты, L-оценки также часто легко вычислять и надежны.

Предполагая, что данные отсортированы, L-оценки, включающие только несколько точек, могут быть рассчитаны с помощью гораздо меньшего количества математических операций, чем эффективные оценки. До появления электронных калькуляторов и компьютеров они обеспечивали полезный способ извлечения большей части информации из выборки с минимальными трудозатратами. Они оставались в практическом использовании до начала и середины 20-го века, когда была возможна автоматическая сортировка данных перфокарт, но вычисление оставалось трудным и до сих пор используется для оценок с учетом списка числовых значений в не машиночитаемая форма, где ввод данных дороже, чем ручная сортировка. Они также позволяют производить быструю оценку.

L-оценки часто гораздо более надежны, чем максимально эффективные традиционные методы - медиана максимально статистически устойчива, имеет точку разрушения 50% , а X% усеченный средний диапазон имеет точку разбивки X%, в то время как выборочное среднее (которое является максимально эффективным) минимально устойчиво, разбивая для одного выброса.

Эффективность

Хотя L-оценки не так эффективны, как другие статистические данные, они часто обладают достаточно высокой относительной эффективностью и показывают, что большая часть информации, используемой при оценке, может быть получена с использованием только несколько баллов - всего один, два или три. В качестве альтернативы они показывают, что статистика заказов содержит значительный объем информации.

Например, с точки зрения эффективности, для выборки числового параметра нормально распределенного, среднее арифметическое (среднее) для совокупность может быть оценена с максимальной эффективностью путем вычисления выборочного среднего - сложения всех элементов выборки и деления на количество членов.

Однако для большого набора данных (более 100 точек) от симметричной совокупности среднее значение может быть достаточно эффективно оценено относительно наилучшей оценки с помощью L-оценок. Используя одну точку, это делается путем взятия медианы выборки без каких-либо вычислений (кроме сортировки); это дает эффективность 64% или лучше (для всех n). Используя две точки, простая оценка - это midhinge (25% усеченный средний диапазон ), но более эффективная оценка - это 29% усеченный средний диапазон. диапазон, то есть усреднение двух значений, составляющих 29% от наименьшего и наибольшего значений: 29-й и 71-й процентили; это имеет КПД около 81%. Для трех точек можно использовать trimean (среднее от медианы и середины), хотя среднее значение для 20-го, 50-го и 80-го процентилей дает эффективность 88%. Использование дополнительных точек дает более высокую эффективность, хотя примечательно, что для очень высокой эффективности необходимо всего 3 точки.

Для оценки стандартного отклонения нормального распределения масштабированный интердецильный диапазон дает достаточно эффективную оценку, хотя вместо этого используется 7% усеченный диапазон (разница между 7-м и 93-м процентилями) и деление на 3 (соответствует 86% данных нормального распределения, попадающих в 1,5 стандартных отклонения от среднего) дает оценку эффективности около 65%.

Для небольших выборок L-оценки также относительно эффективный: средняя сводка 3-й точки с каждого конца имеет эффективность около 84% для образцов размером около 10, а диапазон делится на $n {\ displaystyle {\ sqrt {n}}}$ ${\ sqrt {n}}$ имеет достаточно хорошую эффективность для размеров до 20, хотя она падает с увеличением n, и масштабный коэффициент может быть улучшен (эффективность 85% для 10 точек). Другие эвристические оценки для малых выборок включают диапазон по n (для стандартной ошибки) и диапазон, возведенный в квадрат над медианной (для хи-квадрат распределения Пуассона).

См. Также

Ссылки