Средний уровень

редактировать

В статистике средний диапазон или средний крайний набора значений статистических данных - это среднее арифметическое максимального и минимального значений в наборе данных, определяемый как:

M = max x + min x 2. {\ displaystyle M = {\ frac {\ max x + \ min x} {2}}.}M = {\ frac {\ max x + \ min x} {2}}.

Средний диапазон - это средняя точка диапазона ; как таковой, он является мерой центральной тенденции.

Средний диапазон редко используется в практическом статистическом анализе, поскольку ему не хватает эффективности в качестве средства оценки для большинства представляющих интерес распределений, поскольку он игнорирует все промежуточные точки, и ему не хватает устойчивости, поскольку выбросы существенно меняют. Действительно, это одна из наименее эффективных и наименее надежных статистических данных. Тем не менее, он находит некоторое применение в особых случаях: это максимально эффективный оценщик для центра равномерного распределения, усеченная устойчивость адреса к среднему диапазону, и как L-оценщик, он прост для понимания и вычислить.

Содержание
  • 1 Устойчивость
  • 2 Эффективность
    • 2.1 Небольшие выборки
  • 3 Свойства выборки
  • 4 Отклонение
  • 5 См. Также
  • 6 Ссылки
Устойчивость

Средний диапазон очень чувствителен к выбросам и игнорирует все, кроме двух точек данных. Следовательно, это очень ненадежная статистика , имеющая точку разбивки , равную 0, что означает, что одно наблюдение может изменить ее произвольно. Кроме того, на него сильно влияют выбросы: увеличение максимума выборки или уменьшение минимума выборки на x изменяет средний диапазон на x / 2, {\ displaystyle x / 2,}x / 2, при изменении среднее значение выборки, которое также имеет точку разбивки 0, только на x / n. {\ displaystyle x / n.}x/n.Таким образом, от него мало пользы в практической статистике, если выбросы уже не обработаны.

A усеченный средний диапазон известен как midsummary - усеченный средний диапазон n% является средним из n% и (100 − n)% процентилей и является более надежным, имея точка пробоя n%. В середине находится midhinge, что составляет 25% итоговой суммы середины. медиана может интерпретироваться как полностью усеченная (50%) средняя величина; это согласуется с соглашением о том, что медиана четного числа точек является средним значением двух средних точек.

Эти обрезанные средние диапазоны также представляют интерес как описательная статистика или как L-оценки центрального местоположения или асимметрия : различия срединных сумм, например как середина минус медиана, дайте меры асимметрии в разных точках хвоста.

Эффективность

Несмотря на свои недостатки, в некоторых случаях это полезно: средний диапазон очень эффективен оценка μ, учитывая небольшую выборку достаточно платикуртического распределения, но она неэффективна для мезокуртических распределений, таких как нормальное.

Например, для непрерывного равномерного распределения с неизвестным максимумом и минимумом средний диапазон является оценкой UMVU для среднего. максимум выборки и минимум выборки вместе с размером выборки являются достаточной статистикой для максимума и минимума генеральной совокупности - распределение других выборок, обусловленное данным максимумом и минимумом, является просто равномерным распределением между максимум и минимум и поэтому не добавляйте никакой информации. См. Проблема немецких танков для дальнейшего обсуждения. Таким образом, средний диапазон, который является объективной и достаточной оценкой среднего генеральной совокупности, на самом деле является UMVU: использование выборочного среднего просто добавляет шум на основе неинформативного распределения точек в этом диапазоне.

И наоборот, для нормального распределения выборочное среднее является оценкой среднего UMVU. Таким образом, для платикуртических распределений, которые часто можно представить как между равномерным распределением и нормальным распределением, информативность средних точек выборки по сравнению со значениями экстремумов варьируется от «равной» для нормального до «неинформативного» для равномерного и для различных распределений., один или другой (или некоторая их комбинация) может быть наиболее эффективным. Надежным аналогом является trimean, который усредняет midhinge (25% усеченный средний диапазон) и медианное значение.

Небольшие выборки

Для малых размеров выборки (n от 4 до 20), взятые из достаточно платикуртического распределения (отрицательный избыточный эксцесс, определяемый как γ 2 = (μ 4 / (μ 2) ²) - 3) средний диапазон является эффективной оценкой среднего μ. В следующей таблице обобщены эмпирические данные, сравнивающие три оценки среднего для распределений различного эксцесса; модифицированное среднее - это усеченное среднее, из которого исключены максимум и минимум.

Избыточный эксцесс (γ 2)Наиболее эффективная оценка μ
от -1,2 до - 0,8СЧ
от -0,8 до 2,0Среднее
от 2,0 до 6,0Модифицированное среднее

Для n = 1 или 2, СЧ и средние равны (и совпадают с медианой) и являются наиболее эффективными для всех распределений. Для n = 3 модифицированное среднее является медианой, а вместо этого среднее является наиболее эффективной мерой центральной тенденции для значений γ 2 от 2,0 до 6,0, а также от -0,8 до 2,0.

Свойства выборки

Для выборки размера n из стандартного нормального распределения средний диапазон M несмещен, и его дисперсия определяется следующим образом:

var ⁡ (M) = π 2 24 ln ⁡ (n). {\ displaystyle \ operatorname {var} (M) = {\ frac {\ pi ^ {2}} {24 \ ln (n)}}.}\ operatorname {var} (M) = {\ frac {\ pi ^ {2}} {24 \ ln (n)}}.

Для выборки размера n из стандартного распределения Лапласа среднее значение M несмещено и имеет заданную дисперсию по:

var ⁡ (M) = π 2 12 {\ displaystyle \ operatorname {var} (M) = {\ frac {\ pi ^ {2}} {12}}}\ operatorname {var} (M) = {\ frac {\ pi ^ {2}} {12}}

и, в частности, дисперсия не уменьшается до нуля при увеличении размера выборки.

Для выборки размера n из центрированного нуля равномерного распределения, средний диапазон M несмещен, nM имеет асимптотическое распределение, что составляет Распределение Лапласа.

Отклонение

В то время как среднее значение набора значений минимизирует сумму квадратов отклонений, а медиана минимизирует среднее абсолютное отклонение, средний диапазон минимизирует максимальное отклонение (определенное как max | xi - m | {\ displaystyle \ max \ left | x_ {i} -m \ right |}\ max \ left | x_ {i} -m \ right | ): это решение вариационной задачи.

См. Также
Ссылки
Последняя правка сделана 2021-05-30 10:21:40
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте