В статистике и теории вероятностей, то медианное этом значение, отделяя более высокую половину от нижней половины выборки данных, в популяции или распределения вероятности. Для набора данных его можно рассматривать как «среднее» значение. Основная особенность медианы при описании данных по сравнению со средним значением (часто описываемым просто как «среднее») заключается в том, что оно не искажается небольшой долей чрезвычайно больших или малых значений и, следовательно, обеспечивает лучшее представление «типичного» " ценить. Например, средний доход может быть лучшим способом предположить, что такое «типичный» доход, потому что распределение доходов может быть очень асимметричным. Медиана имеет центральное значение в надежной статистике, поскольку это наиболее устойчивая статистика, имеющая точку разбивки 50%: пока не более половины данных загрязнены, медиана не является произвольно большим или малым результатом.
Медиана конечного списка чисел - это «среднее» число, когда эти числа перечислены в порядке от наименьшего к наибольшему.
Если в наборе данных нечетное количество наблюдений, выбирается средний. Например, следующий список из семи чисел,
имеет медиану 6, что является четвертым значением.
В общем случае, для набора из элементов, это может быть записано как:
Набор из четного числа наблюдений не имеет четкого среднего значения, а медиана обычно определяется как среднее арифметическое двух средних значений. Например, набор данных
имеет медианное значение 4,5, то есть. (В более технических терминах это интерпретирует медианное значение как полностью обрезанный средний диапазон ). Согласно этому соглашению, медиана может быть определена следующим образом (для четного числа наблюдений):
Тип | Описание | Пример | Результат |
---|---|---|---|
Среднее арифметическое | Сумма значений набора данных, деленная на количество значений: | (1 + 2 + 2 + 3 + 4 + 7 + 9) / 7 | 4 |
Медиана | Среднее значение, разделяющее большую и меньшую половины набора данных | 1, 2, 2, 3, 4, 7, 9 | 3 |
Режим | Наиболее частое значение в наборе данных | 1, 2, 2, 3, 4, 7, 9 | 2 |
Формально медиана совокупности - это любое значение, такое, что максимум половины населения меньше предложенной медианы и максимум половина больше предложенной медианы. Как видно выше, медианы не могут быть уникальными. Если каждый набор содержит менее половины совокупности, то некоторая часть совокупности точно равна уникальной медиане.
Медиана четко определена для любых упорядоченных (одномерных) данных и не зависит от какой-либо метрики расстояния. Таким образом, медиана может применяться к классам, которые ранжируются, но не числовыми (например, вычисление средней оценки, когда учащиеся оцениваются от A до F), хотя результат может быть посередине между классами, если имеется четное количество случаев.
С другой стороны, геометрическая медиана определяется в любом количестве измерений. Связанная концепция, в которой результат вынужден соответствовать члену выборки, - это медоид.
Там нет широко приняты стандартные обозначения для медианы, но некоторые авторы представляют медиана переменной х либо как х или ц 1/2 иногда также M. В любом из этих случаев использование тех или иных символов для медианы должно быть явно определено при их введении.
Медиана - это частный случай других способов суммирования типичных значений, связанных со статистическим распределением : это 2-й квартиль, 5-й дециль и 50-й процентиль.
Медиана может использоваться в качестве меры местоположения, когда крайним значениям придается меньшее значение, обычно потому, что распределение искажено, экстремальные значения неизвестны или выбросы не заслуживают доверия, т. Е. Могут быть ошибками измерения / транскрипции.
Например, рассмотрим мультимножество
В этом случае медиана равна 2 (как и режим ), и ее можно рассматривать как лучшее указание центра, чем среднее арифметическое 4, которое больше, чем все значения, кроме одного. Однако широко цитируемое эмпирическое соотношение, согласно которому среднее смещается «дальше в хвост» распределения, чем медиана, в целом неверно. В лучшем случае можно сказать, что эти две статистики не могут быть «слишком далеко» друг от друга; см. § Неравенство, относящееся к средним и медианам ниже.
Поскольку медиана основана на средних данных в наборе, нет необходимости знать значение крайних результатов для ее вычисления. Например, в психологическом тесте, изучающем время, необходимое для решения проблемы, если небольшое количество людей вообще не смогли решить проблему за заданное время, медиана все же может быть вычислена.
Поскольку медиана проста для понимания и расчета, а также является надежным приближением к среднему, медиана является популярной сводной статистикой в описательной статистике. В этом контексте существует несколько вариантов измерения вариабельности : диапазон, межквартильный размах, среднее абсолютное отклонение и среднее абсолютное отклонение.
Для практических целей различные меры местоположения и дисперсии часто сравниваются на основе того, насколько хорошо соответствующие значения совокупности могут быть оценены на основе выборки данных. Медиана, рассчитанная с использованием медианы выборки, имеет в этом отношении хорошие свойства. Хотя обычно предполагается, что данное распределение населения не является оптимальным, его свойства всегда достаточно хороши. Например, сравнение эффективности кандидатов-оценщиков показывает, что выборочное среднее более статистически эффективно, когда - и только когда - данные не загрязнены данными из распределений с тяжелыми хвостами или из смесей распределений. Даже в этом случае медиана имеет эффективность 64% по сравнению со средним значением с минимальной дисперсией (для больших нормальных выборок), то есть дисперсия медианы будет на ~ 50% больше, чем дисперсия среднего.
Для любого реального значного распределения вероятностей с кумулятивной функцией распределения F, медиана определяются как любой действительное числом т, удовлетворяющие неравенства
Эквивалентная формулировка использует случайную величину X, распределенную согласно F:
Обратите внимание, что это определение не требует, чтобы X имело абсолютно непрерывное распределение (которое имеет функцию плотности вероятности ƒ), а также не требует дискретного распределения. В первом случае неравенства могут быть увеличены до равенства: медиана удовлетворяет
Любое распределение вероятностей на R имеет по меньшей мере одну медианы, но и в патологических случаях может быть более чем один медиана: если Р постоянна 1/2 на интервале (так что ƒ = 0), то любое значение этого интервала является медиана.
Медианы некоторых типов распределений можно легко вычислить по их параметрам; более того, они существуют даже для некоторых распределений, в которых отсутствует четко определенное среднее значение, таких как распределение Коши :
Средняя абсолютная ошибка реального переменных с относительно случайной величины X является
При условии, что распределение вероятностей X таково, что приведенное выше математическое ожидание существует, то т является медианой X тогда и только тогда, когда т является минимизантом средней абсолютной погрешности по отношению к X. В частности, m является выборкой медианы тогда и только тогда, когда m минимизирует среднее арифметическое абсолютных отклонений.
В более общем смысле медиана определяется как минимум
как обсуждается ниже в разделе о многомерных медианах (в частности, о пространственной медиане ).
Это основанное на оптимизации определение медианы полезно при статистическом анализе данных, например, при кластеризации k- средних.
Если распределение имеет конечную дисперсию, то расстояние между медианой и средним значением ограничено одним стандартным отклонением.
Эта оценка была доказана Мэллоусом, который дважды использовал неравенство Дженсена, следующим образом. Использование | | для абсолютного значения имеем
Первое и третье неравенства происходят из неравенства Дженсена, примененного к функции абсолютного значения и функции квадрата, каждая из которых является выпуклой. Второе неравенство возникает из-за того, что медиана минимизирует функцию абсолютного отклонения.
Доказательство Мальлоу можно обобщить для получения многомерной версии неравенства, просто заменив абсолютное значение нормой :
где m - пространственная медиана, то есть минимизатор функции. Пространственная медиана уникальна, когда размерность набора данных равна двум или более.
Альтернативное доказательство использует одностороннее неравенство Чебышева; это проявляется в неравенстве по параметрам местоположения и масштаба. Эта формула также непосредственно следует из неравенства Кантелли.
В случае унимодальных распределений можно получить более точную оценку расстояния между медианой и средним значением:
Аналогичное соотношение имеет место между медианой и модой:
Неравенство Йенсена утверждает, что для любой случайной величины X с конечным математическим ожиданием E [ X ] и для любой выпуклой функции f
Это неравенство распространяется и на медианное значение. Мы говорим, что функция F: ℝ → ℝ является функцией C, если для любого т,
представляет собой замкнутый интервал (допускающий вырожденные случаи единственной точки или пустого множества ). Каждая функция C выпукла, но обратное неверно. Если f - C-функция, то
Если медианы не уникальны, утверждение верно для соответствующей супремы.
Несмотря на то, что для сравнения-сортировки n элементов требуется Ω ( n log n) операций, алгоритмы выбора могут вычислить k- й наименьший из n элементов с помощью только Θ ( n) операций. Сюда входит медиана, которая является п/2статистика-го порядка (или для четного числа выборок среднее арифметическое двух статистик среднего порядка).
Алгоритмы выбора по-прежнему имеют недостаток, заключающийся в том, что они требуют памяти Ω ( n), то есть они должны иметь в памяти полную выборку (или ее часть линейного размера). Поскольку это, а также линейное требование времени могут быть недопустимыми, было разработано несколько процедур оценки медианы. Простое правило - это правило трех элементов, которое оценивает медиану как медиану трехэлементной подвыборки; это обычно используется в качестве подпрограммы в алгоритме сортировки быстрой сортировки, который использует оценку медианы входных данных. Более надежные оценки является Тьюки «ы ninther, что средний из трех правило применяется с ограниченной рекурсии: если является образцом выложен в виде массива, и
тогда
Средство исправления - это средство оценки медианы, которое требует линейного времени, но сублинейной памяти, работающей за один проход по выборке.
Распределение как среднего по выборке, так и медианы по выборке было определено Лапласом. Распределение медианы выборки из совокупности с функцией плотности асимптотически нормальное со средним значением и дисперсией
где - медиана, а - размер выборки. Современное доказательство следует ниже. Результат Лапласа теперь понимается как частный случай асимптотического распределения произвольных квантилей.
Для нормальных выборок плотность равна, поэтому для больших выборок дисперсия медианы равна (см. Также раздел № Эффективность ниже).
Мы считаем размер выборки нечетным числом и предполагаем, что наша переменная непрерывна; формула для случая дискретных переменных приведена ниже в разделе «Эмпирическая локальная плотность». Выборку можно резюмировать как «ниже медианы», «на медиане» и «выше медианы», что соответствует трехчлену с вероятностями, и. Для непрерывной переменной вероятность того, что несколько значений выборки будут точно равны медиане, равна 0, поэтому можно вычислить плотность в точке непосредственно из трехчленного распределения:
Теперь мы вводим бета-функцию. Для целочисленных аргументов и это можно выразить как. Также помните об этом. Использование этих отношений и установка обоих и равных позволяет последнему выражению записываться как
Следовательно, функция плотности медианы является симметричным бета - распределение выдвигается вперед с помощью. Его среднее значение, как и следовало ожидать, составляет 0,5, а его дисперсия -. По цепному правилу соответствующая дисперсия медианы выборки равна
Дополнительные 2 незначительны в пределе.
На практике функции и часто неизвестны или не предполагаются. Однако их можно оценить по наблюдаемому частотному распределению. В этом разделе мы приводим пример. Рассмотрим следующую таблицу, представляющую выборку из 3800 (дискретных) наблюдений:
v | 0 | 0,5 | 1 | 1.5 | 2 | 2,5 | 3 | 3.5 | 4 | 4.5 | 5 |
---|---|---|---|---|---|---|---|---|---|---|---|
f (v) | 0,000 | 0,008 | 0,010 | 0,013 | 0,083 | 0,108 | 0,328 | 0,220 | 0,202 | 0,023 | 0,005 |
F (v) | 0,000 | 0,008 | 0,018 | 0,031 | 0,114 | 0,222 | 0,550 | 0,770 | 0,972 | 0,995 | 1.000 |
Поскольку наблюдения имеют дискретные значения, построение точного распределения медианы не является непосредственным переводом приведенного выше выражения для ; можно (и обычно имеет) несколько экземпляров медианы в одной выборке. Итак, мы должны суммировать все эти возможности:
Здесь i - количество точек, строго меньшее медианы, а k - количество точек, строго большее.
Используя эти предварительные сведения, можно исследовать влияние размера выборки на стандартные ошибки среднего и медианы. Наблюдаемое среднее значение составляет 3,16, наблюдаемая необработанная медиана - 3, а наблюдаемая интерполированная медиана - 3,174. Следующая таблица дает некоторую статистику сравнения.
Размер образца Статистика | 3 | 9 | 15 | 21 год |
---|---|---|---|---|
Ожидаемое значение медианы | 3,198 | 3,191 | 3,174 | 3,161 |
Стандартная ошибка медианы (формула выше) | 0,482 | 0,305 | 0,257 | 0,239 |
Стандартная ошибка медианы (асимптотическое приближение) | 0,879 | 0,508 | 0,393 | 0,332 |
Стандартная ошибка среднего | 0,421 | 0,243 | 0,188 | 0,159 |
Ожидаемое значение медианы немного уменьшается по мере увеличения размера выборки, в то время как, как и следовало ожидать, стандартные ошибки медианы и среднего пропорциональны обратному квадратному корню из размера выборки. Асимптотическое приближение проявляет осторожность из-за переоценки стандартной ошибки.
Значение - асимптотическое значение, где - медиана совокупности - изучалось несколькими авторами. Стандартный метод складного ножа «удалить один» дает противоречивые результаты. Было показано, что альтернатива - метод «удаления k», где растет с размером выборки, является асимптотически согласованной. Этот метод может быть дорогостоящим с точки зрения вычислений для больших наборов данных. Оценка начальной загрузки, как известно, быть последовательными, но сходится очень медленно ( порядок из). Были предложены другие методы, но их поведение может отличаться для больших и малых выборок.
Эффективность образца медианы, измеренная как отношение дисперсии к средней дисперсии медианы, зависит от размера образца и от основного распределения населения. Для выборки размера из нормального распределения эффективность для больших N равна
Эффективность стремится к, как стремится к бесконечности.
Другими словами, относительная дисперсия медианы будет, или 57% больше, чем дисперсия средняя - относительная стандартная ошибка медианы будет, или на 25% больше, чем стандартная ошибка средней, (смотри также раздел # Распределение выборки выше.).
Для одномерных распределений, симметричных относительно одной медианы, оценка Ходжеса – Лемана является надежной и высокоэффективной оценкой медианы совокупности.
Если данные представлены статистической моделью, определяющей конкретное семейство распределений вероятностей, то оценки медианы могут быть получены путем подгонки этого семейства распределений вероятностей к данным и вычисления теоретической медианы подобранного распределения. Интерполяция Парето - это применение этого, когда предполагается, что совокупность имеет распределение Парето.
Ранее в этой статье обсуждалась одномерная медиана, когда в выборке или генеральной совокупности было одномерное измерение. Когда размерность равна двум или выше, существует несколько концепций, расширяющих определение одномерной медианы; каждая такая многомерная медиана согласуется с одномерной медианной, если размерность ровно одна.
Маргинальная медиана определяется для векторов, определенных относительно фиксированного набора координат. Маргинальная медиана определяется как вектор, компоненты которого являются одномерными медианами. Маргинальную медиану легко вычислить, и ее свойства были изучены Пури и Сеном.
Геометрические медианная дискретного множество точек выборки в евклидове пространства является точкой минимизации суммы расстояний до точек выборки.
В отличие от маргинальной медианы, геометрическая медиана эквивариантна по отношению к преобразованиям евклидова подобия, таким как смещения и вращения.
Если крайние медианы для всех систем координат совпадают, то их общее положение можно назвать «медианным во всех направлениях». Эта концепция актуальна для теории голосования из-за теоремы о среднем избирателе. Когда он существует, медиана во всех направлениях совпадает с геометрической медианой (по крайней мере, для дискретных распределений).
Альтернативное обобщение медианы в более высоких измерениях - это центральная точка.
При работе с дискретной переменной иногда полезно рассматривать наблюдаемые значения как средние точки лежащих в основе непрерывных интервалов. Примером этого является шкала Лайкерта, по которой мнения или предпочтения выражаются по шкале с заданным количеством возможных ответов. Если шкала состоит из положительных целых чисел, наблюдение 3 можно рассматривать как интервал от 2,50 до 3,50. Можно оценить медианное значение базовой переменной. Если, скажем, 22% наблюдений имеют значение 2 или ниже, а 55,0% имеют значение 3 или ниже (поэтому 33% имеют значение 3), то медиана равна 3, поскольку медиана - это наименьшее значение, для которого больше чем половина. Но интерполированная медиана находится где-то между 2,50 и 3,50. Сначала мы добавляем половину ширины интервала к медиане, чтобы получить верхнюю границу медианного интервала. Затем мы вычитаем ту долю ширины интервала, которая равна доле 33%, лежащих выше отметки 50%. Другими словами, мы разделяем ширину интервала пропорционально количеству наблюдений. В этом случае 33% делятся на 28% ниже медианы и 5% выше нее, поэтому мы вычитаем 5/33 ширины интервала из верхней границы 3,50, чтобы получить интерполированное медианное значение 3,35. Более формально, если значения известны, интерполированная медиана может быть вычислена из
В качестве альтернативы, если в наблюдаемой выборке есть баллы выше средней категории, баллы в ней и баллы ниже нее, то интерполированная медиана определяется как
Для одномерных распределений, симметричных относительно одной медианы, оценка Ходжеса – Лемана является надежной и высокоэффективной оценкой медианы совокупности; для несимметричных распределений оценка Ходжеса – Лемана является надежной и высокоэффективной оценкой псевдомедианы совокупности, которая является медианой симметризованного распределения и близка к медиане совокупности. Оценка Ходжеса – Лемана была обобщена на многомерные распределения.
Оценка Тейла – Сена - это метод устойчивой линейной регрессии, основанный на нахождении медиан наклонов.
В контексте обработки изображений в черно - белых растровых изображениях существует тип шума, известный как соль и перец шум, когда каждый пиксель независимо друг от друга, становится черным (с некоторой малой вероятностью) или белым (с некоторой малой вероятностью), и не изменяется в противном случае (с вероятностью, близкой к 1). Изображение, построенное из средних значений окрестностей (например, квадрат 3 × 3), может в этом случае эффективно уменьшить шум.
В кластерном анализе, что к-медианы кластеризации алгоритма обеспечивает способ определения кластеров, в которых критерий максимального расстояния между кластерными-средствами, который используется в K-средних кластеризации, заменяется максимизация расстояния между кластерной-медианами.
Это метод надежной регрессии. Идея восходит к Вальду в 1940 году, который предложил разделить набор двумерных данных на две половины в зависимости от значения независимого параметра: левая половина со значениями меньше медианы и правая половина со значениями больше медианы. Он предложил использовать средние значения зависимых и независимых переменных левой и правой половин и оценить наклон линии, соединяющей эти две точки. Затем линию можно было бы скорректировать, чтобы она соответствовала большинству точек в наборе данных.
Наир и Шривастава в 1942 году предложили аналогичную идею, но вместо этого выступили за разделение выборки на три равные части перед вычислением средних значений подвыборок. Браун и Муд в 1951 г. предложили идею использования медиан двух подвыборок, а не средних. Тьюки объединил эти идеи и рекомендовал разделить выборку на три подвыборки равного размера и оценить линию на основе медиан подвыборок.
Любая оценка без смещения среднего минимизирует риск ( ожидаемые потери ) по отношению к функции потерь квадратичной ошибки, как наблюдал Гаусс. Медианный -unbiased оценка сводит к минимуму риска по отношению к абсолютному отклонению функции потерь, а наблюдаемая Лаплас. Другие функции потерь используются в статистической теории, особенно в надежной статистике.
Теория средне-несмещенных оценок была возрождена Джорджем Брауном в 1947 году:
Оценка одномерного параметра θ будет называться несмещенной по медиане, если для фиксированного θ медиана распределения оценки находится на значении θ; т.е. оценка занижается так же часто, как и завышается. Это требование, по-видимому, для большинства целей выполняет столько же, сколько и требование несмещенного среднего, и имеет дополнительное свойство, заключающееся в том, что оно инвариантно относительно однозначного преобразования.
- стр. 584Сообщалось о других свойствах средне-несмещенных оценок. Несмещенные медианные оценки инвариантны относительно однозначных преобразований.
Существуют методы построения оптимальных оценок без смещения по медиане (в некотором смысле аналогичные свойству минимальной дисперсии для оценок без смещения по среднему). Такие конструкции существуют для распределений вероятностей, имеющих монотонные функции правдоподобия. Одна из таких процедур является аналогом процедуры Рао – Блэквелла для оценок без смещения в среднем: процедура выполняется для меньшего класса вероятностных распределений, чем процедура Рао – Блэквелла, но для большего класса функций потерь.
Научные исследователи на древнем Ближнем Востоке, похоже, не использовали сводную статистику в целом, вместо этого выбирая значения, которые предлагали максимальную согласованность с более широкой теорией, объединяющей широкий спектр явлений. В рамках средиземноморского (а позднее и европейского) научного сообщества статистика, такая как среднее значение, по сути, является развитием средневековья и раннего Нового времени. (История медианы за пределами Европы и ее предшественников остается относительно неизученной.)
Идея медианы появилась в Талмуде в 13 веке, чтобы объективно проанализировать расходящиеся оценки. Однако эта концепция не распространилась на более широкое научное сообщество.
Вместо этого ближайшим предком современной медианы является средний диапазон, изобретенный Аль-Бируни. Передача работ Аль-Бируни более поздним ученым неясна. Аль-Бируни применил свою технику к анализу металлов, но после того, как он опубликовал свою работу, большинство аналитиков по-прежнему принимали самые неблагоприятные значения своих результатов, чтобы не показалось, что они обманывают. Однако усиление судоходства на море в эпоху открытий означало, что судоводителям все чаще приходилось пытаться определять широту в неблагоприятных погодных условиях относительно враждебных берегов, что привело к возобновлению интереса к сводной статистике. Независимо от того, открыт ли он заново или изобретен независимо, он рекомендован морским мореплавателям в «Инструкциях к путешествию Рэли в Гвиану, 1595 г.» Харриота.
Идея медианы, возможно, впервые появилась в книге Эдварда Райта 1599 г. « Определенные ошибки в навигации» в разделе о навигации по компасу. Райт не хотел отказываться от измеренных значений и, возможно, считал, что медиана, включающая большую часть набора данных, чем средний диапазон, с большей вероятностью будет правильной. Однако Райт не привел примеров использования своей техники, что затрудняет проверку того, что он описал современное понятие медианы. Медиана (в контексте вероятности), безусловно, фигурирует в переписке Христиана Гюйгенса, но как пример статистики, неприемлемой для актуарной практики.
Самая ранняя рекомендация медианы датируется 1757 годом, когда Роджер Джозеф Боскович разработал метод регрессии, основанный на норме L 1 и, следовательно, неявно на медиане. В 1774 году Лаплас ясно выразил это желание: он предложил использовать медиану в качестве стандартной оценки значения апостериорной PDF. Конкретный критерий состоял в том, чтобы минимизировать ожидаемую величину ошибки; где - оценка, а - истинное значение. С этой целью Лаплас определил распределения как выборочного среднего, так и выборочного медианного в начале 1800-х годов. Однако десять лет спустя Гаусс и Лежандр разработали метод наименьших квадратов, который сводит к минимуму для получения среднего. В контексте регрессии инновация Гаусса и Лежандра предлагает значительно более простые вычисления. Следовательно, предложение Лапласа обычно отклонялось до появления вычислительных устройств 150 лет спустя (и до сих пор остается относительно необычным алгоритмом).
Антуан Огюстен Курно в 1843 году первым использовал термин медиана ( valeur médiane) для значения, которое делит распределение вероятностей на две равные половины. Густав Теодор Фехнер использовал медианное значение ( Centralwerth) в социологических и психологических явлениях. Ранее он использовался только в астрономии и смежных областях. Густав Фехнер популяризировал медиану в формальном анализе данных, хотя ранее она использовалась Лапласом, а медиана появилась в учебнике Ф. Я. Эджворта. Фрэнсис Гальтон использовал английский термин « медиана» в 1881 году, ранее он использовал термины « среднее наибольшее значение» в 1869 году и « среднее значение» в 1880 году.
Статистики активно поощряли использование медиан на протяжении всего XIX века из-за их интуитивной ясности и простоты вычисления вручную. Однако понятие медианы не поддается теории высших моментов, как среднее арифметическое, и его гораздо труднее вычислить на компьютере. В результате в 20-м веке медиана постепенно вытеснялась как понятие общего среднего средним арифметическим.
Эта статья включает в себя материалы из Median дистрибутива PlanetMath, который находится под лицензией Creative Commons Attribution / Share-Alike License.