Оценка Ходжеса – Лемана

редактировать

В статистике оценка Ходжеса – Лемана - это надежная и непараметрическая оценка совокупности параметр местоположения. Для популяций, симметричных относительно одной медианы, таких как (гауссовское) нормальное распределение или t-распределение Стьюдента, оценка Ходжеса – Лемана представляет собой последовательную и несмещенную по медиане оценку медианы совокупности. Для несимметричных популяций оценка Ходжеса – Лемана оценивает «псевдомедиана », которая тесно связана с медианной популяцией.

Оценка Ходжеса – Лемана была первоначально предложена для оценки параметра местоположения одномерных популяций, но она использовалась для многих других целей. Он был использован для оценки различий между членами двух популяций. Он был обобщен от одномерных популяций к многомерным популяциям, которые производят образцы векторов.

. Он основан на статистике ранговых знаков Уилкоксона. В статистической теории это был ранний пример важного класса оценок как в непараметрической статистике, так и в надежной статистике. Оценка Ходжеса-Лемана была предложена в 1963 году независимо Пранабом Кумаром Сеном и Джозефом Ходжесом и Эрихом Леманном, поэтому его также называют «Оценка Ходжеса – Леманна – Сена ".

Содержание

1 Определение
2 Оценка медианы симметричной совокупности
3 В общей статистике
4 См. Также
5 Примечания
6 Ссылки

Определение

В простейшем случае статистика «Ходжеса – Лемана» оценивает параметр местоположения для одномерной совокупности. Его вычисление можно описать быстро. Для набора данных с n измерениями набор всех возможные одно- или двухэлементные подмножества его имеют n (n + 1) / 2 элементов. Для каждого такого подмножества вычисляется среднее значение; наконец, медиана этих n (n + 1) / 2 средних значений определяется как оценка местоположения Ходжеса – Лемана.

Статистика Ходжеса – Лемана также оценивает разницу между двумя популяциями. Для двух наборов данных с m и n наблюдениями набор двухэлементных наборы из них состоит их декартово произведение, содержащее m × n пар точек (по одной из каждого набора); каждая такая пара определяет одно различие значений. Статистика Ходжеса – Лемана - это медиана разностей m × n.

Оценка медианы симметричной совокупности

Для симметричной совокупности критерий Ходжеса –Статистика Леманна оценивает медианное значение населения. Это надежная статистика с точкой разбивки , равной 0,29, что означает, что статистика остается ограниченной, даже если почти 30 процентов данных были загрязнены. Эта устойчивость является важным преимуществом по сравнению с выборочным средним, которое имеет нулевую точку разбивки, пропорционально любому отдельному наблюдению и поэтому может быть введено в заблуждение даже одним выбросом. Медиана выборки еще более надежна, имея точку разбивки 0,50. Оценка Ходжеса – Лемана намного лучше, чем выборочное среднее, также при оценке смесей нормальных распределений.

Для симметричных распределений статистика Ходжеса – Лемана имеет большую эффективность, чем медиана выборки. Для нормального распределения статистика Ходжеса-Лемана почти так же эффективна, как и выборочное среднее. Для распределения Коши (t-распределение Стьюдента с одной степенью свободы) метод Ходжеса-Лемана бесконечно более эффективен, чем выборочное среднее, которое не является последовательной оценкой медианы.

Для несимметричных популяций, статистика Ходжеса-Лемана оценивает «псевдомедиану» популяции, параметр местоположения, который тесно связан с медианной. Разница между медианой и псевдо-медианной относительно невелика, поэтому в элементарных обсуждениях этим различием пренебрегают. Подобно пространственной медиане , псевдомедиана хорошо определена для всех распределений случайных величин, имеющих размерность два или больше; для одномерных распределений существует некоторая псевдомедиана, которая, однако, не обязательно должна быть уникальной. Как и медиана, псевдо-медиана определяется даже для распределений с тяжелым хвостом, в которых отсутствует какое-либо (конечное) среднее.

Для статистики Ходжеса – Лемана по одной выборке не требуется оценивать какое-либо среднее значение генеральной совокупности, что для многих распределений не дает существовать. Двухвыборочная оценка Ходжеса – Лемана не требует оценки разницы двух средних или разницы двух (псевдо) медиан; скорее, он оценивает различия между совокупностью парных случайных величин, взятых, соответственно, из совокупностей.

Общая статистика

Однофакторная статистика Ходжеса – Лемана имеет несколько обобщений в многомерной статистика :

Многовариантные ранги и знаки
Тесты пространственных знаков и пространственные медианы
Тесты пространственных знаковых рангов
Сравнение тестов и оценок
Несколько- примеры проблем с расположением

См. также

Средне-несмещенная оценка

Примечания

Ссылки

Everitt, BS (2002) Кембриджский статистический словарь, CUP. ISBN 0-521-81099-X
Hettmansperger, T. P.; Маккин, Дж. У. (1998). Робастные непараметрические статистические методы. Библиотека статистики Кендалла. 5 (Первое издание, а не второе издание Тейлора и Фрэнсиса (2010)). Лондон; Нью-Йорк: Эдвард Арнольд; John Wiley and Sons, Inc., стр. Xiv + 467. ISBN 0-340-54937-8. MR 1604954. CS1 maint: ref = harv (ссылка )
Hodges, JL; Lehmann, EL (1963). «Оценка местоположения на основе рангов». Annals of Mathematical Statistics. 34(2): 598–611. doi : 10.1214 / aoms / 1177704172. JSTOR 2238406. MR 0152070. Zbl 0203.21105. PE euclid.aoms / 1177704172. Cite имеет пустой неизвестный параметр: | 1 =() CS1 maint: ref = harv (link )
Lehmann, Erich L. (2006). Непараметрика: статистические методы, основанные на рангах. С особой помощью HJM D'Abrera (Перепечатка 1988 года редакции Holden-Day 1975 года). Нью-Йорк: Springer. Pp. Xvi + 463. ISBN 978-0-387-35212-1. MR 0395032. CS1 maint: ref = harv (ссылка )
Oja, Hannu (2010). Многомерные непараметрические методы с R: подход, основанный на пространственных знаках и рангах. Лекционные заметки по статистике. 199 . New York: Springer. Pp. Xiv + 232. doi : 10.1007 / 978-1-4419-0468 -3. ISBN 978-1-4419-0467-6. MR 2598854. CS1 maint: ref = harv (ссылка )
Сен, Пранаб Кумар (Декабрь 1963 г.). «Об оценке относительной эффективности при разведении (-прямых) анализах методами без распределения». Biometrics. 19 (4): 532–552. doi : 10.2307 / 2527532. JSTOR 2527532. Zbl 0119.15604. CS1 maint: ref = harv (ссылка )