М-оценка

редактировать

В статистике, M-оценки являются широкий класс из экстремумов оценок, для которых целевая функция представляет собой средний образец. И нелинейный метод наименьших квадратов, и оценка максимального правдоподобия являются частными случаями M-оценок. Определение M-оценок было мотивировано надежной статистикой, которая внесла новые типы M-оценок. Статистическая процедура оценки M-оценки для набора данных называется M-оценкой. В недавнем обзорном исследовании можно найти 48 образцов надежных M-оценок.

В более общем смысле M-оценка может быть определена как ноль функции оценки. Эта оценочная функция часто является производной другой статистической функции. Например, оценка максимального правдоподобия - это точка, в которой производная функции правдоподобия по параметру равна нулю; Таким образом, устройство оценки максимального правдоподобия является критической точкой в бальной функции. Во многих приложениях такие M-оценки можно рассматривать как оценивающие характеристики популяции.

Содержание

1 Историческая мотивация
2 Определение
3 Типы
- 3.1 ρ-тип
- 3.2 ψ-тип
4 Расчет
- 4.1 Параметры концентрирования
5 Недвижимость
- 5.1 Распространение
- 5.2 Функция влияния
6 приложений
7 Примеры
- 7.1 Среднее
- 7.2 Медиана
8 См. Также
9 ссылки
10 Дальнейшее чтение
11 Внешние ссылки

Историческая мотивация

Метод наименьших квадратов является прототипом M-оценки, поскольку оценка определяется как минимум суммы квадратов остатков.

Еще одна популярная M-оценка - это оценка максимального правдоподобия. Для семейства функций плотности вероятности f, параметризованных θ, оценка максимального правдоподобия θ вычисляется для каждого набора данных посредством максимизации функции правдоподобия по пространству параметров { θ }. Когда наблюдения независимы и одинаково распределены, ML-оценка удовлетворяет ${\ displaystyle {\ hat {\ theta}}}$ $\ hat {\ theta}$

{\ displaystyle {\ widehat {\ theta}} = \ arg \ max _ {\ displaystyle \ theta} {\ left (\ prod _ {i = 1} ^ {n} f (x_ {i}, \ theta) \ верно)}\,\!}

\ widehat {\ theta} = \ arg \ max _ {\ displaystyle \ theta}} {\ left (\ prod _ {{i = 1}} ^ {n} f (x_ {i}, \ theta) \ right)} \, \!

или, что то же самое,

{\ displaystyle {\ widehat {\ theta}} = \ arg \ min _ {\ displaystyle \ theta} {\ left (\ sum _ {i = 1} ^ {n} - \ log {(f (x_ {i}), \ theta))} \ right)}. \, \!}

{\ displaystyle {\ widehat {\ theta}} = \ arg \ min _ {\ displaystyle \ theta} {\ left (\ sum _ {i = 1} ^ {n} - \ log {(f (x_ {i}), \ theta))} \ right)}. \, \!}

Оценки максимального правдоподобия обладают оптимальными свойствами в пределе бесконечного количества наблюдений при довольно общих условиях, но могут быть смещенными и не самыми эффективными оценками для конечных выборок.

Определение

В 1964 году Питер Дж. Хубер предложил обобщить оценку максимального правдоподобия до минимизации

{\ Displaystyle \ сумма _ {я = 1} ^ {п} \ ро (х_ {я}, \ тета), \, \!}

\ sum _ {{i = 1}} ^ {n} \ rho (x_ {i}, \ theta), \, \!

где ρ - функция с определенными свойствами (см. ниже). Решения

{\ displaystyle {\ hat {\ theta}} = \ arg \ min _ {\ displaystyle \ theta} \ left (\ sum _ {i = 1} ^ {n} \ rho (x_ {i}, \ theta) \ верно)\,\!}

{\ hat {\ theta}} = \ arg \ min _ {\ displaystyle \ theta}} \ left (\ sum _ {{i = 1}} ^ {n} \ rho (x_ {i}, \ theta) \верно)\,\!

называются M-оценками («M» означает «тип максимального правдоподобия» (Huber, 1981, стр. 43)); другие типы робастных оценок включают L-оценки, R-оценки и S-оценки. Таким образом, оценки максимального правдоподобия (MLE) являются частным случаем M-оценок. При соответствующем изменении масштаба M-оценки являются частными случаями экстремальных оценок (в которых могут использоваться более общие функции наблюдений).

Функцию ρ или ее производную ψ можно выбрать таким образом, чтобы обеспечить желаемые свойства оценщика (с точки зрения смещения и эффективности), когда данные действительно взяты из предполагаемого распределения, и `` неплохое '' поведение, когда данные генерируются из модели, которая в некотором смысле близка к предполагаемому распределению.

Типы

M-оценки - это решения θ, которые минимизируют

{\ displaystyle \ sum _ {я = 1} ^ {n} \ rho (x_ {i}, \ theta). \, \!}

\ sum _ {{i = 1}} ^ {n} \ rho (x_ {i}, \ theta). \, \!

Эту минимизацию всегда можно выполнить напрямую. Часто проще продифференцировать по θ и найти корень производной. Когда такое дифференцирование возможно, M-оценка называется ψ-типом. В противном случае M-оценка называется ρ-типом.

В большинстве практических случаев M-оценки относятся к ψ-типу.

ρ-тип

Для положительного целого r, пусть и быть мерными пространствами. - вектор параметров. M-оценка ρ-типа определяется через измеримую функцию. Он отображает распределение вероятностей на значение (если оно существует), которое минимизирует: ${\ Displaystyle ({\ mathcal {X}}, \ Sigma)}$ $(\ mathcal {X}, \ Sigma)$ ${\ Displaystyle (\ Theta \ subset \ mathbb {R} ^ {r}, S)}$ $(\ Theta \ subset {\ mathbb {R}} ^ {r}, S)$ ${\ displaystyle \ theta \ in \ Theta}$ $\ тета \ в \ тета$ ${\ displaystyle T}$ $Т$ ${\ displaystyle \ rho: {\ mathcal {X}} \ times \ Theta \ rightarrow \ mathbb {R}}$ $\ rho: {\ mathcal {X}} \ times \ Theta \ rightarrow {\ mathbb {R}}$ ${\ displaystyle F}$ $F$ ${\ displaystyle {\ mathcal {X}}}$ ${\ mathcal {X}}$ ${\ Displaystyle Т (F) \ in \ Theta}$ $Т (F) \ in \ Theta$ ${\ Displaystyle \ int _ {\ mathcal {X}} \ rho (x, \ theta) dF (x)}$ $\ int _ {{{\ mathcal {X}}}} \ rho (x, \ theta) dF (x)$

{\ Displaystyle T (F): = \ arg \ min _ {\ theta \ in \ Theta} \ int _ {\ mathcal {X}} \ rho (x, \ theta) dF (x)}

T (F): = \ arg \ min _ {{\ theta \ in \ Theta}} \ int _ {{{\ mathcal {X}}}} \ rho (x, \ theta) dF (x)

Например, для оценки максимального правдоподобия, где. ${\ Displaystyle \ rho (х, \ тета) = - \ журнал (е (х, \ тета))}$ $\ rho (х, \ theta) = - \ log (е (х, \ theta))$ ${\ Displaystyle е (х, \ тета) = {\ гидроразрыва {\ partial F (x, \ theta)} {\ partial x}}}$ $f (x, \ theta) = {\ frac {\ partial F (x, \ theta)} {\ partial x}}$

ψ-тип

Если дифференцируема по, вычисление обычно намного проще. M-оценка ψ-типа T определяется через измеримую функцию. Он отображает распределение вероятностей F на значение (если оно существует), которое решает векторное уравнение: ${\ displaystyle \ rho}$ $\ rho$ ${\ displaystyle \ theta}$ $\ theta$ ${\ displaystyle {\ widehat {\ theta}}}$ ${\ widehat {\ theta}}$ ${\ displaystyle \ psi: {\ mathcal {X}} \ times \ Theta \ rightarrow \ mathbb {R} ^ {r}}$ $\ psi: {\ mathcal {X}} \ times \ Theta \ rightarrow {\ mathbb {R}} ^ {r}$ ${\ displaystyle {\ mathcal {X}}}$ ${\ mathcal {X}}$ ${\ Displaystyle Т (F) \ in \ Theta}$ $Т (F) \ in \ Theta$

{\ displaystyle \ int _ {\ mathcal {X}} \ psi (x, \ theta) \, dF (x) = 0}

\ int _ {{{\ mathcal {X}}}} \ psi (x, \ theta) \, dF (x) = 0

{\ Displaystyle \ int _ {\ mathcal {X}} \ psi (x, T (F)) \, dF (x) = 0}

\ int _ {{{\ mathcal {X}}}} \ psi (x, T (F)) \, dF (x) = 0

Например, для оценки максимального правдоподобия, где обозначает транспонирование вектора u и. ${\ displaystyle \ psi (x, \ theta) = \ left ({\ frac {\ partial \ log (f (x, \ theta))} {\ partial \ theta ^ {1}}}, \ точки, {\ frac {\ partial \ log (f (x, \ theta))} {\ partial \ theta ^ {p}}} \ right) ^ {\ mathrm {T}}}$ $\ psi (x, \ theta) = \ left ({\ frac {\ partial \ log (f (x, \ theta))} {\ partial \ theta ^ {1}}}, \ dots, {\ frac {\ частичное \ log (f (x, \ theta))} {\ partial \ theta ^ {p}}} \ right) ^ {{\ mathrm {T}}}$ ${\ Displaystyle и ^ {\ mathrm {T}}}$ $и ^ {{\ mathrm {T}}}$ ${\ Displaystyle е (х, \ тета) = {\ гидроразрыва {\ partial F (x, \ theta)} {\ partial x}}}$ $f (x, \ theta) = {\ frac {\ partial F (x, \ theta)} {\ partial x}}$

Такая оценка не обязательно является M-оценкой ρ-типа, но если ρ имеет непрерывную первую производную по, то необходимое условие для того, чтобы M-оценка ψ-типа была M-оценкой ρ-типа есть. Предыдущие определения легко распространяются на конечные выборки. ${\ displaystyle \ theta}$ $\ theta$ ${\ Displaystyle \ пси (х, \ тета) = \ набла _ {\ тета} \ ро (х, \ тета)}$ $\ psi (x, \ theta) = \ nabla _ {\ theta} \ rho (x, \ theta)$

Если функция ψ уменьшается до нуля as, оценка называется повторным убыванием. Такие оценщики обладают некоторыми дополнительными желательными свойствами, такими как полное отклонение грубых выбросов. ${\ Displaystyle х \ rightarrow \ pm \ infty}$ $x \ rightarrow \ pm \ infty$

Вычисление

Для многих вариантов ρ или ψ не существует решения в закрытой форме, и требуется итерационный подход к вычислениям. Можно использовать стандартные алгоритмы оптимизации функций, такие как Ньютон – Рафсон. Однако в большинстве случаев может быть выполнен алгоритм аппроксимации методом наименьших квадратов с повторным взвешиванием ; обычно это предпочтительный метод.

Для некоторых вариантов выбора ψ, в частности, восстанавливающих функций, решение может быть не единственным. Этот вопрос особенно актуален для многомерных и регрессионных задач. Таким образом, необходимо соблюдать осторожность, чтобы выбрать хорошие отправные точки. Обычны надежные отправные точки, такие как медиана как оценка местоположения и медианное абсолютное отклонение как одномерная оценка масштаба.

Параметры концентрирования

При вычислении M-оценок иногда полезно переписать целевую функцию, чтобы уменьшить размерность параметров. Процедура называется «концентрированием» или «профилированием». Примеры, в которых концентрация параметров увеличивает скорость вычислений, включают модели кажущейся несвязанной регрессии (SUR). Рассмотрим следующую задачу M-оценки:

{\ displaystyle ({\ hat {\ beta}} _ {n}, {\ hat {\ gamma}} _ {n}): = \ arg \ max _ {\ beta, \ gamma} \ textstyle \ sum _ { я = 1} ^ {N} \ Displaystyle д (ш_ {я}, \ бета, \ гамма)}

{\ displaystyle ({\ hat {\ beta}} _ {n}, {\ hat {\ gamma}} _ {n}): = \ arg \ max _ {\ beta, \ gamma} \ textstyle \ sum _ { я = 1} ^ {N} \ Displaystyle д (ш_ {я}, \ бета, \ гамма)}

Предполагая дифференцируемость функции q, M-оценка решает условия первого порядка:

{\ displaystyle \ sum _ {я = 1} ^ {N} \ triangledown _ {\ beta} \, q (w_ {i}, \ beta, \ gamma) = 0}

{\ displaystyle \ sum _ {я = 1} ^ {N} \ triangledown _ {\ beta} \, q (w_ {i}, \ beta, \ gamma) = 0}

{\ Displaystyle \ сумма _ {я = 1} ^ {N} \ triangledown _ {\ gamma} \, q (w_ {i}, \ beta, \ gamma) = 0}

{\ Displaystyle \ сумма _ {я = 1} ^ {N} \ triangledown _ {\ gamma} \, q (w_ {i}, \ beta, \ gamma) = 0}

Теперь, если мы можем решить второе уравнение для γ через и, второе уравнение станет: ${\ displaystyle W: = (w_ {1}, w_ {2},.., w_ {N})}$ ${\ displaystyle W: = (w_ {1}, w_ {2},.., w_ {N})}$ ${\ displaystyle \ beta}$ $\бета$

{\ displaystyle \ sum _ {я = 1} ^ {N} \ triangledown _ {\ gamma} \, q (w_ {i}, \ beta, g (W, \ beta)) = 0}

{\ displaystyle \ sum _ {я = 1} ^ {N} \ triangledown _ {\ gamma} \, q (w_ {i}, \ beta, g (W, \ beta)) = 0}

где g есть функция, которую нужно найти. Теперь мы можем переписать исходную целевую функцию только в терминах β, вставив функцию g вместо. В результате происходит уменьшение количества параметров. ${\ displaystyle \ gamma}$ $\гамма$

Можно ли выполнить эту процедуру, зависит от конкретной проблемы. Однако, когда это возможно, концентрация параметров может в значительной степени облегчить вычисления. Например, при оценке модели SUR из 6 уравнений с 5 объясняющими переменными в каждом уравнении методом максимального правдоподобия количество параметров уменьшается с 51 до 30.

Несмотря на привлекательность в вычислениях, концентрация параметров имеет ограниченное использование при выводе асимптотических свойств M-оценки. Наличие W в каждом слагаемом целевой функции затрудняет применение закона больших чисел и центральной предельной теоремы.

Характеристики

Распределение

Можно показать, что M-оценки асимптотически нормально распределены. Таким образом, можно использовать подходы типа Вальда для построения доверительных интервалов и проверки гипотез. Однако, поскольку теория асимптотична, часто имеет смысл проверить распределение, возможно, исследуя перестановочное или бутстраповское распределение.

Функция влияния

Функция влияния М-оценщика -типа пропорциональна его определяющей функции. ${\ displaystyle \ psi}$ $\ psi$ ${\ displaystyle \ psi}$ $\ psi$

Пусть T - M-оценка ψ-типа, а G - распределение вероятностей, для которого определено. Его функция влияния ЕСЛИ равна ${\ Displaystyle T (G)}$ $Т (G)$

{\ displaystyle \ operatorname {IF} (x; T, G) = - {\ frac {\ psi (x, T (G))} {\ int \ left [{\ frac {\ partial \ psi (y, \ theta)} {\ partial \ theta}} \ right] f (y) \ mathrm {d} y}}}

\ operatorname {IF} (x; T, G) = - {\ frac {\ psi (x, T (G))} {\ int \ left [{\ frac {\ partial \ psi (y, \ theta)} {\ partial \ theta}} \ right] f (y) {\ mathrm {d}} y}}

предполагая, что функция плотности существует. Доказательство этого свойства M-оценок можно найти в Huber (1981, раздел 3.2). ${\ displaystyle f (y)}$ $f (y)$

Приложения

M-оценки могут быть построены для параметров местоположения и параметров масштаба в одномерных и многомерных параметрах настройки, а также использоваться в робастной регрессии.

Примеры

Иметь в виду

Пусть ( X 1,..., X п ) быть множество независимых одинаково распределенных случайных величин с распределением F.

Если мы определим

{\ displaystyle \ rho (x, \ theta) = {\ frac {(x- \ theta) ^ {2}} {2}}, \, \!}

\ rho (x, \ theta) = {\ frac {(x- \ theta) ^ {2}} {2}}, \, \!

отметим, что это минимизируется, когда θ является средним значением X s. Таким образом, среднее - это M-оценка ρ-типа с этой функцией ρ.

Поскольку эта функция ρ непрерывно дифференцируема по θ, среднее значение также является M-оценкой ψ-типа для ψ ( x, θ ) = θ - x.

Медиана

Для медианной оценки ( X 1,..., X n ) вместо этого мы можем определить функцию ρ как

{\ Displaystyle \ rho (х, \ тета) = | х- \ тета |}

{\ Displaystyle \ rho (х, \ тета) = | х- \ тета |}

и аналогично, ρ функция сведена к минимуму, когда θ является медианным из Й с.

Хотя эта функция ρ не дифференцируема по θ, M-оценка ψ-типа, которая является субградиентом функции ρ, может быть выражена как

{\ Displaystyle \ пси (х, \ тета) = \ OperatorName {SGN} (х- \ тета)}

{\ Displaystyle \ пси (х, \ тета) = \ OperatorName {SGN} (х- \ тета)}

{\ displaystyle \ psi (x, \ theta) = {\ begin {case} \ {- 1 \}, amp; {\ t_dv {if}} x- \ theta lt;0 \\\ {1 \}, amp; {\ t_dv {if}} x- \ thetagt; 0 \\\ left [-1,1 \ right], amp; {\ t_dv {if}} x- \ theta = 0 \ end {case}}}

{\ displaystyle \ psi (x, \ theta) = {\ begin {case} \ {- 1 \}, amp; {\ t_dv {if}} x- \ theta lt;0 \\\ {1 \}, amp; {\ t_dv {if}} x- \ thetagt; 0 \\\ left [-1,1 \ right], amp; {\ t_dv {if}} x- \ theta = 0 \ end {case}}}

Смотрите также

Рекомендации

дальнейшее чтение

Андерсен, Роберт (2008). Современные методы робастной регрессии. Количественные приложения в социальных науках. 152. Лос-Анджелес, Калифорния: Sage Publications. ISBN 978-1-4129-4072-6.
Годамб, В. П. (1991). Оценочные функции. Оксфордская серия статистических наук. 7. Нью-Йорк: Clarendon Press. ISBN 978-0-19-852228-7.
Хейде, Кристофер С. (1997). Квази-правдоподобие и его применение: общий подход к оценке оптимальных параметров. Серии Спрингера в статистике. Нью-Йорк: Спрингер. DOI : 10.1007 / b98823. ISBN 978-0-387-98225-0.
Хубер, Питер Дж. (2009). Надежная статистика (2-е изд.). Хобокен, Нью-Джерси: ISBN компании John Wiley amp; Sons Inc. 978-0-470-12990-6.
Хоглин, Дэвид С.; Фредерик Мостеллер; Джон У. Тьюки (1983). Понимание надежного и исследовательского анализа данных. Хобокен, Нью-Джерси: ISBN компании John Wiley amp; Sons Inc. 0-471-09777-2.
McLeish, DL; Кристофер Г. Смолл (1989). Теория и приложения функций статистического вывода. Конспект лекций по статистике. 44. Нью-Йорк: Спрингер. ISBN 978-0-387-96720-2.
Мухопадхьяй, Паримал (2004). Введение в оценивающие функции. Харроу, Великобритания: Alpha Science International, Ltd. ISBN 978-1-84265-163-6.
Нажмите, WH; Теукольский С.А.; Феттерлинг, штат Вашингтон; Фланнери, Б.П. (2007), «Раздел 15.7. Надежная оценка», Численные рецепты: Искусство научных вычислений (3-е изд.), Нью-Йорк: Cambridge University Press, ISBN 978-0-521-88068-8
Серфлинг, Роберт Дж. (2002). Аппроксимационные теоремы математической статистики. Ряд Уайли по вероятности и математической статистике. Хобокен, Нью-Джерси: ISBN компании John Wiley amp; Sons Inc. 978-0-471-21927-9.
Шапиро, Александр (2000). «Об асимптотике локальных M -стиматоров со связями ». Анналы статистики. 28 (3): 948–960. CiteSeerX 10.1.1.69.2288. DOI : 10.1214 / AOS / 1015952006. JSTOR 2674061. Руководство по ремонту 1792795.
Смолл, Кристофер Дж.; Цзиньфан Ван (2003). Численные методы решения нелинейных оценочных уравнений. Оксфордская серия статистических наук. 29. Нью-Йорк: Издательство Оксфордского университета. ISBN 978-0-19-850688-1.
ван де Гир, Сара А. (2000). Эмпирические процессы в M-оценке: приложения теории эмпирических процессов. Кембриджская серия по статистической и вероятностной математике. 6. Кембридж, Великобритания: Издательство Кембриджского университета. DOI : 10.2277 / 052165002X. ISBN 978-0-521-65002-1.
Уилкокс, Р.Р. (2003). Применяя современные статистические методы. Сан-Диего, Калифорния: Academic Press. С. 55–79.
Уилкокс, Р.Р. (2012). Введение в робастную оценку и проверку гипотез, 3-е изд. Сан-Диего, Калифорния: Academic Press.

внешняя ссылка

М-оценки - введение в тему Чжэнъю Чжан