Оценка максимального интервала

редактировать
Метод максимального интервала пытается найти такую ​​функцию распределения, чтобы интервалы D ( i) были примерно одинаковой длины. Это достигается за счет максимизации их среднего геометрического.

В статистических данных, оценка максимального расстояния ( СКО или ССП), или максимальное произведение интервал оценки (MPS), представляет собой способ оценки параметров одномерной статистической модели. Метод требует максимизации среднего геометрического от расстояний в данных, которые являются различия между значениями интегральной функции распределения на соседних точек данных.

Концепция, лежащая в основе метода, основана на интегральном преобразовании вероятностей, в котором набор независимых случайных выборок, полученных из любой случайной величины, должен в среднем быть равномерно распределен относительно кумулятивной функции распределения случайной величины. Метод MPS выбирает значения параметров, которые делают наблюдаемые данные как можно более однородными, в соответствии с конкретной количественной мерой однородности.

Один из наиболее распространенных методов оценки параметров распределения на основе данных, метод максимального правдоподобия (MLE), может давать сбой в различных случаях, например при использовании определенных смесей непрерывных распределений. В этих случаях может оказаться успешным метод оценки максимального интервала.

Помимо использования в чистой математике и статистике, сообщалось о пробных применениях метода с использованием данных из таких областей, как гидрология, эконометрика, магнитно-резонансная томография и другие.

СОДЕРЖАНИЕ

  • 1 История и использование
  • 2 Определение
  • 3 Примеры
    • 3.1 Пример 1
    • 3.2 Пример 2
  • 4 свойства
    • 4.1 Последовательность и эффективность
    • 4.2 Чувствительность
  • 5 Тест Морана
  • 6 Обобщенный максимальный интервал
    • 6.1 Альтернативные размеры и интервалы
    • 6.2 Многомерные распределения
  • 7 См. Также
  • 8 Примечания
  • 9 ссылки
    • 9.1 Цитаты
    • 9.2 Цитируемые работы

История и использование

Метод MSE был разработан независимо Расселом Ченгом и Ником Амином из Института науки и технологий Уэльского университета и Бо Раннеби из Шведского университета сельскохозяйственных наук. Авторы объяснили, что из-за интегрального преобразования вероятности при истинном параметре «интервал» между каждым наблюдением должен быть равномерно распределен. Это означало бы, что разница между значениями кумулятивной функции распределения при последовательных наблюдениях должна быть одинаковой. Это тот случай, который максимизирует среднее геометрическое таких интервалов, поэтому решение для параметров, которые максимизируют среднее геометрическое, приведет к достижению «наилучшего» соответствия, как определено таким образом. Раннеби (1984) обосновал этот метод, продемонстрировав, что это оценка дивергенции Кульбака – Лейблера, аналогичная оценке максимального правдоподобия, но с более надежными свойствами для некоторых классов задач.

Существуют определенные распределения, особенно с тремя или более параметрами, чьи вероятности могут стать бесконечными на определенных путях в пространстве параметров. Использование максимальной вероятности для оценки этих параметров часто не работает, когда один параметр стремится к определенному значению, которое приводит к бесконечности вероятности, что делает другие параметры несовместимыми. Однако метод максимальных интервалов, зависящий от разницы между точками кумулятивной функции распределения, а не индивидуальных точек правдоподобия, не имеет этой проблемы и будет возвращать действительные результаты для гораздо более широкого набора распределений.

Распределения, которые имеют тенденцию к проблемам правдоподобия, часто используются для моделирования физических явлений. Холл и др. (2004) стремятся проанализировать методы борьбы с наводнениями, для чего требуются точные модели воздействия наводнений на реки. Распределения, которые лучше моделируют эти эффекты, представляют собой трехпараметрические модели, которые страдают от проблемы бесконечного правдоподобия, описанной выше, что привело к исследованию Холлом процедуры максимального разнесения. Wong amp; Li (2006), сравнивая метод с максимальной вероятностью, использовали различные наборы данных, начиная от набора самых старых возрастов смерти в Швеции между 1905 и 1958 годами до набора, содержащего максимальные годовые скорости ветра.

Определение

Для iid случайной выборки { x 1,..., x n } размера n из одномерного распределения с непрерывной кумулятивной функцией распределения F ( x ; θ 0), где θ 0 ∈ Θ - неизвестный параметр, который необходимо оценить, пусть { x (1),..., x ( n) } - соответствующая упорядоченная выборка, которая является результатом сортировки всех наблюдений от наименьшего к наибольшему. Для удобства обозначим также x (0) = −∞ и x ( n +1) = + ∞.

Определите интервалы как «промежутки» между значениями функции распределения в соседних упорядоченных точках:

D я ( θ ) знак равно F ( Икс ( я ) ; θ ) - F ( Икс ( я - 1 ) ; θ ) , я знак равно 1 , , п + 1. {\ Displaystyle D_ {я} (\ theta) = F (x _ {(i)}; \, \ theta) -F (x _ {(i-1)}; \, \ theta), \ quad я = 1, \ ldots, n + 1.}

Тогда максимальное расстояние между оценщик от amp; thetas ; 0 определяется как значение, которое максимизирует логарифм от среднего геометрического выборочных расстояний:

θ ^ знак равно а р грамм м а Икс θ Θ S п ( θ ) , куда    S п ( θ ) знак равно пер D 1 D 2 D п + 1 п + 1 знак равно 1 п + 1 я знак равно 1 п + 1 пер D я ( θ ) . {\ displaystyle {\ hat {\ theta}} = {\ underset {\ theta \ in \ Theta} {\ operatorname {arg \, max}}} \; S_ {n} (\ theta), \ quad {\ text {где}} \ S_ {n} (\ theta) = \ ln \! \! {\ sqrt [{n + 1}] {D_ {1} D_ {2} \ cdots D_ {n + 1}}} = {\ frac {1} {n + 1}} \ sum _ {i = 1} ^ {n + 1} \ ln {D_ {i}} (\ theta).}

В силу неравенства среднего арифметического и геометрического, функция S n ( θ) ограничена сверху величиной −ln ( n +1), поэтому максимум должен существовать, по крайней мере, в смысле супремума.

Отметим, что некоторые авторы определяют функцию S n ( θ) несколько иначе. В частности, Раннеби (1984) умножает каждое D i на множитель ( n +1), тогда как Cheng amp; Stephens (1989) опускает множитель 1 ⁄ n +1 перед суммой и добавляет знак «-» в порядке превратить максимизацию в минимизацию. Поскольку это константы по отношению к θ, модификации не изменяют положение максимума функции S n.

Примеры

В этом разделе представлены два примера расчета оценки максимального интервала.

Пример 1

Блок, содержащий график двух смещенных вогнутых функций с разными пиками, вертикальные линии, делающие пополам пики, и помеченные стрелки, указывающие на то, где вертикальные линии пересекают нижнюю часть блока. Графики логарифмического значения λ для упрощенного примера при оценке правдоподобия и интервала. Идентифицируются значения, для которых максимизируются и вероятность, и интервал, оценки максимального правдоподобия и максимального интервала.

Предположим, что два значения x (1) = 2, x (2) = 4 были взяты из экспоненциального распределения F ( x ; λ) = 1 - e - xλ, x ≥ 0 с неизвестным параметром λ gt; 0. Для построения MSE мы должны сначала найти интервалы:

я F ( х ( я)) F ( х ( я - 1)) D я = F ( х ( я)) - F ( х ( я - 1))
1 1 - e −2 λ 0 1 - e −2 λ
2 1 - е −4 λ 1 - e −2 λ e −2 λ - e −4 λ
3 1 1 - е −4 λ е −4 λ

Процесс продолжается путем нахождения λ, которое максимизирует среднее геометрическое значение столбца «разность». Используя соглашение, игнорирующее получение корня ( n +1) -го, это превращается в максимизацию следующего произведения: (1 - e −2 λ) (e −2 λ - e −4 λ) (e −4 λ). Полагая μ = e −2 λ, задача сводится к нахождению максимума μ 5 −2 μ 4 + μ 3. Дифференцируя, μ должно удовлетворять 5 μ 4 −8 μ 3 +3 μ 2 = 0. Это уравнение имеет корни 0, 0,6 и 1. Поскольку μ на самом деле является e −2 λ, оно должно быть больше нуля, но меньше чем один. Поэтому единственное приемлемое решение -

μ знак равно 0,6 λ MSE знак равно пер 0,6 - 2 0,255 , {\ displaystyle \ mu = 0,6 \ quad \ Rightarrow \ quad \ lambda _ {\ text {MSE}} = {\ frac {\ ln 0,6} {- 2}} \ приблизительно 0,255,}

что соответствует экспоненциальному распределению со средним значением 1 / λ ≈ 3,915. Для сравнения: оценка максимального правдоподобия λ является обратной величиной выборочного среднего, 3, поэтому λ MLE = ⅓ ≈ 0,333.

Пример 2

Предположим, что { x (1),..., x ( n) } - это упорядоченная выборка из равномерного распределения U ( a, b) с неизвестными конечными точками a и b. Кумулятивная функция распределения равна F ( x ; a, b) = ( x - a) / ( b - a), когда x ∈ [ a, b ]. Следовательно, индивидуальные интервалы задаются выражением

D 1 знак равно Икс ( 1 ) - а б - а ,     D я знак равно Икс ( я ) - Икс ( я - 1 ) б - а   для  я знак равно 2 , , п ,     D п + 1 знак равно б - Икс ( п ) б - а     {\ displaystyle D_ {1} = {\ frac {x _ {(1)} - a} {ba}}, \ \ D_ {i} = {\ frac {x _ {(i)} - x _ {(i-1))}} {ba}} \ {\ text {for}} i = 2, \ ldots, n, \ \ D_ {n + 1} = {\ frac {b-x _ {(n)}} {ba}} \ \}

Вычисляя среднее геометрическое и затем логарифмируя, статистика S n будет равна

S п ( а , б ) знак равно 1 п + 1 пер ( Икс ( 1 ) - а ) + я знак равно 2 п пер ( Икс ( я ) - Икс ( я - 1 ) ) + 1 п + 1 пер ( б - Икс ( п ) ) - пер ( б - а ) {\ displaystyle S_ {n} (a, b) = {\ tfrac {1} {n + 1}} \ ln (x _ {(1)} - a) + \ sum _ {i = 2} ^ {n} \ ln (x _ {(i)} - x _ {(i-1)}) + {\ tfrac {1} {n + 1}} \ ln (b-x _ {(n)}) - \ ln (ba) }

Здесь только три члена зависят от параметров a и b. Дифференцируя по этим параметрам и решая полученную линейную систему, максимальные оценки интервалов будут

а ^ знак равно п Икс ( 1 ) - Икс ( п ) п - 1 ,     б ^ знак равно п Икс ( п ) - Икс ( 1 ) п - 1 . {\ displaystyle {\ hat {a}} = {\ frac {nx _ {(1)} - x _ {(n)}} {n-1}}, \ \ {\ hat {b}} = {\ frac { nx _ {(n)} - x _ {(1)}} {n-1}}.}

Это, как известно, несмещенные оценки с равномерно минимальной дисперсией (UMVU) для непрерывного равномерного распределения. Для сравнения, оценки максимального правдоподобия для этой проблемы и подпружинены и имеют более высокий средний квадрат ошибки. а ^ знак равно Икс ( 1 ) {\ displaystyle \ scriptstyle {\ hat {a}} = x _ {(1)}} б ^ знак равно Икс ( п ) {\ displaystyle \ scriptstyle {\ hat {b}} = x _ {(n)}}

Характеристики

Последовательность и эффективность

Блок, содержащий график прямой линии со смещением и кривой J в обратном направлении, которая поднимается до пересечения с прямой линией. Плотность Поле, содержащее график прямой линии смещения и кривой "J", которая поднимается от прямой линии. Распределение График J-образной функции плотности и соответствующего ей распределения. Сдвинуты Вейбулла с масштабного параметра 15, в параметре формы 0,5, и параметра сдвига 10. Плотность асимптотически стремится к бесконечности при х приближается к 10, что делает оценки непоследовательной других параметров. Обратите внимание, что на графике распределения нет точки перегиба.

Оценщик максимального интервала является последовательным оценщиком в том смысле, что он сходится по вероятности к истинному значению параметра θ 0, когда размер выборки увеличивается до бесконечности. Согласованность оценки максимального интервала сохраняется при гораздо более общих условиях, чем для оценок максимального правдоподобия. В частности, в случаях, когда базовое распределение имеет J-образную форму, максимальная вероятность не удастся там, где MSE успешно. Примером J-образной плотности является распределение Вейбулла, в частности смещенное значение Вейбулла, с параметром формы меньше 1. Плотность будет стремиться к бесконечности, когда x приближается к параметру местоположения, делая оценки других параметров несовместимыми.

Оценщики максимального интервала также, по крайней мере, асимптотически эффективны, как и оценщики максимального правдоподобия, если последние существуют. Однако MSE могут существовать в тех случаях, когда MLE отсутствуют.

Чувствительность

Оценщики максимального разнесения чувствительны к близко разнесенным наблюдениям, и особенно к привязкам. Данный

Икс я + k знак равно Икс я + k - 1 знак равно знак равно Икс я , {\ Displaystyle X_ {я + к} = X_ {я + k-1} = \ cdots = X_ {i}, \,}

мы получаем

D я + k ( θ ) знак равно D я + k - 1 ( θ ) знак равно знак равно D я + 1 ( θ ) знак равно 0. {\ Displaystyle D_ {я + к} (\ тета) = D_ {я + к-1} (\ тета) = \ cdots = D_ {я + 1} (\ тета) = 0. \,}

Когда связи происходят из-за нескольких наблюдений, повторяющиеся интервалы (те, которые в противном случае были бы нулевыми) должны быть заменены соответствующей вероятностью. То есть, следует заменить на, как и ж я ( θ ) {\ Displaystyle е_ {я} (\ тета)} D я ( θ ) {\ Displaystyle D_ {я} (\ тета)}

Lim Икс я Икс я - 1 Икс я - 1 Икс я ж ( т ; θ ) d т Икс я - Икс я - 1 знак равно ж ( Икс я - 1 , θ ) знак равно ж ( Икс я , θ ) , {\ displaystyle \ lim _ {x_ {i} \ to x_ {i-1}} {\ frac {\ int _ {x_ {i-1}} ^ {x_ {i}} f (t; \ theta) \, dt} {x_ {i} -x_ {i-1}}} = f (x_ {i-1}, \ theta) = f (x_ {i}, \ theta),}

с тех пор. Икс я знак равно Икс я - 1 {\ Displaystyle х_ {я} = х_ {я-1}}

Когда связи возникают из-за ошибки округления, Cheng amp; Stephens (1989) предлагают другой метод устранения эффектов. Учитывая r связанных наблюдений от x i до x i + r −1, пусть δ представляет ошибку округления. Тогда все истинные значения должны попадать в диапазон. Соответствующие точки в распределении теперь должны находиться между и. Ченг и Стивенс предлагают предположить, что округленные значения равномерно распределены в этом интервале, определяя Икс ± δ {\ displaystyle x \ pm \ delta} у L знак равно F ( Икс - δ , θ ^ ) {\ displaystyle y_ {L} = F (x- \ delta, {\ hat {\ theta}})} у U знак равно F ( Икс + δ , θ ^ ) {\ displaystyle y_ {U} = F (x + \ delta, {\ hat {\ theta}})}

D j знак равно у U - у L р - 1 ( j знак равно я + 1 , , я + р - 1 ) . {\ displaystyle D_ {j} = {\ frac {y_ {U} -y_ {L}} {r-1}} \ quad (j = i + 1, \ ldots, i + r-1).}

Метод MSE также чувствителен к вторичной кластеризации. Одним из примеров этого явления является случай, когда считается, что набор наблюдений исходит из одного нормального распределения, но на самом деле происходит из смеси нормалей с разными средними значениями. Второй пример - это когда считается, что данные получены из экспоненциального распределения, но на самом деле они получены из гамма-распределения. В последнем случае в нижней части хвоста могут быть меньшие расстояния. Высокое значение M ( θ) указывало бы на этот вторичный эффект кластеризации и предполагало, что требуется более пристальный взгляд на данные.

Тест Морана

Статистика S n ( θ) также является формой статистики Морана или Морана-Дарлинга, M ( θ), которую можно использовать для проверки согласия. Было показано, что статистика, определяемая как

S п ( θ ) знак равно M п ( θ ) знак равно - j знак равно 1 п + 1 пер D j ( θ ) , {\ Displaystyle S_ {n} (\ theta) = M_ {n} (\ theta) = - \ sum _ {j = 1} ^ {n + 1} \ ln {D_ {j} (\ theta)},}

является асимптотически нормальным, и что существует хи-квадрат приближение для малых выборок. В случае, когда мы знаем истинный параметр, Cheng amp; Stephens (1989) показывают, что статистика имеет нормальное распределение с θ 0 {\ displaystyle \ theta ^ {0}} M п ( θ ) {\ Displaystyle \ scriptstyle M_ {п} (\ theta)}

μ M ( п + 1 ) ( пер ( п + 1 ) + γ ) - 1 2 - 1 12 ( п + 1 ) , σ M 2 ( п + 1 ) ( π 2 6 - 1 ) - 1 2 - 1 6 ( п + 1 ) , {\ Displaystyle {\ begin {align} \ mu _ {M} amp; \ приблизительно (n + 1) (\ ln (n + 1) + \ gamma) - {\ frac {1} {2}} - {\ frac {1} {12 (n + 1)}}, \\\ sigma _ {M} ^ {2} amp; \ приблизительно (n + 1) \ left ({\ frac {\ pi ^ {2}} {6} } -1 \ right) - {\ frac {1} {2}} - {\ frac {1} {6 (n + 1)}}, \ end {align}}}

где γ - постоянная Эйлера – Маскерони, приблизительно равная 0,57722.

Распределение также можно аппроксимировать распределением, где А {\ displaystyle A}

А знак равно C 1 + C 2 χ п 2 {\ Displaystyle A = C_ {1} + C_ {2} \ chi _ {n} ^ {2} \,},

в котором

C 1 знак равно μ M - σ M 2 п 2 , C 2 знак равно σ M 2 2 п , {\ displaystyle {\ begin {align} C_ {1} amp; = \ mu _ {M} - {\ sqrt {\ frac {\ sigma _ {M} ^ {2} n} {2}}}, \\ C_ {2} amp; = {\ sqrt {\ frac {\ sigma _ {M} ^ {2}} {2n}}}, \\\ конец {выровнено}}}

и где следует распределение хи-квадрат со степенями свободы. Следовательно, чтобы проверить гипотезу о том, что случайная выборка значений происходит из распределения, можно вычислить статистику. Затем следует отклонить со значимостью, если значение больше критического значения соответствующего распределения хи-квадрат. χ п 2 {\ Displaystyle \ чи _ {п} ^ {2}} п {\ displaystyle n} ЧАС 0 {\ displaystyle H_ {0}} п {\ displaystyle n} F ( Икс , θ ) {\ Displaystyle F (х, \ theta)} Т ( θ ) знак равно M ( θ ) - C 1 C 2 {\ Displaystyle Т (\ тета) = {\ гидроразрыва {М (\ тета) -C_ {1}} {C_ {2}}}} ЧАС 0 {\ displaystyle H_ {0}} α {\ displaystyle \ alpha}

Где θ 0 оценивается, Cheng amp; Stephens (1989) показали, что оно имеет такое же среднее асимптотическое значение и дисперсию, что и в известном случае. Однако используемый тестовый статистический показатель требует добавления поправочного члена смещения и составляет: θ ^ {\ displaystyle {\ hat {\ theta}}} S п ( θ ^ ) знак равно M п ( θ ^ ) {\ displaystyle S_ {n} ({\ hat {\ theta}}) = M_ {n} ({\ hat {\ theta}})}

Т ( θ ^ ) знак равно M ( θ ^ ) + k 2 - C 1 C 2 , {\ displaystyle T ({\ hat {\ theta}}) = {\ frac {M ({\ hat {\ theta}}) + {\ frac {k} {2}} - C_ {1}} {C_ { 2}}},}

где - количество параметров в оценке. k {\ displaystyle k}

Обобщенный максимальный интервал

Альтернативные размеры и интервалы

Раннеби и Экстрём (1997) обобщили метод MSE для аппроксимации других мер, помимо меры Кульбака – Лейблера. Экстрём (1997) дополнительно расширил этот метод, чтобы исследовать свойства оценок с использованием интервалов более высокого порядка, где интервал m- порядка будет определяться как. F ( Икс j + м ) - F ( Икс j ) {\ Displaystyle F (X_ {j + m}) - F (X_ {j})}

Многомерные распределения

Раннеби и др. (2005) обсуждают расширенные методы максимального интервала для многомерного случая. Поскольку нет естественного порядка для, они обсуждают два альтернативных подхода: геометрический подход, основанный на ячейках Дирихле, и вероятностный подход, основанный на метрике «шар ближайшего соседа». р k ( k gt; 1 ) {\ Displaystyle \ mathbb {R} ^ {k} (кgt; 1)}

Смотрите также

Примечания

использованная литература

Цитаты

Процитированные работы

Последняя правка сделана 2024-01-02 02:52:35
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте