Дельта-метод

редактировать

В статистике дельта-метод представляет собой результат, относящийся к приблизительному распределение для функции асимптотически нормальной статистической оценки на основе знания предельной дисперсии этой оценки.

Содержание
  • 1 История
  • 2 Одномерный дельта-метод
    • 2.1 Доказательство в одномерном случае
      • 2.1.1 Доказательство с явным порядком аппроксимации
  • 3 Многомерный дельта-метод
  • 4 Пример : биномиальная пропорция
  • 5 Альтернативная форма
  • 6 Метод дельты второго порядка
  • 7 См. также
  • 8 Ссылки
  • 9 Дополнительная литература
  • 10 Внешние ссылки
История

Дельта-метод был получен из распространения ошибки, и идея, лежащая в его основе, была известна в начале 19 века. Его статистическое применение можно проследить еще в 1928 году Т. Л. Келли. Формальное описание метода было представлено Дж. Л. Дуб в 1935 году. Роберт Дорфман также описал его версию в 1938 году.

Одномерный дельта-метод

В то время как дельта-метод легко обобщается на многомерный постановке, осторожная мотивация техники легче продемонстрировать в однофакторных терминах. Грубо говоря, если существует последовательность случайных величин X n, удовлетворяющая

n [X n - θ] → DN (0, σ 2), {\ displaystyle {{\ sqrt {n}} [X_ {n} - \ theta] \, {\ xrightarrow {D}} \, {\ mathcal {N}} (0, \ sigma ^ {2})},}{{\ sqrt {n}} [X_ {n} - \ theta] \, {\ xrightarrow {D}} \, {\ mathcal {N}} (0, \ sigma ^ {2})},

где θ и σ - конечнозначные константы, а → D {\ displaystyle {\ xrightarrow {D}}}\ xrightarrow {D} ​​обозначает сходимость в распределении, тогда

n [g (X n) - g (θ)] → DN (0, σ 2 ⋅ [g '(θ)] 2) {\ displaystyle {{\ sqrt {n}} [g (X_ {n}) - g (\ theta)] \, {\ xrightarrow {D}} \, {\ mathcal {N}} (0, \ sigma ^ {2} \ cdot [g '(\ theta)] ^ {2})}}{\displaystyle {{\sqrt {n}}[g(X_{n})-g(\theta)]\,{\xrightarrow {D}}\,{\mathcal {N}}(0,\sigma ^{2}\cdot [g'(\theta)]^{2})}}

для любой функции g удовлетворяет тому свойству, что g ′ (θ) существует и имеет ненулевое значение.

Доказательство в одномерном случае

Демонстрация этого результата довольно проста в предположении, что g '(θ) непрерывно. Для начала мы используем теорему о среднем значении (то есть: приближение первого порядка ряда Тейлора с использованием теоремы Тейлора ):

g (X n) знак равно г (θ) + g ′ (θ ~) (Икс N - θ), {\ displaystyle g (X_ {n}) = g (\ theta) + g '({\ tilde {\ theta}}) ( X_ {n} - \ theta),}g(X_{n})=g(\theta)+g'({\tilde {\theta }})(X_{n}-\theta),

где θ ~ {\ displaystyle {\ tilde {\ theta}}}{\ tilde {\ theta}} лежит между X n и θ. Обратите внимание, что, поскольку X n → P θ {\ displaystyle X_ {n} \, {\ xrightarrow {P}} \, \ theta}X_ {n } \, {\ xrightarrow {P}} \, \ theta и | θ ~ - θ | < | X n − θ | {\displaystyle |{\tilde {\theta }}-\theta |<|X_{n}-\theta |}{\ displaystyle | {\ tilde {\ theta}} - \ theta | <| X_ {n} - \ theta |} , должно быть так, что θ ~ → P θ {\ displaystyle {\ tilde {\ theta}} \, {\ xrightarrow {P}} \, \ theta}{\ tilde {\ theta}} \, {\ xrightarrow {P}} \, \ theta и поскольку g ′ (Θ) непрерывно, применение теоремы о непрерывном отображении дает

g ′ (θ ~) → P g ′ (θ), {\ displaystyle g '({\ tilde {\ theta}}) \, {\ xrightarrow {P}} \, g '(\ theta),}g'({\tilde {\theta }})\,{\xrightarrow {P}}\,g'(\theta),

где → P {\ displaystyle {\ xrightarrow {P}}}{\ xrightarrow {P}} обозначает сходимость по вероятности.

Перестановка членов и умножение на n {\ displaystyle {\ sqrt {n}}}{ \ sqrt {n}} дает

n [g (X n) - g (θ)] = g ′ (θ ~) n [X n - θ]. {\ displaystyle {\ sqrt {n}} [g (X_ {n}) - g (\ theta)] = g '\ left ({\ tilde {\ theta}} \ right) {\ sqrt {n}} [ X_ {n} - \ theta].}{\sqrt {n}}[g(X_{n})-g(\theta)]=g'\left({\tilde {\theta }}\right){\sqrt {n}}[X_{n}-\theta ].

Поскольку

n [X n - θ] → DN (0, σ 2) {\ displaystyle {{\ sqrt {n}} [X_ {n} - \ theta] {\ xrightarrow {D}} {\ mathcal {N}} (0, \ sigma ^ {2})}}{{\ sqrt {n}} [X_ {n} - \ theta] {\ xrightarrow {D}} {\ mathcal {N }} (0, \ sigma ^ {2})}

по предположению из обращения к теореме Слуцкого сразу следует, что

n [g (X n) - g (θ)] → DN (0, σ 2 [g '(θ)] 2). {\ displaystyle {{\ sqrt {n}} [g (X_ {n}) - g (\ theta)] {\ xrightarrow {D}} {\ mathcal {N}} (0, \ sigma ^ {2} [ g '(\ theta)] ^ {2})}.}{{\sqrt {n}}[g(X_{n})-g(\theta)]{\xrightarrow {D}}{\mathcal {N}}(0,\sigma ^{2}[g'(\theta)]^{2})}.

Это завершает доказательство.

Доказательство с явным порядком приближения

В качестве альтернативы можно добавить еще один шаг в конце, чтобы получить порядок приближения :

n [g (X n) - g (θ)] = g ′ (θ ~) n [X n - θ] = n [X n - θ] [g ′ (θ ~) + g ′ (θ) - g ′ (θ)] = n [X n - θ] [g ′ (θ)] + n [X n - θ] [g ′ (θ ~) - g ′ (θ)] = n [X n - θ] [g ′ (θ)] + O п (1) ⋅ op (1) знак равно N [X n - θ] [g '(θ)] + op (1) {\ displaystyle {\ begin {align} {\ sqrt {n}} [g ( X_ {n}) - g (\ theta)] = g '\ left ({\ tilde {\ theta}} \ right) {\ sqrt {n}} [X_ {n} - \ theta] = {\ sqrt {n}} [X_ {n} - \ theta] \ left [g '({\ tilde {\ theta}}) + g' (\ theta) -g '(\ theta) \ right] \\ = { \ sqrt {n}} [X_ {n} - \ theta] \ left [g '(\ theta) \ right] + {\ sqrt {n}} [X_ {n} - \ theta] \ left [g' ( {\ tilde {\ theta}}) - g '(\ theta) \ right] \\ = {\ sqrt {n}} [X_ {n} - \ theta] \ left [g' (\ theta) \ right ] + O_ {p} (1) \ cdot o_ {p} (1) \\ = {\ sqrt {n}} [X_ {n} - \ theta] \ left [g '(\ theta) \ right] + o_ {p} (1) \ end {align}}}{\begin{aligned}{\sqrt {n}}[g(X_{n})-g(\theta)]=g'\left({\tilde {\theta }}\right){\sqrt {n}}[X_{n}-\theta ]={\sqrt {n}}[X_{n}-\theta ]\left[g'({\tilde {\theta }})+g'(\theta)-g'(\theta)\right]\\={\sqrt {n}}[X_{n}-\theta ]\left[g'(\theta)\right]+{\sqrt {n}}[X_{n}-\theta ]\left[g'({\tilde {\theta }})-g'(\theta)\right]\\={\sqrt {n}}[X_{n}-\theta ]\left[g'(\theta)\right]+O_{p}(1)\cdot o_{p}(1)\\={\sqrt {n}}[X_{n}-\theta ]\left[g'(\theta)\right]+o_{p}(1)\end{aligned}}

Это говорит о том, что ошибки аппроксимации сходятся s до 0 по вероятности.

Метод многомерной дельты

По определению, согласованная оценка B сходится по вероятности к своему истинному значению β, и часто центральному предельная теорема может быть применена для получения асимптотической нормальности :

n (B - β) → DN (0, Σ), {\ displaystyle {\ sqrt {n}} \ left (B- \ beta \ right) \, {\ xrightarrow {D}} \, N \ left (0, \ Sigma \ right),}{\ sqrt {n}} \ left (B- \ beta \ right) \, {\ xrightarrow {D }} \, N \ left (0, \ Sigma \ right),

где n - количество наблюдений, а Σ - ковариационная матрица (симметричная положительно полуопределенная). Предположим, мы хотим оценить дисперсию скалярной функции h оценки B. Сохраняя только первые два члена ряда Тейлора и используя векторные обозначения для градиента, мы можем оценить час (B) как

час (B) ≈ час (β) + ∇ час (β) T ⋅ (B - β) {\ displaystyle h (B) \ приблизительно h (\ beta) + \ nabla h (\ beta) ^ {T} \ cdot (B- \ beta)}h (B) \ приблизительно h (\ beta) + \ nabla h (\ beta) ^ {T } \ cdot (B- \ beta)

, что означает, что дисперсия h (B) приблизительно равна

Var ⁡ (h (B)) ≈ Var ⁡ (h (β) + ∇ h (β) T ⋅ (B - β)) = Var ⁡ (h (β) + ∇ h (β) T ⋅ B - ∇ h (β) T ⋅ β) = Var ⁡ (∇ h (β) T ⋅ B) знак равно ∇ час (β) T ⋅ Cov ⁡ (B) ⋅ ∇ час (β) = ∇ час (β) T ⋅ (Σ) ⋅ ∇ час (β) {\ displaystyle {\ begin {align} \ operatorname {Var} \ left (h (B) \ right) \ приблизительно \ OperatorName {Var} \ left (h (\ beta) + \ nabla h (\ beta) ^ {T} \ cdot (B- \ beta)) \ right) \\ = \ operatorname {Var} \ left (h (\ beta) + \ nabla h (\ beta) ^ {T} \ cdot B- \ nabla h (\ beta) ^ {T} \ cdot \ beta \ right) \\ = \ operatorname {Var} \ left (\ nabla h (\ beta) ^ {T} \ cdot B \ right) \\ = \ nabla h (\ beta) ^ {T} \ cdot \ op eratorname {Cov} (B) \ cdot \ nabla h (\ beta) \\ = \ nabla h (\ beta) ^ {T} \ cdot (\ Sigma) \ cdot \ nabla h (\ beta) \ end {выровнено }}}{\ displaystyle {\ begin {align} \ operatorname {Var} \ left (h (B) \ right) \ приблизительное \ OperatorName {Var} \ left (h (\ beta) + \ nabla h (\ beta) ^ {T} \ cdot (B- \ beta) \ right) \\ = \ operatorname {Var} \ left (h (\ beta) + \ nabla h (\ beta) ^ {T} \ cdot B- \ nabla h (\ beta) ^ {T} \ cdot \ beta \ right) \\ = \ operatorname {Var} \ left (\ nabla h (\ beta) ^ {T} \ cdot B \ right) \\ = \ nabla h (\ beta) ^ {T} \ cdot \ operatorname {Cov} (B) \ cdot \ nabla h (\ beta) \\ = \ nabla h (\ beta) ^ {T} \ cdot (\ Sigma) \ cdot \ nabla h (\ beta) \ end {align}}}

Можно использовать теорему о среднем значении (для действительных функций многих переменных), чтобы увидеть, что это не зависит от приближения первого порядка.

Таким образом, дельта-метод подразумевает, что

n (h (B) - h (β)) → DN (0, ∇ h (β) T ⋅ Σ ⋅ ∇ h (β)) {\ displaystyle {\ sqrt {n}} \ left (h (B) -h (\ beta) \ right) \, {\ xrightarrow {D}} \, N \ left (0, \ nabla h (\ beta) ^ {T } \ cdot \ Sigma \ cdot \ nabla h (\ beta) \ right)}{\ sqrt {n}} \ left (h (B) -h (\ beta) \ right) \, {\ xrightarrow {D}} \, N \ left (0, \ nabla h (\ beta) ^ {T} \ cdot \ Sigma \ cdot \ nabla h (\ beta) \ right)

или в одномерном выражении

n (h (B) - h (β)) → DN (0, σ 2 ⋅ ( h ′ (β)) 2). {\ displaystyle {\ sqrt {n}} \ left (h (B) -h (\ beta) \ right) \, {\ xrightarrow {D}} \, N \ left (0, \ sigma ^ {2} \ cdot \ left (h ^ {\ prime} (\ beta) \ right) ^ {2} \ right).}{ \ sqrt {n}} \ left (h (B) -h (\ beta) \ right) \, {\ xrightarrow {D}} \, N \ left (0, \ sigma ^ {2} \ cdot \ left ( h ^ {\ prime} (\ beta) \ right) ^ {2} \ right).
Пример: биномиальная пропорция

Предположим, что X n равно бином с параметрами p ∈ (0, 1] {\ displaystyle p \ in (0,1]}p \ in (0,1] и n. Поскольку

n [X nn - p ] → DN (0, p (1 - p)), {\ displaystyle {{\ sqrt {n}} \ left [{\ frac {X_ {n}} {n}} - p \ right] \, {\ xrightarrow {D}} \, N (0, p (1-p))},}{{\ sqrt {n}} \ left [{\ frac {X_ {n}} {n}} - p \ right] \, {\ xrightarrow {D}} \, N (0, p (1-p))},

мы можем применить метод Delta с g (θ) = log (θ), чтобы увидеть

n [log ⁡ ( Икс nn) - журнал ⁡ (p)] → DN (0, p (1 - p) [1 / p] 2) {\ displaystyle {{\ sqrt {n}} \ left [\ log \ left ({\ frac {X_ {n}} {n}} \ right) - \ log (p) \ right] \, {\ xrightarrow {D}} \, N (0, p (1-p) [1 / p] ^ { 2})}}{{\ sqrt {n}} \ left [\ log \ left ({\ frac {X_ {n}} {n}} \ right) - \ log (p) \ right] \, {\ xrightarrow {D} } \, N (0, p (1-p) [1 / p] ^ {2})}

Следовательно, даже если для любого конечного n, дисперсия log ⁡ (X nn) {\ displaystyle \ log \ left ({\ frac {X_ {n}} {n}} \ right)}{\ displaystyle \ log \ left ({\ frac {X_ {n}} {n}} \ right) } фактически не существует (поскольку X n может быть нулевым), асимптотическая дисперсия log ⁡ (X nn) {\ displaystyle \ log \ left ({\ frac {X_ {n}} {n}} \ right)}\ log \ left ({\ frac {X_ {n}} {n}} \ right) действительно существует и равен

1 - p n p. {\ displaystyle {\ frac {1-p} {np}}.}{\ displaystyle { \ frac {1-p} {np}}.}

Обратите внимание, что, поскольку p>0, Pr (X nn>0) → 1 {\ displaystyle \ Pr \ left ({\ frac {X_ {n}} {n}}>0 \ right) \ rightarrow 1}{\displaystyle \Pr \left({\frac {X_{n}}{n}}>0 \ right) \ rightarrow 1} как n → ∞ {\ displaystyle n \ rightarrow \ infty}n \ rightarrow \ infty , поэтому с вероятностью сходящаяся к единице, log ⁡ (X nn) {\ displaystyle \ log \ left ({\ frac {X_ {n}} {n}} \ right)}{\ displaystyle \ log \ left ({\ frac {X_ {n}} {n}} \ right) } конечно для больших n.

Кроме того, если p ^ {\ displaystyle {\ hat {p}}}{\ hat p} и q ^ {\ displaystyle {\ hat {q}}}\ hat q - оценки различных групповых показателей из независимых выборок размеров n и m соответственно, затем логарифм предполагаемого относительного риска p ^ q ^ {\ displaystyle {\ frac {\ hat {p}} {\ hat {q}}}}{\ frac {{\ hat p}} {{\ hat q}}} имеет асимптотическую дисперсию, равную

1 - ppn + 1 - qqm. {\ displaystyle {\ frac {1-p} {p \, n}} + {\ frac {1-q} {q \, m}}.}{\ displaystyle {\ frac {1-p} {p \, n}} + { \ frac {1-q} {q \, m}}.}

Т Это полезно для построения проверки гипотез или для построения доверительного интервала для относительного риска.

Альтернативная форма

Дельта-метод часто используется в форме, которая по существу идентична приведенной выше, но без предположения, что X n или B асимптотически нормальны. Часто единственным контекстом является то, что дисперсия «мала». Тогда результаты просто дают приближения к средним и ковариациям преобразованных величин. Например, формулы, представленные в Klein (1953, p. 258), следующие:

Var ⁡ (hr) = ∑ i (∂ hr ∂ B i) 2 Var ⁡ (B i) + ∑ i ∑ j ≠ i ( ∂ hr ∂ B i) (∂ hr ∂ B j) Cov ⁡ (B i, B j) Cov ⁡ (hr, hs) = ∑ i (∂ hr ∂ B i) (∂ hs ∂ B i) Var ⁡ (B я) + ∑ я ∑ J ≠ я (∂ час ∂ B я) (∂ hs ∂ B j) Cov ⁡ (B i, B j) {\ displaystyle {\ begin {align} \ operatorname {Var} \ left (h_ {r} \ right) = \ sum _ {i} \ left ({\ frac {\ partial h_ {r}} {\ partial B_ {i}}} \ right) ^ {2} \ operatorname {Var} \ left (B_ {i} \ right) + \ sum _ {i} \ sum _ {j \ neq i} \ left ({\ frac {\ partial h_ {r}} {\ partial B_ {i}}} \ right) \ left ({\ frac {\ partial h_ {r}} {\ partial B_ {j}}} \ right) \ operatorname {Cov} \ left (B_ {i}, B_ {j} \ right) \\\ имя оператора {Cov} \ left (h_ {r}, h_ {s} \ right) = \ sum _ {i} \ left ({\ frac {\ partial h_ {r}} {\ partial B_ {i}}} \ right) \ left ({\ frac {\ partial h_ {s}} {\ partial B_ {i}}} \ right) \ operatorname {Var} \ left (B_ {i} \ right) + \ sum _ {i } \ sum _ {j \ neq i} \ left ({\ frac {\ partial h_ {r}} {\ partial B_ {i}}} \ right) \ left ({\ frac {\ partial h_ {s}} {\ partial B_ {j}}} \ right) \ operatorname {Cov} \ left (B_ {i}, B_ {j} \ right) \ end {align}}}{\ begin {align} \ operatorname {Var} \ left (h_ {r} \ right) = \ sum _ {i } \ left ({\ frac {\ partial h_ {r}} {\ partial B_ {i}}} \ right) ^ {2} \ operatorname {Var} \ left (B_ {i} \ right) + \ sum _ {i} \ sum _ {{j \ neq i}} \ left ({\ frac {\ partial h_ {r}} {\ partial B_ {i}}} \ right) \ left ({\ frac {\ partial h_ {r}} {\ partial B_ {j}}} \ right) \ operatorname {Cov} \ left (B_ {i}, B_ {j} \ right) \\\ operatorname {Cov} \ left (h_ {r}, h_ {s} \ right) = \ sum _ {i} \ left ({\ frac {\ partial h_ {r}} {\ partial B_ {i}}} \ right) \ left ( {\ frac {\ partial h_ {s}} {\ partial B_ {i}}} \ right) \ operatorname {Var} \ left (B_ {i} \ right) + \ sum _ {i} \ sum _ {{ j \ neq i}} \ left ({\ frac {\ partial h_ {r}} {\ partial B_ {i}}} \ right) \ left ({\ frac {\ partial h_ {s}}} {\ partial B_ {j}}} \ right) \ operatorname {Cov} \ left (B_ {i}, B_ {j} \ right) \ end {align}}

где h r - это r-й элемент h (B) и B i - i-й элемент B.

дельта-метод второго порядка

Когда g '(θ) = 0, дельта-метод не может быть применен. Однако, если g ′ ′ (θ) существует и не равно нулю, можно применить дельта-метод второго порядка. По разложению Тейлора n [g (X n) - g (θ)] = 1 2 n [X n - θ] 2 [g ″ (θ)] + op (1) {\ displaystyle {\ sqrt {n}} [g (X_ {n}) - g (\ theta)] = {\ frac {1} {2}} {\ sqrt {n}} [X_ {n} - \ theta] ^ {2} \ left [g '' (\ theta) \ right] + o_ {p} (1)}{\displaystyle {\sqrt {n}}[g(X_{n})-g(\theta)]={\frac {1}{2}}{\sqrt {n}}[X_{n}-\theta ]^{2}\left[g''(\theta)\right]+o_{p}(1)}, так что дисперсия g (X n) {\ displaystyle g \ left (X_ {n} \ right)}{\ displaystyle g \ left (X_ {n} \ right)} до 4-го момента X n {\ displaystyle X_ {n}}X_ {n} .

Метод дельты второго порядка также полезен при проведении дополнительных точное приближение распределения g (X n) {\ displaystyle g \ left (X_ {n} \ right)}{\ displaystyle g \ left (X_ {n} \ right)} при небольшом размере выборки. n [g (X n) - g (θ)] = n [X n - θ] g ′ (θ) + 1 2 n [X n - θ] 2 g ″ (θ) + op (1) {\ displaystyle {\ sqrt {n}} [g (X_ {n}) - g (\ theta)] = {\ sqrt {n}} [X_ {n} - \ theta] g '(\ theta) + { \ frac {1} {2}} {\ sqrt {n}} [X_ {n} - \ theta] ^ {2} g '' (\ theta) + o_ {p} (1)}{\displaystyle {\sqrt {n}}[g(X_{n})-g(\theta)]={\sqrt {n}}[X_{n}-\theta ]g'(\theta)+{\frac {1}{2}}{\sqrt {n}}[X_{n}-\theta ]^{2}g''(\theta)+o_{p}(1)}. Например, когда X n {\ displaystyle X_ {n}}X_ {n} следует стандартному нормальному распределению, g (X n) {\ displaystyle g \ left (X_ {n} \ right)}{\ displaystyle g \ left (X_ {n} \ right)} можно аппроксимировать как взвешенную сумму стандартной нормали и хи-квадрат со степенью свободы 1.

См. Также
Ссылки
Дополнительная литература
Внешние ссылки
Последняя правка сделана 2021-05-17 12:24:58
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте