Преобразование, стабилизирующее отклонение

редактировать

В прикладной статистике преобразование стабилизации отклонения - это преобразование данных, которое специально выбрано n либо для упрощения рассмотрения графического исследовательского анализа данных, либо для обеспечения возможности применения простых методов на основе регрессии или дисперсионного анализа.

Содержание
  • 1 Обзор
    • 1.1 Пример: относительная дисперсия
    • 1.2 Пример: абсолютная плюс относительная дисперсия
  • 2 Связь с дельта-методом
  • 3 Ссылки
Обзор

Цель выбора преобразования, стабилизирующего дисперсию, - найти простую функцию ƒ для применения к значениям x в наборе данных для создания новых значений y = ƒ (x), таких, что изменчивость значений y не связана с их средним значением. Например, предположим, что значения x являются реализациями из различных распределений Пуассона : то есть каждое из распределений имеет разные средние значения μ. Затем, поскольку для распределения Пуассона дисперсия идентична среднему, дисперсия зависит от среднего. Однако, если применить простое преобразование стабилизации дисперсии

y = x {\ displaystyle y = {\ sqrt {x}} \,}y = {\ sqrt {x}} \,

, дисперсия выборки, связанная с наблюдением, будет почти постоянной: см. Преобразование Анскомба для получения подробной информации и некоторых альтернативных преобразований.

Хотя преобразования, стабилизирующие дисперсию, хорошо известны для некоторых параметрических семейств распределений, таких как пуассоновское и биномиальное распределение, некоторые типы анализа данных проводятся более эмпирически: например, путем поиска среди преобразование мощности, чтобы найти подходящее фиксированное преобразование. В качестве альтернативы, если анализ данных предлагает функциональную форму отношения между дисперсией и средним значением, это можно использовать для вывода преобразования, стабилизирующего дисперсию. Таким образом, если для среднего μ

var ⁡ (X) = h (μ), {\ displaystyle \ operatorname {var} (X) = h (\ mu), \,}{\ displaystyle \ operatorname {var} (X) = h (\ mu), \,}

подходящая основа для преобразование, стабилизирующее дисперсию, будет иметь вид

y ∝ ∫ x 1 h (μ) d μ, {\ displaystyle y \ propto \ int ^ {x} {\ frac {1} {\ sqrt {h (\ mu)}} } \, d \ mu,}{\ displaystyle y \ propto \ int ^ {x} {\ frac {1} {\ sqrt {h (\ mu)}}} \, d \ mu,}

где для удобства можно выбрать произвольную константу интегрирования и произвольный коэффициент масштабирования.

Пример: относительная дисперсия

Если X - положительная случайная величина, а дисперсия задана как h (μ) = sμ, то стандартное отклонение пропорционально среднему значению, которое называется фиксированным относительная ошибка. В этом случае преобразование, стабилизирующее дисперсию, имеет вид

y = ∫ x d μ s 2 μ 2 = 1 s ln ⁡ (x) ∝ log ⁡ (x). {\ displaystyle y = \ int ^ {x} {\ frac {d \ mu} {\ sqrt {s ^ {2} \ mu ^ {2}}}} = {\ frac {1} {s}} \ ln (x) \ propto \ log (x) \,.}{\ displaystyle y = \ int ^ {x} {\ frac {d \ mu} {\ sqrt {s ^ {2} \ mu ^ {2}}}} = { \ frac {1} {s}} \ ln (x) \ propto \ log (x) \,.}

То есть преобразование, стабилизирующее дисперсию, является логарифмическим преобразованием.

Пример: абсолютная плюс относительная дисперсия

Если дисперсия задана как h (μ) = σ + sμ, тогда в дисперсии преобладает фиксированная дисперсия σ, когда | μ | достаточно мала, и в ней преобладает относительная дисперсия sμ, когда | μ | достаточно большой. В этом случае преобразование, стабилизирующее дисперсию, имеет вид

y = ∫ x d μ σ 2 + s 2 μ 2 = 1 s asinh ⁡ x σ / s ∝ asinh ⁡ x λ. {\ displaystyle y = \ int ^ {x} {\ frac {d \ mu} {\ sqrt {\ sigma ^ {2} + s ^ {2} \ mu ^ {2}}}} = {\ frac {1 } {s}} \ operatorname {asinh} {\ frac {x} {\ sigma / s}} \ propto \ operatorname {asinh} {\ frac {x} {\ lambda}} \,.}{\ displaystyle y = \ int ^ {x} {\ frac {d \ mu} {\ sqrt {\ sigma ^ {2} + s ^ {2} \ mu ^ {2 }}}} = {\ frac {1} {s}} \ operatorname {asinh} {\ frac {x} {\ sigma / s}} \ propto \ operatorname {asinh} {\ frac {x} {\ lambda} } \,.}

То есть, преобразование, стабилизирующее дисперсию, представляет собой обратный гиперболический синус масштабированного значения x / λ для λ = σ / s.

Связь с дельта-методом

Здесь дельта-метод представлен в грубой форме, но этого достаточно, чтобы увидеть взаимосвязь с преобразованиями, стабилизирующими дисперсию. Чтобы увидеть более формальный подход, см. дельта-метод.

. Пусть X {\ displaystyle X}X будет случайной величиной с E [X] = μ {\ displaystyle E [X] = \ mu}E [X] = \ mu и Var ⁡ (X) = σ 2 {\ displaystyle \ operatorname {Var} (X) = \ sigma ^ {2}}{\ displaystyle \ operatorname { Var} (Икс) = \ sigma ^ {2}} . Определите Y = g (X) {\ displaystyle Y = g (X)}Y = g (X) , где g {\ displaystyle g}g - обычная функция. Приближение Тейлора первого порядка для Y = g (x) {\ displaystyle Y = g (x)}Y = г (Икс) :

Y = g (X) ≈ g (μ) + g ′ (μ) (Икс - μ) {\ Displaystyle Y = g (X) \ приблизительно g (\ mu) + g '(\ mu) (X- \ mu)}Y=g(X)\approx g(\mu)+g'(\mu)(X-\mu)

Из приведенного выше уравнения получаем:

E [Y] = g (μ) {\ displaystyle E [Y] = g (\ mu)}{\ displaystyle E [Y] = g (\ mu)} и Var ⁡ [Y] = σ 2 g ′ (μ) 2 { \ displaystyle \ operatorname {Var} [Y] = \ sigma ^ {2} g '(\ mu) ^ {2}}{\displaystyle \operatorname {Var} [Y]=\sigma ^{2}g'(\mu)^{2}}

Этот метод аппроксимации называется дельта-методом.

Рассмотрим теперь случайную величину X {\ displaystyle X}X такую, что E [X] = μ {\ displaystyle E [X] = \ mu}E [X] = \ mu и Var ⁡ [X] = h (μ) {\ displaystyle \ operatorname {Var} [X] = h (\ mu)}{\ displaystyle \ operatorname {Var} [X] = h (\ mu)} . Обратите внимание на связь между дисперсией и средним значением, которая подразумевает, например, гетероскедастичность в линейной модели. Следовательно, цель состоит в том, чтобы найти функцию g {\ displaystyle g}g такую, что Y = g (X) {\ displaystyle Y = g (X)}Y = g (X) имеет дисперсию, не зависящую (по крайней мере приблизительно) от ее ожидания.

Наложение условия Var ⁡ [Y] ≈ h (μ) g '(μ) 2 = константа {\ displaystyle \ operatorname {Var} [Y] \ приблизительно h (\ mu) g' (\ mu) ^ {2} = {\ text {constant}}}{\displaystyle \operatorname {Var} [Y]\approx h(\mu)g'(\mu)^{2}={\text{constant}}}, из этого равенства следует дифференциальное уравнение:

dgd μ = C h (μ) {\ displaystyle {\ frac {dg } {d \ mu}} = {\ frac {C} {\ sqrt {h (\ mu)}}}}{\ frac {dg} {d \ mu}} = {\ frac {C} {{\ sqrt {h (\ mu)}}}}

Это обыкновенное дифференциальное уравнение имеет путем разделения переменных следующее решение:

g ( μ) знак равно ∫ C d μ час (μ) {\ displaystyle g (\ mu) = \ int {\ frac {C \, d \ mu} {\ sqrt {h (\ mu)}}}}{\ displaystyle g (\ mu) = \ int {\ frac {C \, d \ mu} {\ sqrt {h (\ mu) }}}}

Это последнее выражение впервые появилось в М. Статья С. Бартлетта.

Ссылки
  1. ^Эверитт, Б.С. (2002). Кембриджский статистический словарь (2-е изд.). ЧАШКА. ISBN 0-521-81099-X.
  2. ^Додж, Ю. (2003). Оксфордский словарь статистических терминов. ОУП. ISBN 0-19-920613-9.
  3. ^Бартлетт, М.С. (1947). «Использование преобразований». Биометрия. 3 : 39–52. doi :10.2307/3001536.
Последняя правка сделана 2021-06-18 09:52:59
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте