Разъясненная вариация

редактировать

В статистике объясненная вариация измеряет долю, которую математическая модель учитывает вариация (дисперсия ) данного набора данных. Часто изменение количественно выражается как отклонение ; тогда может использоваться более конкретный термин объясненная дисперсия .

Дополнительная часть общего отклонения называется необъяснимым или остаточным изменением.

Содержание

1 Определение с точки зрения получения информации
- 1.1 Получение информации за счет лучшего моделирования
- 1.2 Получение информации с помощью условной модели
2 Частные случаи и обобщенное использование
- 2.1 Линейная регрессия
- 2.2 Коэффициент корреляции как мера объясненной дисперсии
- 2.3 В анализе главных компонентов
3 Критика
4 См. Также
5 Ссылки
6 Внешние ссылки

Определение с точки зрения получения информации

Получение информации за счет лучшего моделирования

Следуя Кенту (1983), мы используем информацию Фрейзера (Fraser 1965)

F (θ) = ∫ drg (r) ln ⁡ f (r; θ) {\ Displaystyle F (\ theta) = \ int {\ textrm {d}} r \, g (r) \, \ ln f (r; \ theta)}

F (\ theta) = \ int { \ textrm {d}} r \, g (r) \, \ ln f (r; \ theta)

где $g (r) { \ displaystyle g (r)}$ $g (r)$ - это плотность вероятности случайной величины $R {\ displaystyle R \,}$ $R \,$ и $f (r; θ) { \ displaystyle f (r; \ theta) \,}$ $f (r; \ theta) \,$ с $θ ∈ Θ i {\ displaystyle \ theta \ in \ Theta _ {i}}$ $\ theta \ in \ Theta _ {i}$ ( $i = 0, 1 {\ displaystyle i = 0,1 \,}$ $i = 0,1 \,$ ) - два семейства параметров этрические модели. Семейство моделей 0 является более простым, с ограниченным пространством параметров $Θ 0 ⊂ Θ 1 {\ displaystyle \ Theta _ {0} \ subset \ Theta _ {1}}$ $\ Theta _ {0} \ subset \ Тета _ {1}$ .

Параметры определяются максимумом оценка правдоподобия,

θ i = argmax θ ∈ Θ i ⁡ F (θ). {\ displaystyle \ theta _ {i} = \ operatorname {argmax} _ {\ theta \ in \ Theta _ {i}} F (\ theta).}

{\ displaystyle \ theta _ {i} = \ operatorname {argmax} _ {\ theta \ in \ Theta _ {i}} F (\ theta).}

Информационный выигрыш модели 1 по сравнению с моделью 0 записывается как

Γ (θ 1: θ 0) = 2 [F (θ 1) - F (θ 0)] {\ displaystyle \ Gamma (\ theta _ {1}: \ theta _ {0}) = 2 [F (\ theta _ {1}) - F (\ theta _ {0})] \,}

\ Gamma (\ theta _ {1}: \ theta _ {0}) Знак равно 2 [F (\ theta _ {1}) - F (\ theta _ {0})] \,

где для удобства включен коэффициент 2. Γ всегда неотрицательно; он измеряет степень, в которой лучшая модель семьи 1 лучше, чем лучшая модель семьи 0 в объяснении g (r).

Получение информации с помощью условной модели

Предположим двумерную случайную величину $R = (X, Y) {\ displaystyle R = (X, Y)}$ $R = (X, Y)$ где X следует рассматривать как объясняющую переменную, а Y как зависимую переменную. Модели семейства 1 «объясняют» Y с точки зрения X,

f (y ∣ x; θ) {\ displaystyle f (y \ mid x; \ theta)}

{\ displaystyle f (y \ mid x; \ theta)}

, тогда как в семье 0 X и Y считается независимым. Мы определяем случайность Y следующим образом: $D (Y) = exp ⁡ [- 2 F (θ 0)] {\ displaystyle D (Y) = \ exp [-2F (\ theta _ {0})]}$ $D (Y) = \ exp [-2F (\ theta _ {0})]$ , а случайность Y при данном X - на $D (Y ∣ X) = exp ⁡ [- 2 F (θ 1)] {\ displaystyle D (Y \ mid X) = \ exp [-2F (\ theta _ {1})]}$ ${\ displaystyle D (Y \ mid X) = \ exp [-2F (\ theta _ {1})]}$ . Тогда

ρ C 2 = 1 - D (Y ∣ X) / D (Y) {\ displaystyle \ rho _ {C} ^ {2} = 1-D (Y \ mid X) / D (Y) }

{\ displaystyle \ rho _ {C} ^ {2} = 1-D (Y \ mid X) / D (Y) }

можно интерпретировать как долю дисперсии данных, которая «объясняется» X.

Особые случаи и обобщенное использование

Линейная регрессия

Доля дисперсии необъяснимое - это устоявшаяся концепция в контексте линейной регрессии. Обычное определение коэффициента детерминации основано на фундаментальной концепции объясненной дисперсии.

Коэффициент корреляции как мера объясненной дисперсии

Пусть X - случайный вектор, а Y - случайная величина, которая моделируется нормальным распределением с центром $μ + Ψ TX {\ displaystyle \ mu + \ Psi ^ {\ textrm {T}} X}$ $\ mu + \ Psi ^ {{\ textrm {T}}} X$ . В этом случае полученная выше доля объясненной вариации $ρ C 2 {\ displaystyle \ rho _ {C} ^ {2}}$ $\ rho _ {C} ^ {2}$ равна квадрату коэффициента корреляции $R 2 {\ displaystyle R ^ {2}}$ $R ^ {2}$ .

Обратите внимание на сильные допущения модели: центр распределения Y должен быть линейной функцией X, а для любого заданного x распределение Y должно быть нормальным. В других ситуациях, как правило, неоправданно интерпретировать $R 2 {\ displaystyle R ^ {2}}$ $R ^ {2}$ как долю объясненной дисперсии.

В анализе главных компонентов

Объясненная дисперсия обычно используется в анализе главных компонент. Связь с получением информации Фрейзером – Кентом еще предстоит выяснить.

Критика

Поскольку доля «объясненной дисперсии» равна квадрату коэффициента корреляции $R 2 {\ displaystyle R ^ {2}}$ $R ^ {2}$ , она разделяет все Недостатки последнего: он отражает не только качество регрессии, но и распределение независимых (обусловливающих) переменных.

По словам одного критика: «Таким образом, $R 2 {\ displaystyle R ^ {2}}$ $R ^ {2}$ дает« процент дисперсии, объясняемой регрессией », выражение, которое для большинства социологов имеет сомнительный смысл, но имеет большую риторическую ценность. Если это число велико, регрессия дает хорошее соответствие, и нет смысла искать дополнительные переменные. Другие уравнения регрессии для разных наборов данных считаются менее удовлетворительно или менее эффективно, если их $R 2 {\ displaystyle R ^ {2}}$ $R ^ {2}$ ниже. Ничего о $R 2 {\ displaystyle R ^ {2}}$ $R ^ {2}$ поддерживает эти утверждения ». И после построения примера, в котором $R 2 {\ displaystyle R ^ {2}}$ $R ^ {2}$ улучшается только за счет совместного рассмотрения данных из двух разных популяций: «Объясненная дисперсия ничего не объясняет».

См. Также

Ссылки

Внешние ссылки

Объясненные и необъяснимые отклонения на графике