Разъясненная вариация

редактировать

В статистике объясненная вариация измеряет долю, которую математическая модель учитывает вариация (дисперсия ) данного набора данных. Часто изменение количественно выражается как отклонение ; тогда может использоваться более конкретный термин объясненная дисперсия .

Дополнительная часть общего отклонения называется необъяснимым или остаточным изменением.

Содержание
  • 1 Определение с точки зрения получения информации
    • 1.1 Получение информации за счет лучшего моделирования
    • 1.2 Получение информации с помощью условной модели
  • 2 Частные случаи и обобщенное использование
    • 2.1 Линейная регрессия
    • 2.2 Коэффициент корреляции как мера объясненной дисперсии
    • 2.3 В анализе главных компонентов
  • 3 Критика
  • 4 См. Также
  • 5 Ссылки
  • 6 Внешние ссылки
Определение с точки зрения получения информации

Получение информации за счет лучшего моделирования

Следуя Кенту (1983), мы используем информацию Фрейзера (Fraser 1965)

F (θ) = ∫ drg (r) ln ⁡ f (r; θ) {\ Displaystyle F (\ theta) = \ int {\ textrm {d}} r \, g (r) \, \ ln f (r; \ theta)}F (\ theta) = \ int { \ textrm {d}} r \, g (r) \, \ ln f (r; \ theta)

где g (r) { \ displaystyle g (r)}g (r) - это плотность вероятности случайной величины R {\ displaystyle R \,}R \, и f (r; θ) { \ displaystyle f (r; \ theta) \,}f (r; \ theta) \, с θ ∈ Θ i {\ displaystyle \ theta \ in \ Theta _ {i}}\ theta \ in \ Theta _ {i} (i = 0, 1 {\ displaystyle i = 0,1 \,}i = 0,1 \, ) - два семейства параметров этрические модели. Семейство моделей 0 является более простым, с ограниченным пространством параметров Θ 0 ⊂ Θ 1 {\ displaystyle \ Theta _ {0} \ subset \ Theta _ {1}}\ Theta _ {0} \ subset \ Тета _ {1} .

Параметры определяются максимумом оценка правдоподобия,

θ i = argmax θ ∈ Θ i ⁡ F (θ). {\ displaystyle \ theta _ {i} = \ operatorname {argmax} _ {\ theta \ in \ Theta _ {i}} F (\ theta).}{\ displaystyle \ theta _ {i} = \ operatorname {argmax} _ {\ theta \ in \ Theta _ {i}} F (\ theta).}

Информационный выигрыш модели 1 по сравнению с моделью 0 записывается как

Γ (θ 1: θ 0) = 2 [F (θ 1) - F (θ 0)] {\ displaystyle \ Gamma (\ theta _ {1}: \ theta _ {0}) = 2 [F (\ theta _ {1}) - F (\ theta _ {0})] \,}\ Gamma (\ theta _ {1}: \ theta _ {0}) Знак равно 2 [F (\ theta _ {1}) - F (\ theta _ {0})] \,

где для удобства включен коэффициент 2. Γ всегда неотрицательно; он измеряет степень, в которой лучшая модель семьи 1 лучше, чем лучшая модель семьи 0 в объяснении g (r).

Получение информации с помощью условной модели

Предположим двумерную случайную величину R = (X, Y) {\ displaystyle R = (X, Y)}R = (X, Y) где X следует рассматривать как объясняющую переменную, а Y как зависимую переменную. Модели семейства 1 «объясняют» Y с точки зрения X,

f (y ∣ x; θ) {\ displaystyle f (y \ mid x; \ theta)}{\ displaystyle f (y \ mid x; \ theta)} ,

, тогда как в семье 0 X и Y считается независимым. Мы определяем случайность Y следующим образом: D (Y) = exp ⁡ [- 2 F (θ 0)] {\ displaystyle D (Y) = \ exp [-2F (\ theta _ {0})]}D (Y) = \ exp [-2F (\ theta _ {0})] , а случайность Y при данном X - на D (Y ∣ X) = exp ⁡ [- 2 F (θ 1)] {\ displaystyle D (Y \ mid X) = \ exp [-2F (\ theta _ {1})]}{\ displaystyle D (Y \ mid X) = \ exp [-2F (\ theta _ {1})]} . Тогда

ρ C 2 = 1 - D (Y ∣ X) / D (Y) {\ displaystyle \ rho _ {C} ^ {2} = 1-D (Y \ mid X) / D (Y) }{\ displaystyle \ rho _ {C} ^ {2} = 1-D (Y \ mid X) / D (Y) }

можно интерпретировать как долю дисперсии данных, которая «объясняется» X.

Особые случаи и обобщенное использование

Линейная регрессия

Доля дисперсии необъяснимое - это устоявшаяся концепция в контексте линейной регрессии. Обычное определение коэффициента детерминации основано на фундаментальной концепции объясненной дисперсии.

Коэффициент корреляции как мера объясненной дисперсии

Пусть X - случайный вектор, а Y - случайная величина, которая моделируется нормальным распределением с центром μ + Ψ TX {\ displaystyle \ mu + \ Psi ^ {\ textrm {T}} X}\ mu + \ Psi ^ {{\ textrm {T}}} X . В этом случае полученная выше доля объясненной вариации ρ C 2 {\ displaystyle \ rho _ {C} ^ {2}}\ rho _ {C} ^ {2} равна квадрату коэффициента корреляции R 2 {\ displaystyle R ^ {2}}R ^ {2} .

Обратите внимание на сильные допущения модели: центр распределения Y должен быть линейной функцией X, а для любого заданного x распределение Y должно быть нормальным. В других ситуациях, как правило, неоправданно интерпретировать R 2 {\ displaystyle R ^ {2}}R ^ {2} как долю объясненной дисперсии.

В анализе главных компонентов

Объясненная дисперсия обычно используется в анализе главных компонент. Связь с получением информации Фрейзером – Кентом еще предстоит выяснить.

Критика

Поскольку доля «объясненной дисперсии» равна квадрату коэффициента корреляции R 2 {\ displaystyle R ^ {2}}R ^ {2} , она разделяет все Недостатки последнего: он отражает не только качество регрессии, но и распределение независимых (обусловливающих) переменных.

По словам одного критика: «Таким образом, R 2 {\ displaystyle R ^ {2}}R ^ {2} дает« процент дисперсии, объясняемой регрессией », выражение, которое для большинства социологов имеет сомнительный смысл, но имеет большую риторическую ценность. Если это число велико, регрессия дает хорошее соответствие, и нет смысла искать дополнительные переменные. Другие уравнения регрессии для разных наборов данных считаются менее удовлетворительно или менее эффективно, если их R 2 {\ displaystyle R ^ {2}}R ^ {2} ниже. Ничего о R 2 {\ displaystyle R ^ {2}}R ^ {2} поддерживает эти утверждения ». И после построения примера, в котором R 2 {\ displaystyle R ^ {2}}R ^ {2} улучшается только за счет совместного рассмотрения данных из двух разных популяций: «Объясненная дисперсия ничего не объясняет».

См. Также
Ссылки
Внешние ссылки
Последняя правка сделана 2021-05-19 09:57:34
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте