В статистике объясненная вариация измеряет долю, которую математическая модель учитывает вариация (дисперсия ) данного набора данных. Часто изменение количественно выражается как отклонение ; тогда может использоваться более конкретный термин объясненная дисперсия .
Дополнительная часть общего отклонения называется необъяснимым или остаточным изменением.
Следуя Кенту (1983), мы используем информацию Фрейзера (Fraser 1965)
где - это плотность вероятности случайной величины и с () - два семейства параметров этрические модели. Семейство моделей 0 является более простым, с ограниченным пространством параметров .
Параметры определяются максимумом оценка правдоподобия,
Информационный выигрыш модели 1 по сравнению с моделью 0 записывается как
где для удобства включен коэффициент 2. Γ всегда неотрицательно; он измеряет степень, в которой лучшая модель семьи 1 лучше, чем лучшая модель семьи 0 в объяснении g (r).
Предположим двумерную случайную величину где X следует рассматривать как объясняющую переменную, а Y как зависимую переменную. Модели семейства 1 «объясняют» Y с точки зрения X,
, тогда как в семье 0 X и Y считается независимым. Мы определяем случайность Y следующим образом: , а случайность Y при данном X - на . Тогда
можно интерпретировать как долю дисперсии данных, которая «объясняется» X.
Доля дисперсии необъяснимое - это устоявшаяся концепция в контексте линейной регрессии. Обычное определение коэффициента детерминации основано на фундаментальной концепции объясненной дисперсии.
Пусть X - случайный вектор, а Y - случайная величина, которая моделируется нормальным распределением с центром . В этом случае полученная выше доля объясненной вариации равна квадрату коэффициента корреляции .
Обратите внимание на сильные допущения модели: центр распределения Y должен быть линейной функцией X, а для любого заданного x распределение Y должно быть нормальным. В других ситуациях, как правило, неоправданно интерпретировать как долю объясненной дисперсии.
Объясненная дисперсия обычно используется в анализе главных компонент. Связь с получением информации Фрейзером – Кентом еще предстоит выяснить.
Поскольку доля «объясненной дисперсии» равна квадрату коэффициента корреляции , она разделяет все Недостатки последнего: он отражает не только качество регрессии, но и распределение независимых (обусловливающих) переменных.
По словам одного критика: «Таким образом, дает« процент дисперсии, объясняемой регрессией », выражение, которое для большинства социологов имеет сомнительный смысл, но имеет большую риторическую ценность. Если это число велико, регрессия дает хорошее соответствие, и нет смысла искать дополнительные переменные. Другие уравнения регрессии для разных наборов данных считаются менее удовлетворительно или менее эффективно, если их ниже. Ничего о поддерживает эти утверждения ». И после построения примера, в котором улучшается только за счет совместного рассмотрения данных из двух разных популяций: «Объясненная дисперсия ничего не объясняет».