Среднеквадратичная ошибка прогноза

редактировать

В статистике средний квадрат ошибки предсказания или средний квадрат ошибки предсказания одного сглаживания или аппроксимации кривой процедуры является ожидаемое значение квадрата разности между подобранными значениями подразумеваемых прогнозирующей функции и значений (ненаблюдаемой) функции г. Это обратная мера объяснительной силы, которую можно использовать в процессе перекрестной проверки оценочной модели. грамм ^ {\ displaystyle {\ widehat {g}}} грамм ^ , {\ displaystyle {\ widehat {g}},}

Если процедура сглаживания или аппроксимации имеет матрицу проекции (т. Е. Матрицу шляпы) L, которая отображает вектор наблюдаемых значений в вектор предсказанных значений через то y {\ displaystyle y} y ^ {\ displaystyle {\ hat {y}}} y ^ знак равно L y , {\ displaystyle {\ hat {y}} = Ly,}

MSPE ( L ) знак равно E [ ( грамм ( Икс я ) - грамм ^ ( Икс я ) ) 2 ] . {\ displaystyle \ operatorname {MSPE} (L) = \ operatorname {E} \ left [\ left (g (x_ {i}) - {\ widehat {g}} (x_ {i}) \ right) ^ {2 }\право].}

MSPE можно разложить на два члена: среднее квадратов систематических ошибок подобранных значений и среднее значение дисперсии подобранных значений:

п MSPE ( L ) знак равно я знак равно 1 п ( E [ грамм ^ ( Икс я ) ] - грамм ( Икс я ) ) 2 + я знак равно 1 п вар [ грамм ^ ( Икс я ) ] . {\ displaystyle n \ cdot \ operatorname {MSPE} (L) = \ sum _ {i = 1} ^ {n} \ left (\ operatorname {E} \ left [{\ widehat {g}} (x_ {i})) \ right] -g (x_ {i}) \ right) ^ {2} + \ sum _ {i = 1} ^ {n} \ operatorname {var} \ left [{\ widehat {g}} (x_ { Я прав].}

Знание g требуется для точного расчета MSPE; в противном случае его можно оценить.

Содержание
  • 1 Вычисление MSPE по данным вне выборки
  • 2 Оценка MSPE по населению
  • 3 См. Также
  • 4 Дальнейшее чтение
Вычисление MSPE по данным вне выборки
Дополнительная информация: перекрестная проверка (статистика)

Среднеквадратичная ошибка прогноза может быть вычислена точно в двух контекстах. Во- первых, с выборки данных длины п, то аналитик данных может запустить регрессии по сравнению только д точек данных (с д lt; п), сдерживая другие п - д точек данных с конкретной целью их использования для вычисления оценка MSPE модели вне выборки (т. е. без использования данных, которые использовались в процессе оценки модели). Поскольку процесс регрессии адаптирован к q точкам в выборке, обычно MSPE в выборке будет меньше, чем MSPE вне выборки, вычисленной по n - q точкам задержки. Если увеличение MSPE вне выборки по сравнению с в выборке относительно невелико, это приводит к положительному обзору модели. А если сравнивать две модели, то модель с более низким MSPE по n - q точкам данных вне выборки будет рассматриваться более благоприятно, независимо от относительных характеристик моделей в выборке. MSPE вне выборки в этом контексте является точным для точек данных вне выборки, по которым он был вычислен, но является просто оценкой MSPE модели для в основном ненаблюдаемой совокупности, из которой были взяты данные.

Во-вторых, со временем аналитику данных может стать доступно больше данных, и тогда MSPE может быть вычислен на основе этих новых данных.

Оценка MSPE по населению

Когда модель была оценена по всем доступным данным без каких-либо задержек, MSPE модели по всей совокупности в основном ненаблюдаемых данных можно оценить следующим образом.

Для модели где можно написать y я знак равно грамм ( Икс я ) + σ ε я {\ Displaystyle у_ {я} = г (х_ {я}) + \ сигма \ varepsilon _ {я}} ε я N ( 0 , 1 ) {\ Displaystyle \ varepsilon _ {я} \ sim {\ mathcal {N}} (0,1)}

п MSPE ( L ) знак равно грамм Т ( я - L ) Т ( я - L ) грамм + σ 2 tr [ L Т L ] . {\ Displaystyle п \ cdot \ OperatorName {MSPE} (L) = g ^ {\ text {T}} (IL) ^ {\ text {T}} (IL) g + \ sigma ^ {2} \ operatorname {tr} \ left [L ^ {\ text {T}} L \ right].}

При использовании значений данных в выборке первый член справа эквивалентен

я знак равно 1 п ( E [ грамм ( Икс я ) - грамм ^ ( Икс я ) ] ) 2 знак равно E [ я знак равно 1 п ( y я - грамм ^ ( Икс я ) ) 2 ] - σ 2 tr [ ( я - L ) Т ( я - L ) ] . {\ displaystyle \ sum _ {i = 1} ^ {n} \ left (\ operatorname {E} \ left [g (x_ {i}) - {\ widehat {g}} (x_ {i}) \ right]) \ right) ^ {2} = \ operatorname {E} \ left [\ sum _ {i = 1} ^ {n} \ left (y_ {i} - {\ widehat {g}} (x_ {i}) \ right) ^ {2} \ right] - \ sigma ^ {2} \ operatorname {tr} \ left [\ left (IL \ right) ^ {T} \ left (IL \ right) \ right].}

Таким образом,

п MSPE ( L ) знак равно E [ я знак равно 1 п ( y я - грамм ^ ( Икс я ) ) 2 ] - σ 2 ( п - tr [ L ] ) . {\ displaystyle n \ cdot \ operatorname {MSPE} (L) = \ operatorname {E} \ left [\ sum _ {i = 1} ^ {n} \ left (y_ {i} - {\ widehat {g}}) (x_ {i}) \ right) ^ {2} \ right] - \ sigma ^ {2} \ left (n- \ operatorname {tr} \ left [L \ right] \ right).}

Если известно или хорошо оценено, становится возможным оценить MSPE по σ 2 {\ displaystyle \ sigma ^ {2}} σ ^ 2 {\ displaystyle {\ widehat {\ sigma}} ^ {2}}

п M S п E ^ ( L ) знак равно я знак равно 1 п ( y я - грамм ^ ( Икс я ) ) 2 - σ ^ 2 ( п - tr [ L ] ) . {\ displaystyle n \ cdot \ operatorname {\ widehat {MSPE}} (L) = \ sum _ {i = 1} ^ {n} \ left (y_ {i} - {\ widehat {g}} (x_ {i }) \ right) ^ {2} - {\ widehat {\ sigma}} ^ {2} \ left (n- \ operatorname {tr} \ left [L \ right] \ right).}

Колин Мэллоус поддержал этот метод при построении своей статистики выбора модели C p, которая является нормализованной версией оцененного MSPE:

C п знак равно я знак равно 1 п ( y я - грамм ^ ( Икс я ) ) 2 σ ^ 2 - п + 2 п . {\ displaystyle C_ {p} = {\ frac {\ sum _ {i = 1} ^ {n} \ left (y_ {i} - {\ widehat {g}} (x_ {i}) \ right) ^ { 2}} {{\ widehat {\ sigma}} ^ {2}}} - n + 2p.}

где p - количество оцениваемых параметров p и вычисляется из версии модели, включающей все возможные регрессоры. Это завершает доказательство. σ ^ 2 {\ displaystyle {\ widehat {\ sigma}} ^ {2}}

Смотрите также
дальнейшее чтение
Последняя правка сделана 2024-01-02 04:11:05
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте