Среднеквадратичная ошибка прогноза

редактировать

В статистике средний квадрат ошибки предсказания или средний квадрат ошибки предсказания одного сглаживания или аппроксимации кривой процедуры является ожидаемое значение квадрата разности между подобранными значениями подразумеваемых прогнозирующей функции и значений (ненаблюдаемой) функции г. Это обратная мера объяснительной силы, которую можно использовать в процессе перекрестной проверки оценочной модели. ${\ displaystyle {\ widehat {g}}}$ $\ widehat {g}$ ${\ displaystyle {\ widehat {g}},}$ ${\ displaystyle {\ widehat {g}},}$

Если процедура сглаживания или аппроксимации имеет матрицу проекции (т. Е. Матрицу шляпы) L, которая отображает вектор наблюдаемых значений в вектор предсказанных значений через то ${\ displaystyle y}$ $y$ ${\ displaystyle {\ hat {y}}}$ ${\ hat {y}}$ ${\ displaystyle {\ hat {y}} = Ly,}$ ${\ displaystyle {\ hat {y}} = Ly,}$

{\ displaystyle \ operatorname {MSPE} (L) = \ operatorname {E} \ left [\ left (g (x_ {i}) - {\ widehat {g}} (x_ {i}) \ right) ^ {2 }\право].}

\ operatorname {MSPE} (L) = \ operatorname {E} \ left [\ left (g (x_ {i}) - \ widehat {g} (x_ {i}) \ right) ^ {2} \ right].

MSPE можно разложить на два члена: среднее квадратов систематических ошибок подобранных значений и среднее значение дисперсии подобранных значений:

{\ displaystyle n \ cdot \ operatorname {MSPE} (L) = \ sum _ {i = 1} ^ {n} \ left (\ operatorname {E} \ left [{\ widehat {g}} (x_ {i})) \ right] -g (x_ {i}) \ right) ^ {2} + \ sum _ {i = 1} ^ {n} \ operatorname {var} \ left [{\ widehat {g}} (x_ { Я прав].}

{\ displaystyle n \ cdot \ operatorname {MSPE} (L) = \ sum _ {i = 1} ^ {n} \ left (\ operatorname {E} \ left [{\ widehat {g}} (x_ {i})) \ right] -g (x_ {i}) \ right) ^ {2} + \ sum _ {i = 1} ^ {n} \ operatorname {var} \ left [{\ widehat {g}} (x_ { Я прав].}

Знание g требуется для точного расчета MSPE; в противном случае его можно оценить.

Содержание

1 Вычисление MSPE по данным вне выборки
2 Оценка MSPE по населению
3 См. Также
4 Дальнейшее чтение

Вычисление MSPE по данным вне выборки

Дополнительная информация: перекрестная проверка (статистика)

Среднеквадратичная ошибка прогноза может быть вычислена точно в двух контекстах. Во- первых, с выборки данных длины п, то аналитик данных может запустить регрессии по сравнению только д точек данных (с д lt; п), сдерживая другие п - д точек данных с конкретной целью их использования для вычисления оценка MSPE модели вне выборки (т. е. без использования данных, которые использовались в процессе оценки модели). Поскольку процесс регрессии адаптирован к q точкам в выборке, обычно MSPE в выборке будет меньше, чем MSPE вне выборки, вычисленной по n - q точкам задержки. Если увеличение MSPE вне выборки по сравнению с в выборке относительно невелико, это приводит к положительному обзору модели. А если сравнивать две модели, то модель с более низким MSPE по n - q точкам данных вне выборки будет рассматриваться более благоприятно, независимо от относительных характеристик моделей в выборке. MSPE вне выборки в этом контексте является точным для точек данных вне выборки, по которым он был вычислен, но является просто оценкой MSPE модели для в основном ненаблюдаемой совокупности, из которой были взяты данные.

Во-вторых, со временем аналитику данных может стать доступно больше данных, и тогда MSPE может быть вычислен на основе этих новых данных.

Оценка MSPE по населению

Когда модель была оценена по всем доступным данным без каких-либо задержек, MSPE модели по всей совокупности в основном ненаблюдаемых данных можно оценить следующим образом.

Для модели где можно написать ${\ Displaystyle у_ {я} = г (х_ {я}) + \ сигма \ varepsilon _ {я}}$ $y_ {i} = g (x_ {i}) + \ sigma \ varepsilon _ {i}$ ${\ Displaystyle \ varepsilon _ {я} \ sim {\ mathcal {N}} (0,1)}$ $\ varepsilon _ {i} \ sim {\ mathcal {N}} (0,1)$

{\ Displaystyle п \ cdot \ OperatorName {MSPE} (L) = g ^ {\ text {T}} (IL) ^ {\ text {T}} (IL) g + \ sigma ^ {2} \ operatorname {tr} \ left [L ^ {\ text {T}} L \ right].}

{\ Displaystyle п \ cdot \ OperatorName {MSPE} (L) = g ^ {\ text {T}} (IL) ^ {\ text {T}} (IL) g + \ sigma ^ {2} \ operatorname {tr} \ left [L ^ {\ text {T}} L \ right].}

При использовании значений данных в выборке первый член справа эквивалентен

{\ displaystyle \ sum _ {i = 1} ^ {n} \ left (\ operatorname {E} \ left [g (x_ {i}) - {\ widehat {g}} (x_ {i}) \ right]) \ right) ^ {2} = \ operatorname {E} \ left [\ sum _ {i = 1} ^ {n} \ left (y_ {i} - {\ widehat {g}} (x_ {i}) \ right) ^ {2} \ right] - \ sigma ^ {2} \ operatorname {tr} \ left [\ left (IL \ right) ^ {T} \ left (IL \ right) \ right].}

{\ displaystyle \ sum _ {i = 1} ^ {n} \ left (\ operatorname {E} \ left [g (x_ {i}) - {\ widehat {g}} (x_ {i}) \ right]) \ right) ^ {2} = \ operatorname {E} \ left [\ sum _ {i = 1} ^ {n} \ left (y_ {i} - {\ widehat {g}} (x_ {i}) \ right) ^ {2} \ right] - \ sigma ^ {2} \ operatorname {tr} \ left [\ left (IL \ right) ^ {T} \ left (IL \ right) \ right].}

Таким образом,

{\ displaystyle n \ cdot \ operatorname {MSPE} (L) = \ operatorname {E} \ left [\ sum _ {i = 1} ^ {n} \ left (y_ {i} - {\ widehat {g}}) (x_ {i}) \ right) ^ {2} \ right] - \ sigma ^ {2} \ left (n- \ operatorname {tr} \ left [L \ right] \ right).}

{\ displaystyle n \ cdot \ operatorname {MSPE} (L) = \ operatorname {E} \ left [\ sum _ {i = 1} ^ {n} \ left (y_ {i} - {\ widehat {g}}) (x_ {i}) \ right) ^ {2} \ right] - \ sigma ^ {2} \ left (n- \ operatorname {tr} \ left [L \ right] \ right).}

Если известно или хорошо оценено, становится возможным оценить MSPE по ${\ displaystyle \ sigma ^ {2}}$ $\ sigma ^ {2}$ ${\ displaystyle {\ widehat {\ sigma}} ^ {2}}$ $\ widehat {\ sigma} ^ {2}$

{\ displaystyle n \ cdot \ operatorname {\ widehat {MSPE}} (L) = \ sum _ {i = 1} ^ {n} \ left (y_ {i} - {\ widehat {g}} (x_ {i }) \ right) ^ {2} - {\ widehat {\ sigma}} ^ {2} \ left (n- \ operatorname {tr} \ left [L \ right] \ right).}

{\ displaystyle n \ cdot \ operatorname {\ widehat {MSPE}} (L) = \ sum _ {i = 1} ^ {n} \ left (y_ {i} - {\ widehat {g}} (x_ {i }) \ right) ^ {2} - {\ widehat {\ sigma}} ^ {2} \ left (n- \ operatorname {tr} \ left [L \ right] \ right).}

Колин Мэллоус поддержал этот метод при построении своей статистики выбора модели C p, которая является нормализованной версией оцененного MSPE:

{\ displaystyle C_ {p} = {\ frac {\ sum _ {i = 1} ^ {n} \ left (y_ {i} - {\ widehat {g}} (x_ {i}) \ right) ^ { 2}} {{\ widehat {\ sigma}} ^ {2}}} - n + 2p.}

{\ displaystyle C_ {p} = {\ frac {\ sum _ {i = 1} ^ {n} \ left (y_ {i} - {\ widehat {g}} (x_ {i}) \ right) ^ { 2}} {{\ widehat {\ sigma}} ^ {2}}} - n + 2p.}

где p - количество оцениваемых параметров p и вычисляется из версии модели, включающей все возможные регрессоры. Это завершает доказательство. ${\ displaystyle {\ widehat {\ sigma}} ^ {2}}$ $\ widehat {\ sigma} ^ {2}$

Смотрите также

дальнейшее чтение

Пиндик, Роберт С. ; Рубинфельд, Даниэль Л. (1991). «Прогнозирование с использованием моделей временных рядов». Эконометрические модели и экономические прогнозы (3-е изд.). Нью-Йорк: Макгроу-Хилл. С. 516–535. ISBN 0-07-050098-3.