Среднеквадратичное отклонение

редактировать

Среднеквадратичное отклонение (RMSD ) или среднеквадратичная ошибка (RMSE ) - часто используемая мера различий между значениями (значениями выборки или генеральной совокупности), предсказанными моделью или оценщиком и наблюдаемые значения. RMSD представляет собой квадратный корень из второго момента выборки разностей между предсказанными и наблюдаемыми значениями или среднее квадратичное этих различий. Эти отклонения называются остатками, когда вычисления выполняются по выборке данных, которая использовалась для оценки, и называются ошибками (или ошибками прогнозирования) при вычислении вне выборки. RMSD служит для агрегирования величин ошибок в прогнозах за разное время в единую меру предсказательной силы. RMSD - это мера точности для сравнения ошибок прогнозирования различных моделей для конкретного набора данных, а не между наборами данных, поскольку он зависит от масштаба.

RMSD всегда неотрицательно, и значение 0 (почти никогда не достигается на практике) указывает на полное соответствие данным. В общем, более низкое RMSD лучше, чем более высокое. Однако сравнения между разными типами данных будут недопустимыми, поскольку мера зависит от масштаба используемых чисел.

RMSD - это квадратный корень из среднего квадрата ошибок. Влияние каждой ошибки на RMSD пропорционально величине квадратичной ошибки; таким образом, большие ошибки имеют непропорционально большое влияние на RMSD. Следовательно, RMSD чувствителен к выбросам.

Содержание

  • 1 Формула
  • 2 Нормализация
  • 3 Связанные меры
  • 4 Приложения
  • 5 См. Также
  • 6 Ссылки

Формула

RMSD оценщика θ ^ {\ displaystyle {\ hat {\ theta}}}\ hat {\ theta} по отношению к оцениваемому параметру θ {\ displaystyle \ theta}\ theta определяется как квадратный корень из среднеквадратичной ошибки :

RMSD ⁡ (θ ^) = MSE ⁡ (θ ^) = E ⁡ ((θ ^ - θ) 2). {\ displaystyle \ operatorname {RMSD} ({\ hat {\ theta}}) = {\ sqrt {\ operatorname {MSE} ({\ hat {\ theta}})}} = {\ sqrt {\ operatorname {E} (({\ hat {\ theta}} - \ theta) ^ {2})}}.}\ operatorname {RMSD} (\ hat {\ theta}) = \ sqrt {\ operatorname {MSE} (\ hat {\ theta})} = \ sqrt {\ operatorname {E} (( \ hat {\ theta} - \ theta) ^ 2)}.

Для несмещенной оценки RMSD - это квадратный корень из дисперсии, известный как стандартное отклонение.

RMSD предсказанных значений y ^ t {\ displaystyle {\ hat {y}} _ {t}}\ hat y_t для времен t регрессии зависимая переменная yt, {\ displaystyle y_ {t},}{\ displaystyle y_ {t},} с переменными, наблюдаемыми в течение T раз, вычисляется для T различных прогнозов как квадратный корень из среднего квадратов отклонений:

RMSD = ∑ t = 1 T (y ^ t - yt) 2 T. {\ displaystyle \ operatorname {RMSD} = {\ sqrt {\ frac {\ sum _ {t = 1} ^ {T} ({\ hat {y}} _ {t} -y_ {t}) ^ {2} } {T}}}.}{\ displaystyle \ operatorname {RMSD} = {\ sqrt {\ frac {\ sum _ {t = 1} ^ {T} ({\ hat {y}} _ {t} -y_ {t}) ^ {2}} {T}}}.}

(Для регрессий на данных поперечного сечения индекс t заменяется на i, а T заменяется на n.)

В некоторых дисциплинах, RMSD используется для сравнения различий между двумя вещами, которые могут различаться, ни одна из которых не считается «стандартной». Например, при измерении средней разницы между двумя временными рядами x 1, t {\ displaystyle x_ {1, t}}x_ {1, t} и x 2, t {\ displaystyle x_ {2, t}}x_ {2, t} , формула принимает вид

RMSD = ∑ t = 1 T (x 1, t - x 2, t) 2 T. {\ displaystyle \ operatorname {RMSD} = {\ sqrt {\ frac {\ sum _ {t = 1} ^ {T} (x_ {1, t} -x_ {2, t}) ^ {2}} {T }}}.}{\ displaystyle \ operatorname {RMSD} = {\ sqrt {\ frac {\ sum _ {t = 1} ^ {T} (x_ {1, t} -x_ {2, t}) ^ {2}} {T}}}.}

Нормализация

Нормализация RMSD упрощает сравнение между наборами данных или моделями с разными масштабами. Хотя в литературе нет последовательных средств нормализации, обычно выбирают среднее значение или диапазон (определяемый как максимальное значение минус минимальное значение) измеренных данных:

NRMSD = RMSD y max - y min {\ displaystyle \ mathrm {NRMSD} = {\ frac {\ mathrm {RMSD}} {y _ {\ max} -y _ {\ min}}}}\ mathrm {NRMSD} = \ frac {\ mathrm {RMSD}} {y_ \ max -y_ \ min} или NRMSD = RMSD y ¯ {\ displaystyle \ mathrm {NRMSD} = {\ frac {\ mathrm {RMSD}} {\ bar {y}}}}{\ displaystyle \ mathrm {NRMSD} = {\ frac {\ mathrm {RMSD}} {\ bar {y}}}} .

Это значение обычно называют нормализованным среднеквадратичным отклонением или ошибкой (NRMSD или NRMSE), и часто выражается в процентах, где более низкие значения указывают на меньшую остаточную дисперсию. Во многих случаях, особенно для небольших выборок, на диапазон выборки, вероятно, влияет размер выборки, что затрудняет сравнения.

Еще один возможный метод сделать RMSD более полезной мерой сравнения - это разделить RMSD на межквартильный диапазон. При делении RMSD на IQR нормализованное значение становится менее чувствительным к экстремальным значениям целевой переменной.

RMSDIQR = RMSDIQR {\ displaystyle \ mathrm {RMSDIQR} = {\ frac {\ mathrm {RMSD}} {IQR}}}{\ displaystyle \ mathrm {RMSDIQR} = {\ frac {\ mathrm {RMSD}} {IQR}}} где IQR = Q 3 - Q 1 {\ displaystyle IQR = Q_ {3} -Q_ {1}}{\ displaystyle IQR = Q_ {3} -Q_ {1}}

с Q 1 = CDF - 1 (0,25) {\ displaystyle Q_ {1} = {\ text {CDF}} ^ {- 1} (0,25)}{\ displaystyle Q_ {1} = {\ text {CDF}} ^ {- 1} (0.25)} и Q 3 = CDF - 1 (0,75), {\ displaystyle Q_ {3} = {\ text {CDF}} ^ {- 1} (0,75),}Q_3 = \ text {CDF} ^ {- 1} (0,75), где CDF - это функция квантиля..

При нормализации на среднее значение измерений можно использовать термин «коэффициент вариации RMSD, CV (RMSD), чтобы избежать двусмысленности». Это аналогично коэффициенту вариации , где RMSD занимает место стандартного отклонения.

C V (R M S D) = R M S D y ¯. {\ displaystyle \ mathrm {CV (RMSD)} = {\ frac {\ mathrm {RMSD}} {\ bar {y}}}.}{\ displaystyle \ mathrm {CV (RMSD)} = {\ frac {\ mathrm {RMSD}} {\ bar {y}} }.}

Сопутствующие меры

Некоторые исследователи рекомендуют использовать Средняя абсолютная ошибка (MAE) вместо среднеквадратичного отклонения. MAE обладает преимуществами в интерпретируемости перед RMSD. MAE - это среднее абсолютных значений ошибок. MAE принципиально легче понять, чем квадратный корень из среднего квадрата ошибок. Более того, каждая ошибка влияет на MAE прямо пропорционально абсолютному значению ошибки, что не относится к RMSD.

Приложения

См. также

Ссылки

  1. ^Hyndman, Роб Дж.; Келер, Энн Б. (2006). «Еще один взгляд на меры точности прогнозов». Международный журнал прогнозирования. 22 (4): 679–688. CiteSeerX 10.1.1.154.9771. doi : 10.1016 / j.ijforecast.2006.03.001.
  2. ^ Понтиус, Роберт; Тонттех, Олуфунмилайо; Чен, Хао (2008). «Компоненты информации для сравнения нескольких разрешений между картами, имеющими реальную переменную». Экологическая экологическая статистика. 15 (2): 111–142. doi : 10.1007 / s10651-007-0043-y.
  3. ^Уиллмотт, Корт; Мацуура, Кендзи (2006). «Об использовании размерных мер ошибки для оценки производительности пространственных интерполяторов». Международный журнал географической информатики. 20 : 89–102. doi : 10.1080 / 13658810500286976.
  4. ^"Wiki - статистика программы исследования прибрежных заливов (CIRP)". Проверено 4 февраля 2015 г.
  5. ^«Вопросы и ответы: что такое коэффициент вариации?». Проверено 19 февраля 2019 г.
  6. ^Армстронг, Дж. Скотт; Коллопи, Фред (1992). «Меры погрешностей для обобщения методов прогнозирования: эмпирические сравнения» (PDF). Международный журнал прогнозирования. 8 (1): 69–80. CiteSeerX 10.1.1.423.508. doi : 10.1016 / 0169-2070 (92) 90008-w.
  7. ^Anderson, M.P.; Woessner, W.W. (1992). Прикладное моделирование подземных вод: моделирование потока и адвективного переноса (2-е изд.). Academic Press.
  8. ^Модель ансамблевой нейронной сети
  9. ^ANSI / BPI-2400-S-2012: Стандартная практика для стандартизованной квалификации прогнозов энергосбережения для всего дома путем калибровки по истории использования энергии
Последняя правка сделана 2021-06-04 10:09:31
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте