Симметричная средняя абсолютная ошибка в процентах

редактировать

Симметричная средняя абсолютная процентная ошибка (SMAPE или sMAPE) - это мера точности, основанная на процентных (или относительных) ошибках. Обычно это определяется следующим образом:

{\ displaystyle {\ text {SMAPE}} = {\ frac {100 \%} {n}} \ sum _ {t = 1} ^ {n} {\ frac {\ left | F_ {t} -A_ {t } \ right |} {(| A_ {t} | + | F_ {t} |) / 2}}}

{\ displaystyle {\ text {SMAPE}} = {\ frac {100 \%} {n}} \ sum _ {t = 1} ^ {n} {\ frac {\ left | F_ {t} -A_ {t } \ right |} {(| A_ {t} | + | F_ {t} |) / 2}}}

где A t - фактическое значение, а F t - прогнозное значение.

Абсолютная разность между A T и F т делится на половину суммы абсолютных значений фактического значения A T и прогнозируемое значение F т. Значение этого вычисления суммируется для каждой подобранной точки t и снова делится на количество подобранных точек n.

Самой ранней ссылкой на подобную формулу, по-видимому, является Армстронг (1985, стр. 348), где она называется «скорректированная MAPE » и определяется без абсолютных значений в знаменателе. Позднее он был обсужден, изменен и повторно предложен Флоресом (1986).

Оригинальное определение Армстронга выглядит следующим образом:

{\ displaystyle {\ text {SMAPE}} = {\ frac {1} {n}} \ sum _ {t = 1} ^ {n} {\ frac {\ left | F_ {t} -A_ {t} \ вправо |} {(A_ {t} + F_ {t}) / 2}}}

{\ displaystyle {\ text {SMAPE}} = {\ frac {1} {n}} \ sum _ {t = 1} ^ {n} {\ frac {\ left | F_ {t} -A_ {t} \ вправо |} {(A_ {t} + F_ {t}) / 2}}}

Проблема в том, что оно может быть отрицательным (если) или даже неопределенным (если). Поэтому в принятой в настоящее время версии SMAPE абсолютные значения указаны в знаменателе. ${\ displaystyle A_ {t} + F_ {t} lt;0}$ ${\ displaystyle A_ {t} + F_ {t} lt;0}$ ${\ displaystyle A_ {t} + F_ {t} = 0}$ ${\ displaystyle A_ {t} + F_ {t} = 0}$

В отличие от средней абсолютной ошибки в процентах, SMAPE имеет как нижнюю, так и верхнюю границы. Действительно, приведенная выше формула дает результат от 0% до 200%. Однако процентную ошибку от 0% до 100% интерпретировать гораздо проще. По этой причине на практике часто используется приведенная ниже формула (т.е. без коэффициента 0,5 в знаменателе):

{\ displaystyle {\ text {SMAPE}} = {\ frac {100 \%} {n}} \ sum _ {t = 1} ^ {n} {\ frac {| F_ {t} -A_ {t} | } {| A_ {t} | + | F_ {t} |}}}

{\ displaystyle {\ text {SMAPE}} = {\ frac {100 \%} {n}} \ sum _ {t = 1} ^ {n} {\ frac {| F_ {t} -A_ {t} | } {| A_ {t} | + | F_ {t} |}}}

В приведенной выше формуле, если, то t-й член в суммировании равен 0, поскольку процент ошибки между ними явно равен 0, а значение не определено. ${\ Displaystyle A_ {t} = F_ {t} = 0}$ ${\ Displaystyle A_ {t} = F_ {t} = 0}$ ${\ displaystyle {\ frac {| 0-0 |} {| 0 | + | 0 |}}}$ ${\ displaystyle {\ frac {| 0-0 |} {| 0 | + | 0 |}}}$

Одна предполагаемая проблема со SMAPE заключается в том, что он не является симметричным, поскольку завышенные и заниженные прогнозы не рассматриваются одинаково. Это иллюстрируется следующим примером применения второй формулы SMAPE:

Завышение прогноза: A t = 100 и F t = 110 дает SMAPE = 4,76%
Недооценка: A t = 100 и F t = 90 дает SMAPE = 5,26%.

Однако следует ожидать такой симметрии только для мер, которые полностью основаны на различиях, а не относительны (например, среднеквадратичная ошибка и среднее абсолютное отклонение).

Существует третья версия SMAPE, которая позволяет измерять направление смещения в данных путем создания положительной и отрицательной ошибки на уровне отдельных позиций. Кроме того, она лучше защищена от выбросов и эффекта смещения, упомянутого в предыдущем абзаце, чем две другие формулы. Формула:

{\ displaystyle {\ text {SMAPE}} = {\ frac {\ sum _ {t = 1} ^ {n} \ left | F_ {t} -A_ {t} \ right |} {\ sum _ {t = 1} ^ {n} (A_ {t} + F_ {t})}}}

{\ displaystyle {\ text {SMAPE}} = {\ frac {\ sum _ {t = 1} ^ {n} \ left | F_ {t} -A_ {t} \ right |} {\ sum _ {t = 1} ^ {n} (A_ {t} + F_ {t})}}}

Ограничение SMAPE заключается в том, что если фактическое или прогнозируемое значение равно 0, значение ошибки резко возрастет до верхнего предела ошибки. (200% для первой формулы и 100% для второй формулы).

Если данные строго положительны, лучший показатель относительной точности может быть получен на основе логарифма коэффициента точности: log ( F t / A t). Этот показатель легче поддается статистическому анализу, и он обладает ценными свойствами симметрии и несмещенности. При использовании при построении моделей прогнозирования результирующий прогноз соответствует среднему геометрическому (Tofallis, 2015).

Смотрите также

Рекомендации

Армстронг, Дж. С. (1985) Долгосрочное прогнозирование: от хрустального шара к компьютеру, 2-е. изд. Вайли. ISBN 978-0-471-82260-8
Флорес, Б.Э. (1986) «Прагматический взгляд на измерение точности в прогнозировании», Omega (Oxford), 14 (2), 93–98. DOI : 10,1016 / 0305-0483 (86) 90013-7
Тофаллис, К. (2015) «Лучшая мера относительной точности прогнозов для выбора модели и оценки модели», Журнал Общества операционных исследований, 66 (8), 1352-1362. архивный препринт

внешние ссылки

Роб Дж. Хайндман: ошибки в процентах