Средняя абсолютная ошибка в процентах

редактировать

Средняя абсолютная процентная ошибка ( МАПО), также известная как средний абсолютное отклонение в процентах ( МАПД), является мерой точности предсказания методы прогнозирования в статистике. Обычно точность выражается в виде отношения, определяемого формулой:

{\ displaystyle {\ t_dv {MAPE}} = {\ frac {100} {n}} \ sum _ {t = 1} ^ {n} \ left | {\ frac {A_ {t} -F_ {t}} {A_ {t}}} \ right |}

{\ displaystyle {\ t_dv {MAPE}} = {\ frac {100} {n}} \ sum _ {t = 1} ^ {n} \ left | {\ frac {A_ {t} -F_ {t}} {A_ {t}}} \ right |}

где A t - фактическое значение, а F t - прогнозное значение. Их разница делится на фактическое значение A t. Абсолютное значение этого отношения суммируется для каждого прогнозируемого момента времени и делится на количество подобранных точек n.

СОДЕРЖАНИЕ

1 MAPE в задачах регрессии
- 1.1 Определение
- 1.2 Последовательность
2 Альтернативные определения
3 вопроса
4 См. Также
5 Внешние ссылки
6 Ссылки

MAPE в задачах регрессии

Средняя абсолютная процентная ошибка обычно используется в качестве функции потерь для задач регрессии и при оценке модели из-за ее очень интуитивной интерпретации с точки зрения относительной ошибки.

Определение

Рассмотрим стандартную настройку регрессии, в которой данные полностью описывается случайной пары со значениями в и п IID копии из. Регрессионные модели направлены на нахождение хорошей модели для пары, которая является измеримой функцией г от до такого, что близко к Y. ${\ Displaystyle Z = (X, Y)}$ ${\ Displaystyle Z = (X, Y)}$ ${\ Displaystyle \ mathbb {R} ^ {d} \ times \ mathbb {R}}$ ${\ Displaystyle \ mathbb {R} ^ {d} \ times \ mathbb {R}}$ ${\ displaystyle (X_ {1}, Y_ {1}),..., (X_ {n}, Y_ {n})}$ ${\ displaystyle (X_ {1}, Y_ {1}),..., (X_ {n}, Y_ {n})}$ ${\ displaystyle (X, Y)}$ $(X, Y)$ ${\ Displaystyle \ mathbb {R} ^ {d}}$ $\ mathbb {R} ^ {d}$ ${\ Displaystyle \ mathbb {R}}$ $\ mathbb {R}$ ${\ displaystyle g (X)}$ $г (Х)$

В настройке классической регрессии близость к Y измеряется с помощью риска L 2, также называемого среднеквадратической ошибкой (MSE). В контексте регрессии MAPE близость к Y измеряется с помощью MAPE, и цель регрессии MAPE состоит в том, чтобы найти такую модель, которая: ${\ displaystyle g (X)}$ $г (Х)$ ${\ displaystyle g (X)}$ $г (Х)$ ${\ displaystyle g _ {\ text {MAPE}}}$ ${\ displaystyle g _ {\ text {MAPE}}}$

{\ displaystyle g _ {\ text {MAPE}} (x) = \ arg \ min _ {g \ in {\ mathcal {G}}} \ mathbb {E} \ left [\ left | {\ frac {g (X) -Y} {Y}} \ right || X = x \ right]}

{\ displaystyle g _ {\ text {MAPE}} (x) = \ arg \ min _ {g \ in {\ mathcal {G}}} \ mathbb {E} \ left [\ left | {\ frac {g (X) -Y} {Y}} \ right || X = x \ right]}

где - класс рассматриваемых моделей (например, линейные модели). ${\ Displaystyle {\ mathcal {G}}}$ ${\ mathcal {G}}$

На практике

На практике можно оценить с помощью стратегии минимизации эмпирического риска, приводящей к ${\ displaystyle g _ {\ text {MAPE}} (х)}$ ${\ displaystyle g _ {\ text {MAPE}} (х)}$

{\ displaystyle {\ widehat {g}} _ {\ text {MAPE}} (x) = \ arg \ min _ {g \ in {\ mathcal {G}}} \ sum _ {i = 1} ^ {n } \ left | {\ frac {g (X_ {i}) - Y_ {i}} {Y_ {i}}} \ right |}

{\ displaystyle {\ widehat {g}} _ {\ text {MAPE}} (x) = \ arg \ min _ {g \ in {\ mathcal {G}}} \ sum _ {i = 1} ^ {n } \ left | {\ frac {g (X_ {i}) - Y_ {i}} {Y_ {i}}} \ right |}

С практической точки зрения использование MAPE в качестве функции качества для регрессионной модели эквивалентно выполнению регрессии взвешенной средней абсолютной ошибки (MAE), также известной как квантильная регрессия. Это свойство тривиально, поскольку

{\ displaystyle {\ widehat {g}} _ {\ text {MAPE}} (x) = \ arg \ min _ {g \ in {\ mathcal {G}}} \ sum _ {i = 1} ^ {n } \ omega (Y_ {i}) \ left | g (X_ {i}) - Y_ {i} \ right | {\ t_dv {with}} \ omega (Y_ {i}) = \ left | {\ frac { 1} {Y_ {i}}} \ right |}

{\ displaystyle {\ widehat {g}} _ {\ text {MAPE}} (x) = \ arg \ min _ {g \ in {\ mathcal {G}}} \ sum _ {i = 1} ^ {n } \ omega (Y_ {i}) \ left | g (X_ {i}) - Y_ {i} \ right | {\ t_dv {with}} \ omega (Y_ {i}) = \ left | {\ frac { 1} {Y_ {i}}} \ right |}

Как следствие, использование MAPE очень просто на практике, например, с использованием существующих библиотек для квантильной регрессии, позволяющей использовать веса.

Последовательность

Использование MAPE в качестве функции потерь для регрессионного анализа возможно как с практической, так и с теоретической точки зрения, поскольку можно доказать существование оптимальной модели и согласованность минимизации эмпирического риска.

Альтернативные определения

Проблемы могут возникнуть при вычислении значения MAPE с рядом малых знаменателей. Может возникнуть проблема сингулярности в форме «единица, деленная на ноль» и / или создание очень больших изменений абсолютной процентной ошибки, вызванных небольшим отклонением в ошибке.

В качестве альтернативы каждое фактическое значение ( A t) ряда в исходной формуле может быть заменено средним значением всех фактических значений ( Ā t) этого ряда. Эта альтернатива все еще используется для измерения эффективности моделей, прогнозирующих спотовые цены на электроэнергию.

Обратите внимание, что это эквивалентно делению суммы абсолютных разностей на сумму фактических значений и иногда называется WAPE (взвешенная абсолютная процентная ошибка) или wMAPE (взвешенная средняя абсолютная процентная ошибка).

Проблемы

Хотя концепция MAPE звучит очень просто и убедительно, у нее есть серьезные недостатки в практическом применении, и существует множество исследований недостатков и вводящих в заблуждение результатов MAPE.

Его нельзя использовать, если есть нулевые значения (что иногда случается, например, в данных спроса), потому что будет деление на ноль.
Для слишком низких прогнозов процентная ошибка не может превышать 100%, но для слишком высоких прогнозов нет верхнего предела процентной ошибки.
MAPE налагает более серьезные штрафы на отрицательные ошибки, чем на положительные. Как следствие, когда MAPE используется для сравнения точности методов прогнозирования, он систематически выбирает метод, прогнозы которого слишком занижены. Эта малоизвестная, но серьезная проблема может быть преодолена с помощью меры точности, основанной на логарифме отношения точности (отношения прогнозируемого к фактическому значению), определяемого выражением. Этот подход приводит к превосходным статистическим свойствам и прогнозам, которые можно интерпретировать с точки зрения среднего геометрического. ${\ displaystyle A_ {t} lt;F_ {t}}$ ${\ displaystyle A_ {t} lt;F_ {t}}$ ${\ displaystyle \ log \ left ({\ frac {\ text {predicted}} {\ text {actual}}} \ right)}$ ${\ displaystyle \ log \ left ({\ frac {\ text {predicted}} {\ text {actual}}} \ right)}$
Люди часто думают, что MAPE будет оптимизирован по медиане. Но, например, нормальный журнал имеет медианное значение, в котором он оптимизирован для MAPE. ${\ displaystyle e ^ {\ mu}}$ ${\ displaystyle e ^ {\ mu}}$ ${\ Displaystyle е ^ {\ му - \ sigma ^ {2}}}$ ${\ Displaystyle е ^ {\ му - \ sigma ^ {2}}}$

Чтобы преодолеть эти проблемы с MAPE, в литературе предлагаются некоторые другие меры:

Средняя абсолютная масштабированная ошибка (MASE)
Симметричная средняя абсолютная ошибка в процентах (sMAPE)
Средняя направленная точность (MDA)
Средняя арктангенсная абсолютная процентная ошибка (MAAPE): MAAPE - это новый показатель абсолютной процентной ошибки, который был разработан с учетом взгляда на MAPE под другим углом. По сути, MAAPE - это наклон как угол, а MAPE - это наклон как отношение.

Смотрите также

внешние ссылки

использованная литература