Оценка Бриера - это правильная функция оценки, которая измеряет точность вероятностных прогнозов. Для одномерных прогнозов это строго эквивалентно среднеквадратической ошибке.
Оценка Бриера применима к задачам, в которых прогнозы должны назначать вероятности набору взаимоисключающих дискретных результатов. Набор возможных результатов может быть бинарным или категориальным по своей природе, и вероятности, присвоенные этому набору результатов, должны в сумме равняться единице (где каждая индивидуальная вероятность находится в диапазоне от 0 до 1). Он был предложен Гленном В. Брайером в 1950 году.
Показатель Брайера можно рассматривать как функцию стоимости. Точнее, по всем элементам в наборе из N прогнозов показатель Бриера измеряет средний квадрат разница между:
Следовательно, чем ниже оценка Брайера для набор прогнозов, тем лучше прогнозы откалиброваны. Обратите внимание, что показатель Бриера в его наиболее распространенной формулировке принимает значение от нуля до единицы, поскольку это квадрат наибольшей возможной разницы между предсказанной вероятностью (которая должна быть между нулем и единицей) и фактическим результатом (которая может принимать значения только 0 или 1). В первоначальной (1950 г.) формулировке шкалы Брайера диапазон удваивается, от нуля до двух.
Оценка Бриера подходит для двоичных и категориальных результатов, которые могут быть структурированы как истинные или ложные, но не подходит для порядковых переменных, которые могут принимать три или более значений.
Наиболее распространенная формулировка оценки Брайера составляет
где - вероятность того, что прогноз, фактический результат события в экземпляре (, если этого не произошло, и , если это произошло) и - количество экземпляров прогнозирования. По сути, это среднеквадратичная ошибка прогноза. Эта формулировка в основном используется для двоичных событий (например, «дождь» или «без дождя»). Вышеприведенное уравнение является правильным правилом оценки только для двоичных событий; если должен оцениваться прогноз по нескольким категориям, то следует использовать исходное определение, данное Бриером ниже.
Предположим, что кто-то прогнозирует вероятность того, что в данный день пойдет дождь. Затем оценка Брайера рассчитывается следующим образом:
Хотя приведенная выше формулировка является наиболее широко используемой, исходное определение Брайера применимо. e для прогнозов по нескольким категориям, а также остается правильным правилом оценки, в то время как двоичная форма (используемая в примерах выше) подходит только для двоичных событий. Для бинарных прогнозов исходная формулировка «вероятностной оценки Бриера» имеет двойное значение оценки, известной в настоящее время как оценка Брайера.
в котором - количество возможных классов, в которые может попасть событие, а - общее количество экземпляров всех классов. Для случая Дождь / Без дождя , а для прогноза Холодный / Нормальный / Теплый, .
Есть несколько разложений оценки Бриера, которые обеспечивают более глубокое понимание поведения двоичного классификатора.
Оценка Бриера может быть разложена на 3 дополнительных компонента: неопределенность, надежность и разрешение. (Мерфи 1973)
Каждый из этих компонентов может быть дополнительно разложен в соответствии с количеством возможных классов, в которые может попасть событие. Злоупотребление знаком равенства:
Если - общее количество выданных прогнозов, количество выданных уникальных прогнозов, наблюдаемая климатологическая базовая скорость события, количество прогнозов с той же категорией вероятности и наблюдаемая частота, учитывая прогнозы вероятности . Жирное обозначение в приведенной выше формуле указывает векторы, что является еще одним способом обозначить исходное определение оценки и разложить его в соответствии с количеством возможных классов, в которые может попасть событие. Например, вероятность дождя 70% и отсутствие дождя обозначаются как и соответственно. Считается, что такие операции, как возведение в квадрат и умножение этих векторов, покомпонентны. В этом случае оценка Брайера представляет собой сумму результирующего вектора в правой части.
Термин неопределенности измеряет внутреннюю неопределенность результатов события. Для бинарных событий он максимален, когда каждый результат происходит в 50% случаев, и минимален (ноль), если результат всегда возникает или никогда не происходит.
Термин надежности измеряет, насколько близки вероятности прогноза к истинным вероятностям для данного прогноза. Надежность определяется в противоположном направлении по сравнению с английским языком. Если надежность равна 0, прогноз абсолютно надежен. Например, если мы сгруппируем все случаи прогноза, в которых вероятность дождя составляла 80%, мы получим идеальную надежность только в том случае, если дождь шел 4 из 5 раз после выпуска такого прогноза.
Термин разрешающей способности измеряет, насколько условные вероятности с учетом различных прогнозов отличаются от среднего климатического значения. Чем выше этот срок, тем лучше. В худшем случае, когда климатическая вероятность всегда прогнозируется, разрешение равно нулю. В лучшем случае, когда условные вероятности равны нулю и единице, разрешающая способность равна неопределенности.
Альтернативная (и связанная с ней) декомпозиция генерирует два члена вместо трех.
Первый член называется калибровкой (и может использоваться как мера калибровки, см. статистическая калибровка ) и приравнивается к надежности. Второй член известен как уточнение и представляет собой совокупность разрешающей способности и неопределенности и относится к области под кривой ROC.
Оценка Бриера и разложение CAL + REF могут быть представлены графически с помощью так называемых кривых Бриера, где ожидаемые потери показаны для каждого рабочего состояния. Это делает показатель Бриера мерой агрегированной производительности при равномерном распределении асимметрии классов.
Оценка Бриера становится неадекватной для очень редких (или очень частых) событий, потому что это не так. в достаточной степени различать небольшие изменения прогноза, значимые для редких событий. Wilks (2010) обнаружил, что «[Q] достаточно большие размеры выборки, то есть n>1000, требуются для высококвалифицированных прогнозов относительно редких событий, тогда как только весьма скромные размеры выборки необходимы для низкоквалифицированных прогнозов обычных событий. "