Меры оценки (поиск информации)

редактировать

Меры оценки для системы поиска информации используются для оценки того, насколько хорошо результаты поиска удовлетворили намерения пользователя. Такие метрики часто делятся на виды: онлайн-метрики оценивают взаимодействие пользователей с поисковой системой, офлайновые метрики измеряют релевантность, другими словами, насколько вероятен каждый результат, или страница страницы результатов поисковой системы (SERP) как в целом, это удовлетворение информационных потребностей пользователя.

Содержание

1 Обозначение
2 Онлайн-метрики
- 2.1 Частота прерывания сеанса
- 2.2 CTR
- 2.3 Коэффициент успешности сеанса
- 2.4 Нулевой процент результатов
3 Офлайн-метрики
- 3.1 Точность
- 3.2 Вызов
- 3.3 Выпадение
- 3.4 F-оценка / F-мера
- 3.5 Средняя точность
- 3.6 Точность при K
- 3.7 R-Precision
- 3.8 Средняя точность
- 3.9 Дисконтированный совокупный выигрыш
- 3.10 Другие показатели
- 3.11 Визуализация
4 Неметрики
- 4.1 Список популярных запросов
5 Показатели неактуальности
- 5.1 Запросы за раз
6 См. также
7 Ссылки

Обозначение

Математические символы, используемые в формулах ниже, означают:

$X ∩ Y {\ displaystyle X \ cap Y}$ $X \ cap Y$ - Пересечение - в данном случае указание документов в обоих наборах X и Y
$| X | {\ displaystyle | X |}$ $| X |$ - Количество элементов - в данном случае количество документов в наборе X
$∫ {\ displaystyle \ int}$ $\ int$ - Integral
$∑ {\ displaystyle \ sum}$ $\ sum$ - Суммирование
$Δ {\ displaystyle \ Delta}$ $\ Delta$ - Симметричная разница

Онлайн-метрики

Онлайн-метрики обычно создаются из журналов поиска. Метрики часто используются для определения успешности A / B-теста.

Коэффициент прерывания сеанса

Коэффициент прерывания сеанса - это соотношение поисковых сеансов, не завершившихся кликом.

CTR

CTR (CTR) - это отношение пользователей, которые нажимают на определенную ссылку, к общему количеству пользователей, просматривающих страницу, электронную почту или рекламу. Он обычно используется для измерения успеха рекламной кампании в Интернете для определенного веб-сайта, а также эффективности кампаний по электронной почте.

Коэффициент успешности сеанса

Коэффициент успешности сеанса измеряет соотношение пользовательских сеансов, которые привели к успеху. Определение «успеха» часто зависит от контекста, но для поиска успешный результат часто измеряется с использованием времени ожидания в качестве основного фактора наряду с дополнительным взаимодействием с пользователем, например, пользователь, копирующий URL-адрес результата, считается успешный результат, как и копирование / вставка из сниппета.

Нулевой процент результатов

Нулевой процент результатов (ZRR) - это соотношение результатов выдачи, которые вернулись с нулевым результатом. Показатель либо указывает на проблему отзыва, либо на то, что искомая информация отсутствует в индексе.

Автономные показатели

Автономные показатели обычно создаются на основе сеансов оценки релевантности, на которых судьи оценивают качество результатов поиска. Для оценки каждого документа, возвращенного в ответ на запрос, можно использовать как двоичную (релевантный / нерелевантный), так и многоуровневую (например, релевантность от 0 до 5) шкалы. На практике запросы могут быть некорректными, и могут быть разные оттенки релевантности. Например, в запросе «Марс» имеется двусмысленность: судья не знает, ищет ли пользователь планету Марс, плитку шоколада Марс или певца Бруно Марс.

Точность

Точность - это доля извлеченных документов, соответствующих потребностям пользователя в информации.

точность = | {соответствующие документы} ∩ {извлеченные документы} | | {извлеченные документы} | {\ displaystyle {\ t_dv {precision}} = {\ frac {| \ {{\ t_dv {соответствующие документы}} \} \ cap \ {{\ t_dv {полученные документы}} \} |} {| \ {{\ t_dv {извлеченные документы}} \} |}}}

\ t_dv {precision} = \ frac {| \ {\ t_dv {соответствующие документы} \} \ cap \ {\ t_dv {извлеченные документы} \} |} {| \ {\ t_dv {извлеченные документы} \} |}

В двоичной классификации точность аналогична положительному прогнозируемому значению. Точность учитывает все полученные документы. Его также можно оценить по заданному пороговому значению, учитывая только самые высокие результаты, возвращаемые системой. Эта мера называется точностью при n или P @ n.

Обратите внимание, что значение и использование термина «точность» в области поиска информации отличается от определения точности и точности в других областях науки и статистики.

Напомнить

Отзыв - это часть успешно извлеченных документов, имеющих отношение к запросу.

отзыв = | {соответствующие документы} ∩ {извлеченные документы} | | {соответствующие документы} | {\ displaystyle {\ t_dv {вспомнить}} = {\ frac {| \ {{\ t_dv {соответствующие документы}} \} \ cap \ {{\ t_dv {полученные документы}} \} |} {| \ {{\ t_dv {соответствующие документы}} \} |}}}

\ t_dv {вспомнить} = \ frac {| \ {\ t_dv {соответствующие документы} \} \ cap \ {\ t_dv {извлеченные документы} \} |} {| \ {\ t_dv {соответствующие документы} \} |}

В двоичной классификации отзыв часто называют чувствительностью. Таким образом, это можно рассматривать как вероятность того, что соответствующий документ будет получен запросом.

Достичь 100% отзыва, вернув все документы в ответ на любой запрос, - тривиальная задача. Следовательно, одного отзыва недостаточно, необходимо также измерить количество нерелевантных документов, например, путем вычисления точности.

Fall-out

Доля извлеченных нерелевантных документов из всех имеющихся нерелевантных документов:

fall-out = | {нерелевантные документы} ∩ {извлеченные документы} | | {нерелевантные документы} | {\ displaystyle {\ t_dv {fall-out}} = {\ frac {| \ {{\ t_dv {нерелевантные документы}} \} \ cap \ {{\ t_dv {извлеченные документы}} \} |} {| \ {{\ t_dv {нерелевантные документы}} \} |}}}

\ t_dv {fall-out} = \ frac {| \ {\ t_dv {нерелевантные документы} \} \ cap \ {\ t_dv {извлеченные документы} \} |} {| \ {\ t_dv {нерелевантные документы} \} |}

В бинарной классификации выпадение тесно связано с специфичностью и равно $(1 - специфичность) {\ displaystyle (1 - {\ t_dv {специфичность}})}$ $(1- \ t_dv {specificity})$ . Его можно рассматривать как вероятность того, что запросом будет получен нерелевантный документ.

Достичь 0% потерь, возвращая ноль документов в ответ на любой запрос, - тривиальная задача.

F-оценка / F-мера

Взвешенное гармоническое среднее точности и запоминания, традиционное F-измерение или сбалансированное F-значение:

F Знак равно 2 ⋅ точность ⋅ отзыв (точность + отзыв) {\ displaystyle F = {\ frac {2 \ cdot \ mathrm {precision} \ cdot \ mathrm {отзыв}} {(\ mathrm {precision} + \ mathrm {отзыв}) }}}

F = {\ frac {2 \ cdot {\ mathrm {precision}} \ cdot {\ mathrm {вспомнить}}} {({\ mathrm {precision}} + {\ mathrm {вспомнить}})}}

Это также известно как мера $F 1 {\ displaystyle F_ {1}}$ $F_ {1}$ , потому что отзывчивость и точность имеют равный вес.

Общая формула неотрицательного действительного числа $β {\ displaystyle \ beta}$ $\ beta$ :

F β = (1 + β 2) ⋅ (точность ⋅ отзыв) (β 2 ⋅ точность + отзыв) {\ displaystyle F _ {\ beta} = {\ frac {(1+ \ beta ^ {2}) \ cdot (\ mathrm {precision} \ cdot \ mathrm {вспомнить})} {( \ beta ^ {2} \ cdot \ mathrm {precision} + \ mathrm {вспомнить})}} \,}

F_ \ beta = \ frac {(1 + \ beta ^ 2) \ cdot (\ mathrm {precision} \ cdot \ mathrm {вспомнить})} {(\ beta ^ 2 \ cdot \ mathrm {precision} + \ mathrm {вспомнить})} \,

Двумя другими часто используемыми F-мерами являются $F 2 {\ displaystyle F_ {2}}$ $F_ {2}$ мера, которая взвешивает напоминание вдвое больше, чем точность, и мера $F 0,5 {\ displaystyle F_ {0.5}}$ $F_ {0.5}$ , которая оценивает точность вдвое больше, чем отзыв.

F-мера была получена van Rijsbergen (1979) так, что $F β {\ displaystyle F _ {\ beta}}$ $F _ {\ beta}$ "измеряет эффективность поиска по отношению к пользователь, который придает $β {\ displaystyle \ beta}$ $\ beta$ раз большее значение для запоминания, чем точность ". Он основан на показателе эффективности ван Рейсбергена $E = 1 - 1 α P + 1 - α R {\ displaystyle E = 1 - {\ frac {1} {{\ frac {\ alpha} {P}} + { \ frac {1- \ alpha} {R}}}}}$ $E = 1 - {\ frac {1} {{\ frac {\ alpha} {P}} + {\ frac {1- \ alpha} {R}}}}$ . Их соотношение:

F β = 1 - E {\ displaystyle F _ {\ beta} = 1-E}

F _ {\ beta} = 1-E

где

α = 1 1 + β 2 {\ displaystyle \ alpha = { \ frac {1} {1+ \ beta ^ {2}}}}

\ alpha = {\ frac {1} {1+ \ beta ^ {2}}}

F-мера может быть лучшим отдельным показателем по сравнению с точностью и полнотой; и точность, и отзыв дают разную информацию, которая в сочетании может дополнять друг друга. Если один из них превосходит другой, его отразит F-мера.

Средняя точность

Точность и отзыв являются однозначными метриками, основанными на всем списке документов, возвращаемых системой. Для систем, которые возвращают ранжированную последовательность документов, желательно также учитывать порядок, в котором представлены возвращенные документы. Вычисляя точность и отзыв в каждой позиции в ранжированной последовательности документов, можно построить кривую точности-отзыва, отображая точность $p (r) {\ displaystyle p (r)}$ $p (r)$ как функция отзыва $r {\ displaystyle r}$ $r$ . Средняя точность вычисляет среднее значение $p (r) {\ displaystyle p (r)}$ $p (r)$ в интервале от $r = 0 {\ displaystyle r = 0}$ <235.>до $r = 1 {\ displaystyle r = 1}$ $r = 1$ :

AveP = ∫ 0 1 p (r) dr {\ displaystyle \ operatorname {AveP} = \ int _ {0} ^ {1} p (r) dr}

\ operatorname { AveP} = \ int_0 ^ 1 p (r) dr

Это область под кривой точного отзыва. На практике этот интеграл заменяется конечной суммой по каждой позиции в ранжированной последовательности документов:

AveP = ∑ k = 1 n P (k) Δ r (k) {\ displaystyle \ operatorname {AveP} = \ sum _ {k = 1} ^ {n} P (k) \ Delta r (k)}

\ operatorname {AveP} = \ sum_ {k = 1} ^ n P (k) \ Delta r (k)

где $k {\ displaystyle k}$ $k$ - ранг в последовательности извлеченных документов, $n {\ displaystyle n}$ $n$ - количество извлеченных документов, $P (k) {\ displaystyle P (k)}$ $P(k)$ - точность при отсечении $k {\ displaystyle k}$ $k$ в списке, а $Δ r (k) {\ displaystyle \ Delta r (k)}$ $\ Delta r (k)$ - изменение отзыва с элементы $k - 1 {\ displaystyle k-1}$ $k-1$ to $k {\ displaystyle k}$ $k$ .

Эта конечная сумма эквивалентна:

AveP = ∑ k = 1 n (P (k) × rel ⁡ (k)) количество соответствующих документов {\ displaystyle \ operatorname {AveP} = {\ frac {\ sum _ {k = 1} ^ {n} (P (k) \ times \ operatorname {rel} (k))} {\ t_dv {количество соответствующих документов}}} \!}

\ operatorname {AveP} = \ frac {\ sum_ {k = 1} ^ n (P (k) \ times \ operatorname {rel} (k))} {\ t_dv {количество соответствующих документов}} \!

где $rel ⁡ (k) {\ displaystyle \ operatorname {rel} (k)}$ $\ operatorname {rel } (k)$ - индикаторная функция, равная 1, если элемент с рангом $k {\ displaystyle k}$ $k$ является релевантным документом, в противном случае - нулем. Обратите внимание, что среднее значение для всех релевантных документов, а релевантные не найденные документы получают нулевую оценку точности.

Некоторые авторы предпочитают интерполировать функцию $p (r) {\ displaystyle p (r)}$ $p (r)$ , чтобы уменьшить влияние «покачиваний» на кривой. Например, задача PASCAL Visual Object Classes (эталон для обнаружения объектов компьютерного зрения) до 2010 года вычисляла среднюю точность путем усреднения точности по набору равномерно распределенных уровней отзыва {0, 0,1, 0,2,... 1,0}:

AveP = 1 11 ∑ r ∈ {0, 0,1,…, 1.0} p interp (r) {\ displaystyle \ operatorname {AveP} = {\ frac {1} {11}} \ sum _ {r \ in \ {0,0.1, \ ldots, 1.0 \}} p _ {\ operatorname {interp}} (r)}

\ operatorname {AveP} = \ frac {1} {11} \ sum_ {r \ in \ {0, 0.1, \ ldots, 1.0 \}} p _ {\ operatorname {interp}} (r)

где $p interp (r) {\ displaystyle p _ {\ operatorname {interp}} (r) }$ $p _ {\ operatorname {interp}} (r)$ - интерполированная точность, максимальная точность которой для всех повторений превышает $r {\ displaystyle r}$ $r$ :

p interp (r) = max r ~: r ~ ≥ r ⁡ p ( г ~) {\ displaystyle p _ {\ operatorname {interp}} (r) = \ operatorname {max} _ {{\ tilde {r}}: {\ tilde {r}} \ geq r} p ({\ tilde { r}})}

p _ {\ operatorname {interp}} (r) = \ operatorname {max} _ {\ tilde {r}: \ tilde {r} \ geq r} p (\ tilde {r})

Альтернативой является получение аналитической функции $p (r) {\ displaystyle p (r)}$ $p (r)$ , предполагая конкретное параметрическое распределение для лежащих в основе значений решения. Например, бинормальную кривую точности-отзыва можно получить, если предположить, что значения решения в обоих классах соответствуют распределению Гаусса.

Точность при K

Для современного поиска информации (в масштабе сети), отзыв больше не является значимым показателем, поскольку многие запросы содержат тысячи релевантных документов, и немногие пользователи будут заинтересованы в их чтении. Точность в k документах (P @ k) по-прежнему является полезным показателем (например, P @ 10 или «Точность 10» соответствует количеству релевантных результатов среди 10 лучших документов), но не учитывает учесть позиции соответствующих документов среди топ-k. Еще один недостаток состоит в том, что по запросу с меньшим количеством релевантных результатов, чем k, даже идеальная система будет иметь оценку меньше 1. Легче подсчитать вручную, поскольку нужно исследовать только первые k результатов, чтобы определить, релевантны они или нет..

R-Precision

R-precision требует знания всех документов, относящихся к запросу. Количество релевантных документов, $R {\ displaystyle R}$ $R$ , используется в качестве порогового значения для расчета, и оно варьируется от запроса к запросу. Например, если в корпусе 15 документов, относящихся к «красному» (R = 15), R-точность для «красного» смотрит на первые 15 возвращенных документов, подсчитывает количество релевантных $r {\ displaystyle r}$ $r$ превращает это в долю релевантности: $r / R = r / 15 {\ displaystyle r / R = r / 15}$ $r / R = r / 15$ .

Точность равна напоминанию в R -я позиция.

Эмпирически этот показатель часто сильно коррелирует со средней точностью.

Средняя средняя точность

Средняя средняя точность для набора запросов равна среднее значение средней точности для каждого запроса.

MAP = ∑ q = 1 QA ve P (q) Q {\ displaystyle \ operatorname {MAP} = {\ frac {\ sum _ {q = 1} ^ {Q} \ operatorname {AveP (q)}} {Q}} \!}

\ operatorname {MAP} = \ frac {\ sum_ {q = 1} ^ Q \ operatorname {AveP (q)}} {Q} \ !

где Q - количество запросов.

Дисконтированный совокупный выигрыш

Терминология и выводы. из матрицы неточностей
положительное условие (P) количество реальных положительных случаев в данных условие отрицательное (N) количество реальных отрицательных случаев в данных истинно положительное (TP) экв. с попаданием истинно отрицательное (TN) экв. с правильным отклонением ложное срабатывание (FP) экв. с ложной тревогой, ошибкой типа I ложноотрицательным (FN) экв. с промахом, ошибка типа II чувствительность, отзыв, частота попаданий или истинно положительная частота (TPR) $TPR = TPP = TPTP + FN = 1 - FNR {\ displaystyle \ mathrm {TPR} = {\ frac {\ mathrm {TP}} {\ mathrm {P}}} = {\ frac {\ mathrm {TP}} { \ mathrm {TP} + \ mathrm {FN}}} = 1- \ mathrm {FNR}}$ ${\ displaystyle \ mathrm {TPR} = {\ frac {\ mathrm {TP}} {\ mathrm {P}}} = {\ frac {\ mathrm {TP}} {\ mathrm {TP} + \ mathrm {FN}}} = 1- \ mathrm {FNR}}$ специфичность, селективность или истинно отрицательная скорость (TNR) $TNR = TNN = TNTN + FP = 1 - FPR {\ displaystyle \ mathrm {TNR} = {\ frac {\ mathrm {TN}} {\ mathrm {N}}} = {\ frac {\ mathrm {TN }} {\ mathrm {TN} + \ mathrm {FP}}} = 1- \ mathrm {FPR}}$ ${\ displaystyle \ mathrm {TNR} = {\ frac {\ mathrm {TN}} {\ mathrm {N}}} = {\ frac {\ mathrm {TN }} {\ mathrm {TN} + \ mathrm {FP}}} = 1- \ mathrm {FPR}}$ точность или прогнозируемое положительное значение (PPV) $PPV = TPTP + FP = 1 - FDR {\ displaystyle \ mathrm {PPV} = {\ frac {\ mathrm {TP}} {\ mathrm {TP} + \ mathrm {FP}}} = 1- \ mathrm {FDR}}$ ${\ displaystyle \ mathrm {PPV} = {\ frac {\ mathrm {TP}} {\ mathrm {TP} + \ mathrm {FP }}} = 1- \ mathrm {FDR}}$ отрицательное прогнозное значение (NPV) $NPV = TNTN + FN = 1 - FOR {\ displaystyle \ mathrm {NPV} = {\ frac {\ mathrm {TN}} {\ mathrm {TN} + \ mathrm {FN}}} = 1- \ mathrm {FOR}}$ ${\ displaystyle \ mathrm {NPV} = {\ frac {\ mathrm {TN}} {\ mathrm {TN} + \ mathrm {FN }}} = 1- \ mathrm {FOR}}$ частота пропусков или ложноотрицательная частота (FNR) $FNR = FNP = FNFN + TP = 1 - TPR {\ displaystyle \ mathrm {FNR} = {\ frac {\ mathrm {FN}} {\ mathrm {P}}} = {\ frac {\ mathrm {FN}} {\ mathrm {FN} + \ mathrm {TP}}} = 1- \ mathrm {TPR}}$ ${\ displaystyle \ mathrm {FNR} = {\ frac {\ mathrm {FN}} {\ mathrm {P}}} = {\ frac {\ mathrm {FN}} {\ mathrm {FN} + \ mathrm {TP}}} = 1- \ mathrm {TPR}}$ выпадение или количество ложных срабатываний (FPR) $FPR = FPN = FPFP + TN = 1 - TNR {\ displaystyle \ mathrm {FPR} = {\ frac {\ mathrm {FP}} {\ mathrm {N}}} = {\ frac {\ mathrm {FP}} {\ mathrm {FP} + \ mathrm {TN}}} = 1- \ mathrm {TNR}}$ ${\ displaystyle \ mathrm {FPR} = {\ frac {\ mathrm {FP}} {\ mathrm {N}}} = {\ frac { \ mathrm {FP}} {\ mathrm {FP} + \ mathrm {TN}}} = 1- \ mathrm {TNR}}$ коэффициент ложного обнаружения (FDR) $FDR = FPFP + TP = 1 - PPV {\ displaystyle \ mathrm {FDR} = {\ frac {\ mathrm {FP}} {\ mathrm {FP} + \ mathrm {TP}}} = 1- \ mathrm {PPV}}$ ${\ displaystyle \ mathrm { FDR} = {\ frac {\ mathrm {FP}} {\ mathrm {FP} + \ mathrm {TP}}} = 1- \ mathrm {PPV}}$ коэффициент ложных пропусков (FOR) $FOR = FNFN + TN = 1 - NPV {\ displaystyle \ mathrm {FOR} = {\ frac {\ mathrm {FN}} {\ mathrm {FN} + \ mathrm {TN}} } = 1- \ mathrm {NPV}}$ ${\ displaystyle \ mathrm {FOR} = {\ frac {\ mathrm {FN}} {\ mathrm {FN} + \ mathrm {TN}}} = 1- \ mathrm {NPV}}$ Порог распространенности (PT) $PT = TPR (- TNR + 1) + TNR - 1 (TPR + TNR - 1) {\ displaystyle PT = { \ frac {{\ sqrt {TPR (-TNR + 1)}} + TNR-1} {(TPR + TNR-1)}}}$ ${\ displaystyle PT = {\ frac {{\ sqrt {TPR (-TNR + 1)}} + TNR-1 } {(TPR + TNR-1)}}}$ Оценка угрозы (TS) или критический успех индекс (CSI) $TS = TPTP + FN + FP {\ displaystyle \ mathrm {TS} = {\ frac {\ mathrm {TP}} {\ mathrm {TP} + \ mathrm {FN} + \ mathrm {FP }}}}$ ${\ displaystyle \ mathrm {TS} = {\ frac {\ mathrm {TP}} {\ mathrm {TP} + \ mathrm {FN} + \ mathrm {FP}}}}$ точность (ACC) $ACC = TP + TNP + N = TP + TNTP + TN + FP + FN {\ displaystyle \ mathrm {ACC} = {\ frac {\ mathrm { TP} + \ mathrm {TN}} {\ mathrm {P} + \ mathrm {N}}} = {\ frac {\ mathrm {TP} + \ mathrm {TN}} {\ mathrm {TP} + \ mathrm { TN} + \ mathrm {FP} + \ mathrm {FN}}}$ ${\ displaystyle \ mathrm {ACC} = {\ frac {\ mathrm { TP} + \ mathrm {TN}} {\ mat hrm {P} + \ mathrm {N}}} = {\ frac {\ mathrm {TP} + \ mathrm {TN}} {\ mathrm {TP} + \ mathrm {TN} + \ mathrm {FP} + \ mathrm {FN}}}}$ сбалансированная точность (BA) $BA = TPR + TNR 2 {\ displaystyle \ mathrm {BA} = {\ frac {TPR + TNR } {2}}}$ ${\ displaystyle \ mathrm {BA} = {\ frac {TPR + TNR} {2} }}$ оценка F1 - это среднее гармоническое для точности и чувствительности $F 1 = 2 ⋅ PPV ⋅ TPRPPV + TPR = 2 TP 2 TP + FP + FN {\ displaystyle \ mathrm {F} _ {1} = 2 \ cdot {\ frac {\ mathrm {PPV} \ cdot \ mathrm {TPR}} {\ mathrm {PPV} + \ mathrm {TPR}}} = {\ frac {2 \ mathrm {TP}} {2 \ mathrm {TP} + \ mathrm {FP} + \ mathrm {FN}}}}$ ${\ displaystyle \ mathrm {F} _ {1} = 2 \ cdot {\ frac {\ mathrm {PPV} \ cdot \ mathrm {TPR}} {\ mathrm {PPV} + \ mathrm {TPR}}} = {\ frac {2 \ mathrm {TP}} {2 \ mathrm {TP} + \ mathrm {FP} + \ mathrm {FN}}}}$ Коэффициент корреляции Мэтьюза ( MCC) $MCC = TP × TN - FP × FN (TP + FP) (TP + FN) (TN + FP) (TN + FN) {\ displaystyle \ mathrm {MCC} = {\ frac {\ mathrm {TP} \ times \ mathrm {TN} - \ mathrm {FP} \ times \ mathrm {FN}} {\ sqrt {(\ mathrm {TP} + \ mathrm {FP}) (\ mathrm {TP} + \ mathrm {FN}) (\ mathrm {TN} + \ mathrm {FP}) (\ mathrm {TN} + \ mathrm {FN})}}}}$ ${\ displaystyle \ mathrm {MCC} = {\ frac {\ mathrm {TP} \ times \ mathrm {TN} - \ mathrm {FP} \ times \ mathrm {FN }} {\ sqrt {(\ mathrm {TP} + \ mathrm {FP}) (\ mathrm {TP} + \ mathrm {FN}) (\ mathrm {TN} + \ mathrm {FP}) (\ mathrm {TN } + \ mathrm {FN})}}}}$ Индекс Фаулкса – Мальлоуса (FM) $FM = TPTP + FP ⋅ TPTP + FN = PPV ⋅ TPR {\ displaystyle \ mathrm {FM} = {\ sqrt {{\ frac {TP} {TP} + FP}} \ cdot {\ frac {TP} {TP + FN}}}} = {\ sqrt {PPV \ cdot TPR}}}$ ${\ displaystyle \ mathrm {FM} = {\ sqrt {{\ frac {TP} {TP + FP}} \ cdot {\ frac {TP} {TP + FN}}}} = {\ sqrt {PPV \ cdot TPR}} }$ информированность или информированность букмекеров (BM) $BM = TPR + TNR - 1 {\ displaystyle \ mathrm {BM} = \ mathrm {TPR} + \ mathrm {TNR} -1}$ ${\ displaystyle \ mathrm {BM} = \ mathrm {TPR} + \ mathrm {TNR} -1 }$ маркировка (MK) или deltaP $MK = PPV + NPV - 1 {\ displaystyle \ mathrm {MK} = \ mathrm {PPV} + \ mathrm {NPV} -1}$ ${\ displaystyle \ mathrm {MK} = \ mathrm {PPV} + \ mathrm {NPV} -1}$ Источники: Fawcett (2006), Powers (2011), Ting (2011), CAWCR D. Chicco G. Jurman (2020), Tharwat (2018).

DCG использует градуированную шкалу релевантности документов из набора результатов для оценки полезности или выгоды документа на основе его положения в списке результатов. Предпосылка DCG заключается в том, что высокорелевантные документы, появляющиеся ниже в списке результатов поиска, должны подвергаться штрафу, поскольку оцененное значение релевантности уменьшается логарифмически пропорционально позиции результата.

DCG, накопленный на определенной позиции ранга $p {\ displaystyle p}$ $p$ , определяется как:

DCG p = ∑ i = 1 preli log 2 ⁡ (i + 1). {\ displaystyle \ mathrm {DCG_ {p}} = \ sum _ {i = 1} ^ {p} {\ frac {rel_ {i}} {\ log _ {2} (i + 1)}}.}

{\ displaystyle \ mathrm {DCG_ {p}} = \ sum _ {i = 1} ^ {p} {\ frac {rel_ {i} } {\ log _ {2} (i + 1)}}.}

Поскольку размер набора результатов может различаться для разных запросов или систем, для сравнения производительности нормализованная версия DCG использует идеальную DCG. С этой целью он сортирует документы списка результатов по релевантности, создавая идеальный DCG в позиции p ( $IDCG p {\ displaystyle IDCG_ {p}}$ $IDCG_p$ ), что нормализует оценку:

n DCG p = DCG p IDCG p. {\ displaystyle \ mathrm {nDCG_ {p}} = {\ frac {DCG_ {p}} {IDCG {p}}}.}

\ mathrm {nDCG_ {p}} = \ frac {DCG_ {p}} {IDCG {p}}.

Значения nDCG для всех запросов можно усреднить, чтобы получить оценку средней производительности алгоритма ранжирования. Обратите внимание, что в идеальном алгоритме ранжирования $DCG p {\ displaystyle DCG_ {p}}$ $DCG_p$ будет таким же, как $IDCG p {\ displaystyle IDCG_ {p}}$ $IDCG_p$ с результатом 1.0 nDCG. Тогда все вычисления nDCG являются относительными значениями в интервале от 0,0 до 1,0 и, таким образом, сопоставимы с перекрестными запросами.

Другие показатели

Средний взаимный ранг
Коэффициент корреляции рангов Спирмена
bpref - основанный на суммировании показатель того, сколько релевантных документов ранжируется перед нерелевантными документами
GMAP - геометрический среднее значение (по теме) средней точности
Меры, основанные на предельной релевантности и разнообразии документов - см. Актуальность (поиск информации) § Проблемы и альтернативы
Меры как релевантности, так и достоверности (для фейковых новостей в результатах поиска)

Визуализация

Визуализации эффективности поиска информации включают:

Графики, которые показывают точность по одной оси и напоминают по другой
Гистограммы средней точности по различным темам
Рабочая характеристика приемника (кривая ROC)
Матрица неточностей

Неметрики

Список самых популярных запросов

Самые популярные запросы - это самые распространенные запросы по фиксированному количеству времени. Список самых популярных запросов помогает узнать стиль запросов, вводимых пользователями.

Показатели нерелевантности

Запросы за время

Измерение количества запросов, выполняемых поисковой системой за (месяц / день / час / минута / сек), отслеживает использование поисковой системы. Его можно использовать для диагностики, чтобы указать на неожиданный всплеск запросов, или просто в качестве базового показателя при сравнении с другими показателями, такими как задержка запроса. Например, всплеск трафика запросов может использоваться для объяснения всплеска задержки запроса.

См. Также

Ссылки