Меры оценки для системы поиска информации используются для оценки того, насколько хорошо результаты поиска удовлетворили намерения пользователя. Такие метрики часто делятся на виды: онлайн-метрики оценивают взаимодействие пользователей с поисковой системой, офлайновые метрики измеряют релевантность, другими словами, насколько вероятен каждый результат, или страница страницы результатов поисковой системы (SERP) как в целом, это удовлетворение информационных потребностей пользователя.
Математические символы, используемые в формулах ниже, означают:
Онлайн-метрики обычно создаются из журналов поиска. Метрики часто используются для определения успешности A / B-теста.
Коэффициент прерывания сеанса - это соотношение поисковых сеансов, не завершившихся кликом.
CTR (CTR) - это отношение пользователей, которые нажимают на определенную ссылку, к общему количеству пользователей, просматривающих страницу, электронную почту или рекламу. Он обычно используется для измерения успеха рекламной кампании в Интернете для определенного веб-сайта, а также эффективности кампаний по электронной почте.
Коэффициент успешности сеанса измеряет соотношение пользовательских сеансов, которые привели к успеху. Определение «успеха» часто зависит от контекста, но для поиска успешный результат часто измеряется с использованием времени ожидания в качестве основного фактора наряду с дополнительным взаимодействием с пользователем, например, пользователь, копирующий URL-адрес результата, считается успешный результат, как и копирование / вставка из сниппета.
Нулевой процент результатов (ZRR) - это соотношение результатов выдачи, которые вернулись с нулевым результатом. Показатель либо указывает на проблему отзыва, либо на то, что искомая информация отсутствует в индексе.
Автономные показатели обычно создаются на основе сеансов оценки релевантности, на которых судьи оценивают качество результатов поиска. Для оценки каждого документа, возвращенного в ответ на запрос, можно использовать как двоичную (релевантный / нерелевантный), так и многоуровневую (например, релевантность от 0 до 5) шкалы. На практике запросы могут быть некорректными, и могут быть разные оттенки релевантности. Например, в запросе «Марс» имеется двусмысленность: судья не знает, ищет ли пользователь планету Марс, плитку шоколада Марс или певца Бруно Марс.
Точность - это доля извлеченных документов, соответствующих потребностям пользователя в информации.
В двоичной классификации точность аналогична положительному прогнозируемому значению. Точность учитывает все полученные документы. Его также можно оценить по заданному пороговому значению, учитывая только самые высокие результаты, возвращаемые системой. Эта мера называется точностью при n или P @ n.
Обратите внимание, что значение и использование термина «точность» в области поиска информации отличается от определения точности и точности в других областях науки и статистики.
Отзыв - это часть успешно извлеченных документов, имеющих отношение к запросу.
В двоичной классификации отзыв часто называют чувствительностью. Таким образом, это можно рассматривать как вероятность того, что соответствующий документ будет получен запросом.
Достичь 100% отзыва, вернув все документы в ответ на любой запрос, - тривиальная задача. Следовательно, одного отзыва недостаточно, необходимо также измерить количество нерелевантных документов, например, путем вычисления точности.
Доля извлеченных нерелевантных документов из всех имеющихся нерелевантных документов:
В бинарной классификации выпадение тесно связано с специфичностью и равно . Его можно рассматривать как вероятность того, что запросом будет получен нерелевантный документ.
Достичь 0% потерь, возвращая ноль документов в ответ на любой запрос, - тривиальная задача.
Взвешенное гармоническое среднее точности и запоминания, традиционное F-измерение или сбалансированное F-значение:
Это также известно как мера , потому что отзывчивость и точность имеют равный вес.
Общая формула неотрицательного действительного числа :
Двумя другими часто используемыми F-мерами являются мера, которая взвешивает напоминание вдвое больше, чем точность, и мера , которая оценивает точность вдвое больше, чем отзыв.
F-мера была получена van Rijsbergen (1979) так, что "измеряет эффективность поиска по отношению к пользователь, который придает раз большее значение для запоминания, чем точность ". Он основан на показателе эффективности ван Рейсбергена . Их соотношение:
F-мера может быть лучшим отдельным показателем по сравнению с точностью и полнотой; и точность, и отзыв дают разную информацию, которая в сочетании может дополнять друг друга. Если один из них превосходит другой, его отразит F-мера.
Точность и отзыв являются однозначными метриками, основанными на всем списке документов, возвращаемых системой. Для систем, которые возвращают ранжированную последовательность документов, желательно также учитывать порядок, в котором представлены возвращенные документы. Вычисляя точность и отзыв в каждой позиции в ранжированной последовательности документов, можно построить кривую точности-отзыва, отображая точность как функция отзыва . Средняя точность вычисляет среднее значение в интервале от <235.>до :
Это область под кривой точного отзыва. На практике этот интеграл заменяется конечной суммой по каждой позиции в ранжированной последовательности документов:
где - ранг в последовательности извлеченных документов, - количество извлеченных документов, - точность при отсечении в списке, а - изменение отзыва с элементы to .
Эта конечная сумма эквивалентна:
где - индикаторная функция, равная 1, если элемент с рангом является релевантным документом, в противном случае - нулем. Обратите внимание, что среднее значение для всех релевантных документов, а релевантные не найденные документы получают нулевую оценку точности.
Некоторые авторы предпочитают интерполировать функцию , чтобы уменьшить влияние «покачиваний» на кривой. Например, задача PASCAL Visual Object Classes (эталон для обнаружения объектов компьютерного зрения) до 2010 года вычисляла среднюю точность путем усреднения точности по набору равномерно распределенных уровней отзыва {0, 0,1, 0,2,... 1,0}:
где - интерполированная точность, максимальная точность которой для всех повторений превышает :
Альтернативой является получение аналитической функции , предполагая конкретное параметрическое распределение для лежащих в основе значений решения. Например, бинормальную кривую точности-отзыва можно получить, если предположить, что значения решения в обоих классах соответствуют распределению Гаусса.
Для современного поиска информации (в масштабе сети), отзыв больше не является значимым показателем, поскольку многие запросы содержат тысячи релевантных документов, и немногие пользователи будут заинтересованы в их чтении. Точность в k документах (P @ k) по-прежнему является полезным показателем (например, P @ 10 или «Точность 10» соответствует количеству релевантных результатов среди 10 лучших документов), но не учитывает учесть позиции соответствующих документов среди топ-k. Еще один недостаток состоит в том, что по запросу с меньшим количеством релевантных результатов, чем k, даже идеальная система будет иметь оценку меньше 1. Легче подсчитать вручную, поскольку нужно исследовать только первые k результатов, чтобы определить, релевантны они или нет..
R-precision требует знания всех документов, относящихся к запросу. Количество релевантных документов, , используется в качестве порогового значения для расчета, и оно варьируется от запроса к запросу. Например, если в корпусе 15 документов, относящихся к «красному» (R = 15), R-точность для «красного» смотрит на первые 15 возвращенных документов, подсчитывает количество релевантных превращает это в долю релевантности: .
Точность равна напоминанию в R -я позиция.
Эмпирически этот показатель часто сильно коррелирует со средней точностью.
Средняя средняя точность для набора запросов равна среднее значение средней точности для каждого запроса.
где Q - количество запросов.
Источники: Fawcett (2006), Powers (2011), Ting (2011), CAWCR D. Chicco G. Jurman (2020), Tharwat (2018). |
DCG использует градуированную шкалу релевантности документов из набора результатов для оценки полезности или выгоды документа на основе его положения в списке результатов. Предпосылка DCG заключается в том, что высокорелевантные документы, появляющиеся ниже в списке результатов поиска, должны подвергаться штрафу, поскольку оцененное значение релевантности уменьшается логарифмически пропорционально позиции результата.
DCG, накопленный на определенной позиции ранга , определяется как:
Поскольку размер набора результатов может различаться для разных запросов или систем, для сравнения производительности нормализованная версия DCG использует идеальную DCG. С этой целью он сортирует документы списка результатов по релевантности, создавая идеальный DCG в позиции p (), что нормализует оценку:
Значения nDCG для всех запросов можно усреднить, чтобы получить оценку средней производительности алгоритма ранжирования. Обратите внимание, что в идеальном алгоритме ранжирования будет таким же, как с результатом 1.0 nDCG. Тогда все вычисления nDCG являются относительными значениями в интервале от 0,0 до 1,0 и, таким образом, сопоставимы с перекрестными запросами.
Визуализации эффективности поиска информации включают:
Самые популярные запросы - это самые распространенные запросы по фиксированному количеству времени. Список самых популярных запросов помогает узнать стиль запросов, вводимых пользователями.
Измерение количества запросов, выполняемых поисковой системой за (месяц / день / час / минута / сек), отслеживает использование поисковой системы. Его можно использовать для диагностики, чтобы указать на неожиданный всплеск запросов, или просто в качестве базового показателя при сравнении с другими показателями, такими как задержка запроса. Например, всплеск трафика запросов может использоваться для объяснения всплеска задержки запроса.