Дисконтированный совокупный выигрыш (DCG ) - это показатель качества ранжирования. В поиске информации он часто используется для измерения эффективности web поисковой системы алгоритмов или связанных приложений. Используя шкалу градуированной релевантности документов в наборе результатов поисковой системы, DCG измеряет полезность или выгоду документа на основе его позиции в списке результатов. Прирост накапливается сверху вниз в списке результатов, при этом прирост каждого результата дисконтируется на более низких уровнях.
При использовании DCG и связанных с ним показателей делаются два предположения.
DCG берет свое начало от более ранней, более примитивной меры, называемой совокупным усилением.
Совокупный выигрыш (CG) - это сумма оцененных значений релевантности всех результатов в списке результатов поиска. Этот предшественник DCG не учитывает ранг (положение) результата в списке результатов при рассмотрении полезности набора результатов. CG на определенной позиции ранга определяется как:
Где - это оцененная релевантность результата в позиции .
На значение, вычисленное с помощью функции CG, не влияют изменения в порядке результатов поиска. То есть перемещение высокорелевантного документа выше более ранжированного, менее релевантного документа не изменяет вычисленное значение для CG (при условии, что ). Основываясь на двух сделанных выше предположениях о полезности результатов поиска, (N) DCG обычно предпочтительнее CG.
Совокупный прирост иногда называют оцененной точностью, поскольку он идентичен метрике точности, если шкала оценок является двоичной.
Предпосылка DCG заключается в том, что высокорелевантные документы, появляющиеся ниже в списке результатов поиска, должны наказываться, поскольку оцененное значение релевантности уменьшается логарифмически пропорционально положению результата.
Традиционная формула DCG, накопленная на определенной позиции ранга , определяется как:
Ранее не было теоретически обоснованного обоснования для использования коэффициента уменьшения логарифмического, кроме того факта, что он обеспечивает плавное уменьшение. Но Ван и др. (2013) дают теоретическую гарантию использования коэффициента логарифмического сокращения в нормализованном DCG (NDCG). Авторы показывают, что для каждой пары существенно различных функций ранжирования NDCG может согласованно решать, какая из них лучше.
Альтернативная формулировка DCG делает больший упор на поиск соответствующих документов:
последняя формула обычно используется в промышленности, включая крупные компании, занимающиеся поиском в Интернете, и платформы для соревнований по науке о данных, такие как Kaggle.
Эти две формулировки DCG одинаковы, когда значения релевантности документов двоичные ; .
Обратите внимание, что Croft et al. (2010) и Burges et al. (2005) представляют вторую DCG с логарифмической базой e, в то время как обе версии DCG, описанные выше, используют логарифм по базе 2. При вычислении NDCG с первой формулировкой DCG основание журнала не имеет значения, но основание журнал действительно влияет на значение NDCG для второй рецептуры. Очевидно, что основание журнала влияет на значение DCG в обоих составах.
Списки результатов поиска различаются по длине в зависимости от запроса. Сравнивать производительность поисковой системы от одного запроса к другому невозможно, используя только DCG, поэтому совокупный выигрыш в каждой позиции для выбранного значения должен быть нормализован по запросы. Это выполняется путем сортировки всех релевантных документов в корпусе по их относительной релевантности с получением максимально возможного DCG через позицию , также называемую Ideal DCG ( IDCG) через эту должность. Для запроса нормализованная дисконтированная совокупная выгода, или nDCG, вычисляется как:
где IDCG - идеальная дисконтированная совокупная прибыль,
и представляет список соответствующих документов (упорядочены по релевантности) в корпусе до позиции p.
Значения nDCG для всех запросов можно усреднить, чтобы получить меру средней производительности алгоритма ранжирования поисковой системы. Обратите внимание, что в идеальном алгоритме ранжирования будет таким же, как с получением nDCG 1.0. Тогда все вычисления nDCG являются относительными значениями в интервале от 0,0 до 1,0 и, таким образом, сопоставимы с перекрестными запросами.
Основная трудность, возникающая при использовании nDCG, - это отсутствие идеального упорядочивания результатов, когда доступна только частичная обратная связь по релевантности.
Участнику эксперимента, представленному в виде списка документов в ответ на поисковый запрос, предлагается оценить релевантность каждого документа запросу. Каждый документ оценивается по шкале от 0 до 3, где 0 означает нерелевантность, 3 означает высокую актуальность, а 1 и 2 означают «где-то посередине». Для документов, упорядоченных алгоритмом ранжирования как
пользователь предоставляет следующие оценки релевантности:
То есть: документ 1 имеет релевантность 3, документ 2 имеет релевантность 2 и т. Д. Совокупный выигрыш этого списка результатов поиска составляет:
Изменение порядка любых двух документов не влияет на показатель CG. Если переключить и , CG останется прежним, 11 • DCG используется для выделения особо важных документов, появляющихся в начале списка результатов. Используя логарифмическую шкалу для сокращения, DCG для каждого результата в порядке:
.
1 | 3 | 1 | 3 |
2 | 2 | 1,585 | 1,262 |
3 | 3 | 2 | 1,5 |
4 | 0 | 2,322 | 0 |
5 | 1 | 2,585 | 0,387 |
6 | 2 | 2,807 | 0,712 |
Итак, из этого рейтинга:
Теперь переключение и приводит к сокращению DCG, поскольку менее релевантный документ занимает более высокое место в рейтинге; то есть более релевантный документ больше обесценивается, будучи помещенным в более низкий ранг.
Производительность этого запроса с другим запросом несопоставима в этой форме, поскольку другой запрос может иметь больше результатов, что приводит к большему общему DCG, который не обязательно может быть лучше. Для сравнения значения DCG должны быть нормализованы.
Чтобы нормализовать значения DCG, необходим идеальный порядок для данного запроса. В этом примере это упорядочение будет представлять собой монотонно убывающий вид всех известных оценок релевантности. В дополнение к шести из этого эксперимента, предположим, мы также знаем, что существует документ с 3-й степенью релевантности для того же запроса и документ со степенью релевантности 2 этому запросу. Тогда идеальный порядок следующий:
Без D7 и D8, идеальный порядок следующий:
DCG этого идеального порядка, или IDCG (Ideal DCG), вычисляется до ранга 6:
И поэтому nDCG для этого запроса задается как: