Коэффициент Соренсена – Дайса

редактировать

Коэффициент Соренсена – Дайса (другие названия см. Ниже) - это статистика, используемая для оценки сходства двух выборок. Он был независимо разработан ботаниками Торвальдом Соренсеном и Ли Раймондом Дайсом, которые опубликовали в 1948 и 1945 годах соответственно.

СОДЕРЖАНИЕ
  • 1 Имя
  • 2 Формула
  • 3 Отличия от Жаккара
  • 4 Приложения
  • 5 Версия изобилия
  • 6 См. Также
  • 7 ссылки
  • 8 Внешние ссылки
Имя

Индекс известен под несколькими другими названиями, в частности индекс Соренсен-Dice, индекс Соренсен и коэффициента DICE в. Другие варианты включают в себя «коэффициент подобия» или «индекс», такой как коэффициент подобия Дайса ( DSC). Общие альтернативные варианты написания для Соренсена - Соренсон, Соеренсон и Соренсон, и все три также можно увидеть с окончанием –sen.

Другие названия включают:

  • Оценка F1
  • Бинарный (неколичественный) индекс Чекановского
  • Мера генетического сходства
  • Индекс сходства Зийденбоса, ссылаясь на статью Зийденбоса и др. 1994 г.
Формула

Первоначальная формула Соренсена предназначалась для применения к дискретным данным. Учитывая два набора, X и Y, он определяется как

D S C знак равно 2 | Икс Y | | Икс | + | Y | {\ displaystyle DSC = {\ frac {2 | X \ cap Y |} {| X | + | Y |}}}

где | X | и | Y | - мощности двух наборов (т. е. количество элементов в каждом наборе). Индекс Соренсена равен удвоенному количеству элементов, общих для обоих наборов, деленному на сумму количества элементов в каждом наборе.

При применении к логическим данным, используя определение истинно положительного (TP), ложноположительного (FP) и ложноотрицательного (FN), его можно записать как

D S C знак равно 2 Т п 2 Т п + F п + F N {\ displaystyle DSC = {\ frac {2TP} {2TP + FP + FN}}}.

Он отличается от индекса Жаккара, который учитывает истинные положительные результаты только один раз как в числителе, так и в знаменателе. DSC представляет собой частное от подобия и находится в диапазоне от 0 до 1. Его можно рассматривать как меру подобия по множествам.

Подобно индексу Жаккара, операции над множеством могут быть выражены в терминах векторных операций над двоичными векторами a и b:

s v знак равно 2 | а б | | а | 2 + | б | 2 {\ displaystyle s_ {v} = {\ frac {2 | {\ bf {{a} \ cdot {\ bf {{b} |}}}}} {| {\ bf {{a} | ^ {2} + | {\ bf {{b} | ^ {2}}}}}}}}

который дает тот же результат для двоичных векторов, а также дает более общую метрику сходства для векторов в общих чертах.

Для наборов X и Y ключевых слов, используемых при поиске информации, коэффициент может быть определен как удвоенный общий объем информации (пересечение) по сумме мощностей:

При использовании в качестве меры сходства строк коэффициент может быть вычислен для двух строк, x и y, с использованием биграмм следующим образом:

s знак равно 2 п т п Икс + п у {\ displaystyle s = {\ frac {2n_ {t}} {n_ {x} + n_ {y}}}}

где n t - количество символьных биграмм в обеих строках, n x - количество биграмм в строке x, а n y - количество биграмм в строке y. Например, чтобы вычислить сходство между:

night
nacht

Мы бы нашли набор биграмм в каждом слове:

{ ni, ig, gh, ht}
{ na, ac, ch, ht}

Каждый набор состоит из четырех элементов, и пересечение этих двух множеств имеет только один элемент: ht.

Подставляя эти числа в формулу, вычисляем s  = (2 1) / (4 + 4) = 0,25.

Отличие от Жаккара

Этот коэффициент не сильно отличается по форме от индекса Жаккара. Фактически, оба они эквивалентны в том смысле, что при заданном значении коэффициента Соренсена – Дайса можно вычислить соответствующее значение индекса Жаккара и наоборот, используя уравнения и. S {\ displaystyle S} J {\ displaystyle J} J знак равно S / ( 2 - S ) {\ Displaystyle J = S / (2-S)} S знак равно 2 J / ( 1 + J ) {\ Displaystyle S = 2J / (1 + J)}

Поскольку коэффициент Соренсена – Дайса не удовлетворяет неравенству треугольника, его можно рассматривать как полуметрическую версию индекса Жаккара.

Функция находится в диапазоне от нуля до единицы, как у Жаккара. В отличие от Жаккара, соответствующая функция разности

d знак равно 1 - 2 | Икс Y | | Икс | + | Y | {\ displaystyle d = 1 - {\ frac {2 | X \ cap Y |} {| X | + | Y |}}}

не является правильной метрикой расстояния, так как не удовлетворяет неравенству треугольника. Простейший контрпример этому дают три набора {a}, {b} и {a, b}, причем расстояние между первыми двумя равно 1, а разница между третьим и каждым из остальных составляет одну треть.. Чтобы удовлетворить неравенству треугольника, сумма любых двух из этих трех сторон должна быть больше или равна оставшейся стороне. Однако расстояние между {a} и {a, b} плюс расстояние между {b} и {a, b} равно 2/3 и, следовательно, меньше расстояния между {a} и {b}, которое равно 1.

Приложения

Коэффициент Соренсена-Дайса полезен для данных по экологическому сообществу (например, Looman amp; Campbell, 1960). Обоснование его использования в первую очередь эмпирическое, а не теоретическое (хотя теоретически его можно обосновать как пересечение двух нечетких множеств ). По сравнению с евклидовым расстоянием расстояние Соренсена сохраняет чувствительность в более разнородных наборах данных и придает меньший вес выбросам. В последнее время показатель Dice (и его вариации, например, логарифм logDice) стал популярным в компьютерной лексикографии для измерения показателя лексической ассоциации двух заданных слов. logDice также используется как часть Mash Distance для оценки расстояния генома и метагенома. Наконец, Dice используется при сегментации изображения, в частности, для сравнения выходных данных алгоритма с эталонными масками в медицинских приложениях.

Версия изобилия

Выражение легко расширяется до численности вместо наличия / отсутствия видов. Эта количественная версия известна под несколькими названиями:

Смотрите также
использованная литература
внешние ссылки
Последняя правка сделана 2024-01-11 06:21:37
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте