Коэффициент Соренсена – Дайса (другие названия см. Ниже) - это статистика, используемая для оценки сходства двух выборок. Он был независимо разработан ботаниками Торвальдом Соренсеном и Ли Раймондом Дайсом, которые опубликовали в 1948 и 1945 годах соответственно.
Индекс известен под несколькими другими названиями, в частности индекс Соренсен-Dice, индекс Соренсен и коэффициента DICE в. Другие варианты включают в себя «коэффициент подобия» или «индекс», такой как коэффициент подобия Дайса ( DSC). Общие альтернативные варианты написания для Соренсена - Соренсон, Соеренсон и Соренсон, и все три также можно увидеть с окончанием –sen.
Другие названия включают:
Первоначальная формула Соренсена предназначалась для применения к дискретным данным. Учитывая два набора, X и Y, он определяется как
где | X | и | Y | - мощности двух наборов (т. е. количество элементов в каждом наборе). Индекс Соренсена равен удвоенному количеству элементов, общих для обоих наборов, деленному на сумму количества элементов в каждом наборе.
При применении к логическим данным, используя определение истинно положительного (TP), ложноположительного (FP) и ложноотрицательного (FN), его можно записать как
Он отличается от индекса Жаккара, который учитывает истинные положительные результаты только один раз как в числителе, так и в знаменателе. DSC представляет собой частное от подобия и находится в диапазоне от 0 до 1. Его можно рассматривать как меру подобия по множествам.
Подобно индексу Жаккара, операции над множеством могут быть выражены в терминах векторных операций над двоичными векторами a и b:
который дает тот же результат для двоичных векторов, а также дает более общую метрику сходства для векторов в общих чертах.
Для наборов X и Y ключевых слов, используемых при поиске информации, коэффициент может быть определен как удвоенный общий объем информации (пересечение) по сумме мощностей:
При использовании в качестве меры сходства строк коэффициент может быть вычислен для двух строк, x и y, с использованием биграмм следующим образом:
где n t - количество символьных биграмм в обеих строках, n x - количество биграмм в строке x, а n y - количество биграмм в строке y. Например, чтобы вычислить сходство между:
night
nacht
Мы бы нашли набор биграмм в каждом слове:
ni
, ig
, gh
, ht
}na
, ac
, ch
, ht
}Каждый набор состоит из четырех элементов, и пересечение этих двух множеств имеет только один элемент: ht
.
Подставляя эти числа в формулу, вычисляем s = (2 1) / (4 + 4) = 0,25.
Этот коэффициент не сильно отличается по форме от индекса Жаккара. Фактически, оба они эквивалентны в том смысле, что при заданном значении коэффициента Соренсена – Дайса можно вычислить соответствующее значение индекса Жаккара и наоборот, используя уравнения и.
Поскольку коэффициент Соренсена – Дайса не удовлетворяет неравенству треугольника, его можно рассматривать как полуметрическую версию индекса Жаккара.
Функция находится в диапазоне от нуля до единицы, как у Жаккара. В отличие от Жаккара, соответствующая функция разности
не является правильной метрикой расстояния, так как не удовлетворяет неравенству треугольника. Простейший контрпример этому дают три набора {a}, {b} и {a, b}, причем расстояние между первыми двумя равно 1, а разница между третьим и каждым из остальных составляет одну треть.. Чтобы удовлетворить неравенству треугольника, сумма любых двух из этих трех сторон должна быть больше или равна оставшейся стороне. Однако расстояние между {a} и {a, b} плюс расстояние между {b} и {a, b} равно 2/3 и, следовательно, меньше расстояния между {a} и {b}, которое равно 1.
Коэффициент Соренсена-Дайса полезен для данных по экологическому сообществу (например, Looman amp; Campbell, 1960). Обоснование его использования в первую очередь эмпирическое, а не теоретическое (хотя теоретически его можно обосновать как пересечение двух нечетких множеств ). По сравнению с евклидовым расстоянием расстояние Соренсена сохраняет чувствительность в более разнородных наборах данных и придает меньший вес выбросам. В последнее время показатель Dice (и его вариации, например, логарифм logDice) стал популярным в компьютерной лексикографии для измерения показателя лексической ассоциации двух заданных слов. logDice также используется как часть Mash Distance для оценки расстояния генома и метагенома. Наконец, Dice используется при сегментации изображения, в частности, для сравнения выходных данных алгоритма с эталонными масками в медицинских приложениях.
Выражение легко расширяется до численности вместо наличия / отсутствия видов. Эта количественная версия известна под несколькими названиями: