Коэффициент Соренсена – Дайса

редактировать

Коэффициент Соренсена – Дайса (другие названия см. Ниже) - это статистика, используемая для оценки сходства двух выборок. Он был независимо разработан ботаниками Торвальдом Соренсеном и Ли Раймондом Дайсом, которые опубликовали в 1948 и 1945 годах соответственно.

СОДЕРЖАНИЕ

1 Имя
2 Формула
3 Отличия от Жаккара
4 Приложения
5 Версия изобилия
6 См. Также
7 ссылки
8 Внешние ссылки

Имя

Индекс известен под несколькими другими названиями, в частности индекс Соренсен-Dice, индекс Соренсен и коэффициента DICE в. Другие варианты включают в себя «коэффициент подобия» или «индекс», такой как коэффициент подобия Дайса ( DSC). Общие альтернативные варианты написания для Соренсена - Соренсон, Соеренсон и Соренсон, и все три также можно увидеть с окончанием –sen.

Другие названия включают:

Оценка F1
Бинарный (неколичественный) индекс Чекановского
Мера генетического сходства
Индекс сходства Зийденбоса, ссылаясь на статью Зийденбоса и др. 1994 г.

Формула

Первоначальная формула Соренсена предназначалась для применения к дискретным данным. Учитывая два набора, X и Y, он определяется как

{\ displaystyle DSC = {\ frac {2 | X \ cap Y |} {| X | + | Y |}}}

{\ displaystyle DSC = {\ frac {2 | X \ cap Y |} {| X | + | Y |}}}

где | X | и | Y | - мощности двух наборов (т. е. количество элементов в каждом наборе). Индекс Соренсена равен удвоенному количеству элементов, общих для обоих наборов, деленному на сумму количества элементов в каждом наборе.

При применении к логическим данным, используя определение истинно положительного (TP), ложноположительного (FP) и ложноотрицательного (FN), его можно записать как

{\ displaystyle DSC = {\ frac {2TP} {2TP + FP + FN}}}

{\ displaystyle DSC = {\ frac {2TP} {2TP + FP + FN}}}

Он отличается от индекса Жаккара, который учитывает истинные положительные результаты только один раз как в числителе, так и в знаменателе. DSC представляет собой частное от подобия и находится в диапазоне от 0 до 1. Его можно рассматривать как меру подобия по множествам.

Подобно индексу Жаккара, операции над множеством могут быть выражены в терминах векторных операций над двоичными векторами a и b:

{\ displaystyle s_ {v} = {\ frac {2 | {\ bf {{a} \ cdot {\ bf {{b} |}}}}} {| {\ bf {{a} | ^ {2} + | {\ bf {{b} | ^ {2}}}}}}}}

{\ displaystyle s_ {v} = {\ frac {2 | {\ bf {{a} \ cdot {\ bf {{b} |}}}}} {| {\ bf {{a} | ^ {2} + | {\ bf {{b} | ^ {2}}}}}}}}

который дает тот же результат для двоичных векторов, а также дает более общую метрику сходства для векторов в общих чертах.

Для наборов X и Y ключевых слов, используемых при поиске информации, коэффициент может быть определен как удвоенный общий объем информации (пересечение) по сумме мощностей:

При использовании в качестве меры сходства строк коэффициент может быть вычислен для двух строк, x и y, с использованием биграмм следующим образом:

{\ displaystyle s = {\ frac {2n_ {t}} {n_ {x} + n_ {y}}}}

s = \ frac {2 n_t} {n_x + n_y}

где n t - количество символьных биграмм в обеих строках, n x - количество биграмм в строке x, а n y - количество биграмм в строке y. Например, чтобы вычислить сходство между:

night

nacht

Мы бы нашли набор биграмм в каждом слове:

{ ni, ig, gh, ht}

{ na, ac, ch, ht}

Каждый набор состоит из четырех элементов, и пересечение этих двух множеств имеет только один элемент: ht.

Подставляя эти числа в формулу, вычисляем s = (2 1) / (4 + 4) = 0,25.

Отличие от Жаккара

Этот коэффициент не сильно отличается по форме от индекса Жаккара. Фактически, оба они эквивалентны в том смысле, что при заданном значении коэффициента Соренсена – Дайса можно вычислить соответствующее значение индекса Жаккара и наоборот, используя уравнения и. ${\ displaystyle S}$ $S$ ${\ displaystyle J}$ $J$ ${\ Displaystyle J = S / (2-S)}$ ${\ Displaystyle J = S / (2-S)}$ ${\ Displaystyle S = 2J / (1 + J)}$ ${\ Displaystyle S = 2J / (1 + J)}$

Поскольку коэффициент Соренсена – Дайса не удовлетворяет неравенству треугольника, его можно рассматривать как полуметрическую версию индекса Жаккара.

Функция находится в диапазоне от нуля до единицы, как у Жаккара. В отличие от Жаккара, соответствующая функция разности

{\ displaystyle d = 1 - {\ frac {2 | X \ cap Y |} {| X | + | Y |}}}

d = 1 - \ frac {2 | X \ cap Y |} {| X | + | Y |}

не является правильной метрикой расстояния, так как не удовлетворяет неравенству треугольника. Простейший контрпример этому дают три набора {a}, {b} и {a, b}, причем расстояние между первыми двумя равно 1, а разница между третьим и каждым из остальных составляет одну треть.. Чтобы удовлетворить неравенству треугольника, сумма любых двух из этих трех сторон должна быть больше или равна оставшейся стороне. Однако расстояние между {a} и {a, b} плюс расстояние между {b} и {a, b} равно 2/3 и, следовательно, меньше расстояния между {a} и {b}, которое равно 1.

Приложения

Коэффициент Соренсена-Дайса полезен для данных по экологическому сообществу (например, Looman amp; Campbell, 1960). Обоснование его использования в первую очередь эмпирическое, а не теоретическое (хотя теоретически его можно обосновать как пересечение двух нечетких множеств ). По сравнению с евклидовым расстоянием расстояние Соренсена сохраняет чувствительность в более разнородных наборах данных и придает меньший вес выбросам. В последнее время показатель Dice (и его вариации, например, логарифм logDice) стал популярным в компьютерной лексикографии для измерения показателя лексической ассоциации двух заданных слов. logDice также используется как часть Mash Distance для оценки расстояния генома и метагенома. Наконец, Dice используется при сегментации изображения, в частности, для сравнения выходных данных алгоритма с эталонными масками в медицинских приложениях.

Версия изобилия

Выражение легко расширяется до численности вместо наличия / отсутствия видов. Эта количественная версия известна под несколькими названиями:

Количественный индекс Соренсена – Дайса
Количественный индекс Соренсена
Количественный индекс игры в кости
Сходство Брея-Кертиса (1 минус несходство Брея-Кертиса)
Количественный индекс Чекановского
Индекс Штейнхауза
Процентное сходство Пиелу
1 минус расстояние Хеллингера
Доля конкретного согласия или положительного согласия

Смотрите также

Корреляция
Оценка F1
Индекс Жаккара
Расстояние Хэмминга
Каминный тест
Индекс перекрытия Мориситы
Наиболее часто встречающиеся символы k
Коэффициент перекрытия
Индекс сходства Ренконена (по Олави Ренконену )
Индекс Тверски
Универсальная теория адаптивной стратегии (UAST)

использованная литература

внешние ссылки