В информатике и статистике Джаро – Винклер расстояние - это строковый показатель, измеряющий расстояние редактирования между двумя последовательностями. Это вариант, предложенный в 1990 г. метрикой расстояния Джаро (1989 г.).
Расстояние Яро – Винклера использует префикс шкала , которая дает более благоприятные оценки строкам, совпадающим с самого начала для установить длину префикса .
Чем меньше расстояние Джаро – Винклера для двух строк, тем они более похожи. Оценка нормализована так, что 0 означает точное совпадение, а 1 означает отсутствие сходства. Сходство Джаро – Винклера является инверсией (1 - расстояние Яро – Винклера).
Хотя расстояние Джаро – Винклера часто называют метрикой расстояния, оно не является метрикой в математическом смысле этого термина, поскольку не подчиняется неравенству треугольника.
Содержание
- 1 Определение
- 1.1 Сходство Джаро
- 1.2 Сходство Джаро – Винклера
- 2 Связь с другими метриками расстояния редактирования
- 3 См. Также
- 4 Сноски
- 5 Ссылки
- 6 Внешние ссылки
Определение
Сходство Джаро
Сходство Джаро двух заданных строк и равно
Где:
- - длина строки ;
- is количество совпадающих символов (см. ниже);
- - половина числа транспозиций (см. ниже).
Два символа из и соответственно считаются совпадающими, только если они совпадают и не дальше символов друг от друга.
Каждый символ сравнивается со всеми соответствующими ему символами в . Количество совпадающих (но различающихся порядком следования) символов, деленное на 2, определяет количество транспозиций. Например, при сравнении CRATE с TRACE совпадающими символами являются только 'R' 'A' 'E', т.е. m = 3. Хотя 'C' и 'T' встречаются в обеих строках, они находятся дальше, чем 1 (результат ). Следовательно, t = 0. В DwAyNE по сравнению с DuANE совпадающие буквы уже находятся в том же порядке D-A-N-E, поэтому транспонирование не требуется.
Сходство Яро – Винклера
Сходство Яро – Винклера использует префикс шкалу , что дает более благоприятные оценки в строки, совпадающие с самого начала для заданной длины префикса . Для двух строк и их сходство по Яро – Винклеру - это:
где:
- - подобие Джаро для строк и
- - длина общего префикса в начале строки вверх максимум 4 символа.
- - постоянный коэффициент масштабирования, определяющий, насколько оценка повышается для наличия общих префиксов. не должно превышать 0,25 (т. Е. 1/4, где 4 - максимальная длина рассматриваемого префикса), в противном случае сходство может стать больше 1. Стандартное значение для этой константы в работе Винклера
Расстояние Яро-Винклера определяется как .
Хотя расстояние Джаро – Винклера часто называют метрикой расстояния, оно не является метрикой в математический смысл этого термина, поскольку он не подчиняется неравенству треугольника . Расстояние Яро – Винклера также не удовлетворяет аксиоме тождества .
Связь с другими метрики расстояния редактирования
Существуют и другие популярные меры расстояния редактирования, которые рассчитываются с использованием другого набора допустимых операций редактирования. Например,
- расстояние Левенштейна допускает удаление, вставку и замену;
- расстояние Дамерау – Левенштейна допускает вставку, удаление, замену, а транспонирование двух соседних символов;
- расстояние самой длинной общей подпоследовательности (LCS) позволяет только вставку и удаление, но не замену;
- Хэмминга расстояние допускает только подстановку, следовательно, применяется только к строкам одинаковой длины.
Расстояние редактирования обычно определяется как параметризуемая метрика, вычисляемая с помощью определенного набора разрешенных операций редактирования, и каждой операции назначается стоимость (возможно, бесконечная). В дальнейшем это обобщается с помощью алгоритмов выравнивания последовательностей ДНК , таких как алгоритм Смита – Уотермана, которые заставляют стоимость операции зависеть от того, где она применяется.
См. Также
Сноски
Ссылки
- Cohen, W.W.; Ravikumar, P.; Финберг, С. Э. (2003). «Сравнение показателей расстояния между строками для задач сопоставления имен» (PDF). KDD Workshop по очистке данных и консолидации объектов. 3 : 73–8.
- (1989). «Достижения в методологии связи записей применительно к переписи 1985 года в Тампе, Флорида». Журнал Американской статистической ассоциации. 84 (406): 414–20. doi : 10.1080 / 01621459.1989.10478785.
- Джаро, М. А. (1995). «Вероятностная привязка большого файла данных общественного здравоохранения». Статистика в медицине. 14 (5–7): 491–8. doi : 10.1002 / sim.4780140510. PMID 7792443.
- (1990). «Метрики компаратора строк и расширенные правила принятия решений в модели связи записей Феллеги-Сантера» (PDF). Материалы раздела по методам опросных исследований. Американская статистическая ассоциация: 354–359.
Внешние ссылки