Строковая метрика

редактировать
«Расстояние строки» перенаправляется сюда. Информацию о расстоянии между струнами и грифом музыкальных инструментов см. В разделе « Действие (музыка)».

В математике и информатике, струна метрика (также известная как струна подобие метрическая или строке функция расстояния ) является метрикой, что меры расстояние ( «обратное подобие») между двумя текстовыми строками для приблизительного совпадения строк или сравнений и нечеткого поиск строки. Требование для метрики строки (например, в отличие от сопоставления строк ) - выполнение неравенства треугольника. Например, строки «Сэм» и «Самуэль» можно считать близкими. Строковая метрика представляет собой число, указывающее расстояние, зависящее от алгоритма.

Наиболее широко известная строковая метрика - это элементарная метрика, называемая расстоянием Левенштейна (также известное как расстояние редактирования). Он работает между двумя входными строками, возвращая число, эквивалентное количеству замен и удалений, необходимых для преобразования одной входной строки в другую. Упрощенные метрики, такие как строковые расстояния Левенштейна расширились, чтобы включать в себя фонетические, лексем, грамматические и символьные методы, основанные на статистических сравнений.

Строковые метрики широко используются при интеграции информации и в настоящее время используются в таких областях, как обнаружение мошенничества, анализ отпечатков пальцев, обнаружение плагиата, объединение онтологий, анализ ДНК, анализ РНК, анализ изображений, доказательное машинное обучение, дедупликация данных базы данных, интеллектуальный анализ данных, инкрементальный анализ. поиск, интеграция данных, обнаружение вредоносных программ и интеграция семантических знаний.

Содержание
  • 1 Список строковых показателей
  • 2 Примеры выбранных струнных мер
  • 3 ссылки
  • 4 Внешние ссылки
Список строковых показателей
Примеры выбранных строковых мер
Имя Пример
Расстояние Хэмминга « Ка рол в » и « ка втро в » - 3.
Расстояние Левенштейна и Damerau-расстояние Левенштейна k itt e n и s itt i n g имеют расстояние 3.
  1. k itten → s itten (замена «k» на «s»)
  2. sitt e n → sitt i n (замена «i» на «e»)
  3. sittin → sittin g (вставка буквы "g" в конце).
Расстояние Яро – Винклера JaroWinklerDist («МАРТА», «МАРХТА») =
d j знак равно 1 3 ( м | s 1 | + м | s 2 | + м - т м ) знак равно 1 3 ( 6 6 + 6 6 + 6 - 2 2 6 ) знак равно 0,944 {\ displaystyle d_ {j} = {\ frac {1} {3}} \ left ({\ frac {m} {| s_ {1} |}} + {\ frac {m} {| s_ {2} | }} + {\ frac {mt} {m}} \ right) = {\ frac {1} {3}} \ left ({\ frac {6} {6}} + {\ frac {6} {6} } + {\ frac {6 - {\ frac {2} {2}}} {6}} \ right) = 0,944}
  • м {\ displaystyle m} это количество совпадающих символов ;
  • т {\ displaystyle t} составляет половину количества транспозиций ( "MARTHA"[3]!=H, "MARHTA"[3]!=T).
Наиболее часто встречающиеся символы k MostFreqKeySimilarity (' r e s e a r ch', 's ee king', 2) = 2

Рекомендации

внешняя ссылка
Последняя правка сделана 2023-03-31 09:08:43
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте