Мера сходства

редактировать

В статистике и связанных полях используется мера сходства или функция сходства - это функция с действительным знаком, которая количественно определяет сходство между двумя объектами. Хотя единого определения меры сходства не существует, обычно такие меры в некотором смысле являются инверсией метрики расстояния : они принимают большие значения для похожих объектов и либо нулевое, либо отрицательное значение для очень непохожих объектов.

Косинусное сходство - это обычно используемая мера сходства для векторов с действительным знаком, используемая (среди других полей) в поиске информации для оценки сходства документов в модели векторного пространства. В машинном обучении общие функции ядра, такие как ядро ​​RBF, можно рассматривать как функции подобия.

Содержание
  • 1 Использование в кластеризации
  • 2 Использование в выравнивании последовательностей
  • 3 См. Также
  • 4 Ссылки
Использование в кластеризации

В спектральной кластеризации мера сходства или аффинности используется для преобразования data для преодоления трудностей, связанных с отсутствием выпуклости в форме распределения данных. Эта мера порождает матрицу подобия размера (n, n) {\ displaystyle (n, n)}{ \ displaystyle (n, n)} для набора из n точек, где запись (i, j) {\ displaystyle (i, j)}(i, j) в матрице может быть просто (отрицательным из) евклидово расстояние между i {\ displaystyle i}i и j {\ displaystyle j}j , или это может быть более сложная мера расстояния, такая как гауссово e - ‖ s 1 - s 2 ‖ 2/2 σ 2 {\ displaystyle e ^ {- \ | s_ {1} -s_ {2} \ | ^ {2} / 2 \ sigma ^ {2}}}{\ displaystyle e ^ {- \ | s_ {1} -s_ {2} \ | ^ {2} / 2 \ sigma ^ {2}}} . Также распространено дальнейшее изменение этого результата с помощью методов сетевого анализа.

Использование при выравнивании последовательностей

Матрицы сходства используются при выравнивании последовательностей. Более высокие баллы присваиваются более похожим персонажам, а более низкие или отрицательные баллы - разнородным персонажам.

Нуклеотидные матрицы сходства используются для выравнивания последовательностей нуклеиновых кислот. Поскольку в ДНК обычно встречаются только четыре нуклеотида (аденин (A), цитозин (C), гуанин (G) и Тимин (T)), матрицы сходства нуклеотидов намного проще, чем матрицы сходства белков. Например, простая матрица присваивает идентичным базам оценку +1, а неидентичным базам оценку -1. Более сложная матрица даст более высокий балл переходам (переходы от пиримидина, такого как C или T, к другому пиримидину, или от пурина, такого как A или G, к другому пурину) чем трансверсии (от пиримидина к пурину или наоборот). Отношение совпадения / несоответствия матрицы устанавливает целевое эволюционное расстояние. Матрица ДНК + 1 / −3, используемая BLASTN, лучше всего подходит для поиска совпадений между последовательностями, которые идентичны на 99%; Матрица + 1 / −1 (или + 4 / −4) намного больше подходит для последовательностей с примерно 70% сходством. Матрицы для последовательностей с меньшим сходством требуют более длинных выравниваний последовательностей.

Матрицы сходства аминокислот являются более сложными, потому что существует 20 аминокислот, кодируемых генетическим кодом, и, следовательно, большее количество возможных замен. Следовательно, матрица подобия для аминокислот содержит 400 элементов (хотя обычно она симметрична ). При первом подходе все аминокислотные изменения оценивались одинаково. Дальнейшее уточнение заключалось в определении сходства аминокислот на основе того, сколько изменений оснований потребовалось для изменения кодона, кодирующего эту аминокислоту. Эта модель лучше, но она не учитывает селективное давление аминокислотных изменений. Лучшие модели учитывали химические свойства аминокислот.

Один из подходов заключался в эмпирическом создании матриц сходства. В методе Dayhoff использовались филогенетические деревья и последовательности, взятые из видов на дереве. Этот подход привел к созданию серии матриц PAM. Матрицы PAM маркируются в зависимости от того, сколько нуклеотидных изменений произошло на 100 аминокислот. В то время как матрицы PAM выигрывают от наличия хорошо изученной эволюционной модели, они наиболее полезны на коротких эволюционных расстояниях (PAM10 – PAM120). На больших эволюционных дистанциях, например, PAM250 или 20% идентичности, было показано, что матрицы BLOSUM намного более эффективны.

Серии BLOSUM были созданы путем сравнения ряда расходящихся последовательностей. Серии BLOSUM маркируются в зависимости от того, сколько энтропии остается неизмененной между всеми последовательностями, поэтому меньшее число BLOSUM соответствует большему числу PAM.

См. Также
Ссылки
Последняя правка сделана 2021-06-08 09:23:24
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте