В эволюционной биологии, консервативные последовательности являются идентичными или похожими последовательностями в нуклеиновой кислоте кислоты (ДНК и РНК ) или белки разных видов (ортологичные последовательности ) или в пределах генома (паралогичные последовательности ) или между донорными и рецепторными таксонами (ксенологические последовательности ). Сохранение указывает на то, что последовательность поддерживалась естественным отбором.
Высококонсервативная последовательность - это последовательность, которая оставалась относительно неизменной на протяжении длительного периода филогенетического дерева и, следовательно, в далеком геологическом время. Примеры высококонсервативных последовательностей включают компоненты РНК рибосом, присутствующие во всех доменах жизни, последовательности гомеобокса, широко распространенные среди Эукариоты и тмРНК в Бактериях. Изучение сохранения последовательностей пересекается с областями геномики, протеомики, эволюционной биологии, филогенетики, биоинформатики и математика.
Открытие роли ДНК и наблюдения Фредерика Сэнгер различия между животными инсулинами в 1949 году побудил первых молекулярных биологов изучить таксономию с молекулярной точки зрения. В исследованиях 1960-х годов использовались методы гибридизации ДНК и перекрестной реактивности белков для измерения сходства между известными ортологическими белками, такими как гемоглобин и цитохром c <83.>. В 1965 году Эмиль Цукеркандл и Линус Полинг представили концепцию молекулярных часов, предложив, что постоянные скорости замены аминокислот могут быть использованы для оценки времени, прошедшего с два организма разошлись. Хотя первоначальная филогения почти соответствовала палеонтологической летописи, наблюдения, что некоторые гены, по-видимому, эволюционировали с разной скоростью, привели к развитию теорий молекулярной эволюции. Маргарет Дейхофф 1966 г. сравнение последовательностей ферродоксина показало, что естественный отбор будет действовать для сохранения и оптимизации белковых последовательностей, необходимых для жизни.
На протяжении многих поколений нуклеиновые кислотные последовательности в геноме эволюционной линии могут постепенно меняться со временем из-за случайных мутаций и делеций. Последовательности также могут рекомбинировать или удаляться из-за хромосомных перестроек. Консервативные последовательности - это последовательности, которые сохраняются в геноме, несмотря на такие силы, и имеют более медленную скорость мутации, чем скорость фоновой мутации.
Сохранение может происходить в кодирующем и некодирующем последовательности нуклеиновых кислот. Считается, что высококонсервативные последовательности ДНК имеют функциональную ценность, хотя роль многих высококонсервативных некодирующих последовательностей ДНК плохо изучена. На степень консервативности последовательности может влиять давление отбора, ее устойчивость к мутации, размер популяции и генетический дрейф. Многие функциональные последовательности также модульные, содержащие области, которые могут подвергаться независимым давлениям отбора, такие как белковые домены.
при кодировании последовательности, нуклеиновая кислота и аминокислотная последовательность могут быть консервативными в разной степени, поскольку вырожденность генетического кода означает, что синонимичные мутации в кодирующей последовательности не влияют на аминокислотную последовательность его белкового продукта.
Аминокислотные последовательности могут сохраняться для поддержания структуры или функции белка или домена. Консервированные белки подвергаются меньшему заменам аминокислот или с большей вероятностью заменяют аминокислоты с аналогичными биохимическими свойствами. В пределах последовательности аминокислоты, которые важны для фолдинга, структурной стабильности или которые образуют сайт связывания, могут быть более высококонсервативными.
Последовательность нуклеиновой кислоты ген, кодирующий белок, также может сохраняться при других давлениях отбора. Ошибка использования кодона в некоторых организмах может ограничивать типы синонимичных мутаций в последовательности. Последовательности нуклеиновых кислот, которые вызывают вторичную структуру в мРНК кодирующего гена, могут быть отобраны, поскольку некоторые структуры могут отрицательно влиять на трансляцию, или консервативны, когда мРНК также действует как функциональная некодирующая РНК.
Некодирующие последовательности, важные для регуляции гена, такие как сайты связывания или узнавания рибосом и факторов транскрипции, может сохраняться в геноме. Например, промотор консервативного гена или оперон также может быть консервативным. Как и в случае с белками, нуклеиновые кислоты, которые важны для структуры и функции некодирующей РНК (нкРНК), также могут быть консервативными. Однако консервативность последовательностей в нкРНК обычно низка по сравнению с последовательностями, кодирующими белок, и вместо этого часто консервативны пары оснований, которые вносят вклад в структуру или функцию.
Консервативны последовательности обычно идентифицируются с помощью подходов биоинформатики, основанных на выравнивании последовательностей. Достижения в области высокопроизводительного секвенирования ДНК и масс-спектрометрии белков существенно повысили доступность белковых последовательностей и полных геномов для сравнения с начала 2000-х годов.
Консервативные последовательности могут быть идентифицированы с помощью поиска гомологии с использованием таких инструментов, как BLAST, HMMER, OrthologR и Infernal. Инструменты поиска гомологии могут принимать в качестве входных данных отдельную последовательность нуклеиновой кислоты или белка или использовать статистические модели, созданные на основе выравнивания нескольких последовательностей известных родственных последовательностей. Статистические модели, такие как profile-HMMs и модели ковариации РНК, которые также включают структурную информацию, могут быть полезны при поиске более отдаленно связанных последовательностей. Затем входные последовательности сравнивают с базой данных последовательностей от родственных особей или других видов. Затем полученные выравнивания оцениваются на основе числа совпадающих аминокислот или оснований и числа пробелов или делеций, созданных при выравнивании. Приемлемые консервативные замены могут быть идентифицированы с использованием матриц замен, таких как PAM и BLOSUM. Предполагается, что выравнивания с высокими баллами происходят от гомологичных последовательностей. Затем о сохранении последовательности можно сделать вывод путем обнаружения очень похожих гомологов в широком филогенетическом диапазоне.
Множественные выравнивания последовательностей можно использовать для визуализации консервативных последовательностей. Формат CLUSTAL включает простой текстовый ключ для аннотирования консервативных столбцов выравнивания, обозначающий консервативную последовательность (*), консервативные мутации (:), полуконсервативные мутации (.) И неконсервативные мутации () Логотипы последовательностей также могут отображать консервативную последовательность, представляя пропорции символов в каждой точке выравнивания по высоте.
Выравнивание всего генома (WGA) также можно использовать для идентификации высококонсервативных областей у разных видов. В настоящее время точность и масштабируемость инструментов WGA остаются ограниченными из-за вычислительной сложности работы с перестройками, повторяющимися областями и большим размером многих геномов эукариот. Тем не менее, WGA 30 или более близкородственных бактерий (прокариот) в настоящее время становятся все более возможными.
В других подходах используются измерения консервации на основе статистических тестов, которые пытаются для идентификации последовательностей, которые мутируют иначе, чем ожидаемая частота фоновых (нейтральных) мутаций.
Система GERP (Genomic Evolutionary Rate Profiling) оценивает сохранение генетических последовательностей у разных видов. Этот подход оценивает скорость нейтральных мутаций в наборе видов на основе множественного выравнивания последовательностей, а затем идентифицирует области последовательности, которые демонстрируют меньше мутаций, чем ожидалось. Затем этим областям присваиваются баллы на основе разницы между наблюдаемой частотой мутаций и ожидаемой частотой фоновых мутаций. Тогда высокий показатель GERP указывает на высококонсервативную последовательность.
СПИСОК (локальная идентичность и общие таксоны) основан на предположении, что вариации, наблюдаемые у видов, тесно связанных с человеком, более значительны при оценке сохранения по сравнению с теми, которые находятся в отдаленных местах. родственные виды. Таким образом, LIST использует идентичность локального выравнивания вокруг каждой позиции для идентификации соответствующих последовательностей при множественном выравнивании последовательностей (MSA), а затем оценивает сохранность на основе таксономических расстояний этих последовательностей до человека. В отличие от других инструментов, LIST игнорирует количество / частоту изменений MSA.
объединяет множественные сопоставления с филогенетическим анализом для анализа изменений в гомологичных белках и построения графика, который указывает локальные скорости эволюционных изменений. Этот подход позволяет идентифицировать эволюционно ограниченные области в белке, которые представляют собой сегменты, которые подлежат очищающему отбору и обычно являются критическими для нормальной функции белка.
Другие подходы, такие как PhyloP и PhyloHMM, включают методы статистической филогенетики для сравнения вероятностных распределений скоростей замен, что позволяет обнаруживать как консервативные, так и ускоренные мутации. Сначала генерируется фоновое распределение вероятностей количества замен, которые, как ожидается, произойдут для столбца при множественном выравнивании последовательностей, на основе филогенетического дерева. Предполагаемые эволюционные отношения между интересующими видами используются для расчета значимости любых замен (т.е. замена между двумя близкородственными видами может иметь меньшую вероятность, чем отдаленно связанные виды, и, следовательно, более значима). Для выявления сохранения рассчитывается распределение вероятностей для подмножества множественного выравнивания последовательностей и сравнивается с фоновым распределением с использованием статистического теста, такого как тест отношения правдоподобия или тест на оценку. P-значения, полученные при сравнении двух распределений, затем используются для идентификации консервативных областей. PhyloHMM использует скрытые марковские модели для генерации вероятностных распределений. Программный пакет PhyloP сравнивает распределения вероятностей с использованием теста отношения правдоподобия или теста оценки, а также с использованием системы оценки, подобной GERP.
Ультраконсервативные элементы или UCE - это последовательности, которые очень похожи или идентичны во множестве таксономических групп. Впервые они были обнаружены у позвоночных, а впоследствии были идентифицированы среди самых разных таксонов. Хотя происхождение и функция UCE плохо изучены, они использовались для исследования глубинных расхождений у амниот, насекомых и между животными и растения.
Наиболее консервативные гены - это те, которые можно найти во всех организмах. Они состоят в основном из нкРНК и белков, необходимых для транскрипции и трансляции, которые, как предполагается, были сохранены от последнего универсального общего предка всей жизни.
Гены или семейства генов, которые оказались универсально консервативными, включают GTP-связывающие факторы элонгации, метионинаминопептидазу 2, серин гидроксиметилтрансфераза и переносчики АТФ. Компоненты механизма транскрипции, такие как РНК-полимераза и геликазы, и компоненты механизма трансляции, такие как рибосомные РНК, тРНК и рибосомные белки также универсально консервативны.
Наборы консервативных последовательностей часто используются для создания филогенетических деревьев, поскольку можно предположить, что организмы со сходными последовательностями тесно связаны между собой. Выбор последовательностей может варьироваться в зависимости от таксономической области исследования. Например, наиболее консервативные гены, такие как 16S РНК и другие рибосомные последовательности, полезны для реконструкции глубоких филогенетических отношений и идентификации бактериального типа в исследованиях метагеномики. Последовательности, которые консервативны в кладе, но претерпевают некоторые мутации, такие как гены домашнего хозяйства, могут быть использованы для изучения видовых взаимоотношений. Область внутреннего транскрибируемого спейсера (ITS), необходимая для размещения консервативных генов рРНК, но претерпевающая быструю эволюцию, обычно используется для классификации грибов и штаммов быстро развивающихся бактерий.
Поскольку высококонсервативные последовательности часто выполняют важные биологические функции, они могут быть полезны в качестве отправной точки для определения причины генетических заболеваний. Многие врожденные нарушения обмена веществ и лизосомные болезни накопления являются результатом изменений отдельных консервативных генов, что приводит к отсутствию или дефекту ферментов, которые являются основной причиной симптомов заболевания. Генетические заболевания можно предсказать, идентифицируя последовательности, которые сохраняются между людьми и лабораторными организмами, такими как мыши или плодовые мухи, и изучая эффекты нокаутов эти гены. Исследования ассоциаций на уровне всего генома также можно использовать для выявления вариаций консервативных последовательностей, связанных с заболеванием или последствиями для здоровья.
Идентификация консервативных последовательностей может быть используется для обнаружения и прогнозирования функциональных последовательностей, таких как гены. Консервативные последовательности с известной функцией, такие как белковые домены, также можно использовать для прогнозирования функции последовательности. Базы данных консервативных белковых доменов, такие как Pfam и консервативная база данных доменов, могут использоваться для аннотирования функциональных доменов в предсказанных генах, кодирующих белок.