Реконструкция предков

редактировать

Реконструкция предков (также известна как Отображение символов или Оптимизация символов ) - это экстраполяция назад во времени от измеренных характеристик индивидов (или популяций) к их общим предкам. Это важное приложение филогенетики, реконструкция и изучение эволюционных отношений между людьми, популяциями или видами их предками. В контексте эволюционной биологии реконструкция предков может использоваться для восстановления различных типов состояний предков организмов, которые жили миллионы лет назад. Эти состояния включают генетическую последовательность (реконструкцию предковой последовательности ), аминокислотную последовательность белка, состав геном (например, порядок генов), измеримая характеристика организма (фенотип ) и географический диапазон предковой популяции или вида (реконструкция предкового диапазона). Это желательно, потому что это позволяет нам исследовать части филогенетических деревьев, соответствующие далекому прошлому, проясняя историю эволюции видов на дереве. Поскольку современные генетические последовательности по существу являются вариациями древних последовательностей, доступ к древним последовательностям может идентифицировать другие вариации и организмы, которые могли возникнуть из этих последовательностей. Помимо генетических последовательностей, можно попытаться отследить изменение одной черты характера на другую, например, превращение плавников в ноги.

Небиологические приложения включают реконструкцию словаря или фонем древних языков и культурных характеристик древних обществ, таких как устные традиции или брачные обычаи.

Реконструкция предков. полагается на достаточно реалистичную статистическую модель эволюции для точного восстановления предковых состояний. Эти модели используют генетическую информацию, уже полученную с помощью таких методов, как филогенетика, чтобы определить путь, по которому прошла эволюция и когда произошли эволюционные события. Однако независимо от того, насколько хорошо модель приближается к реальной эволюционной истории, способность точно реконструировать предка ухудшается с увеличением времени эволюции между этим предком и его наблюдаемыми потомками. Кроме того, более реалистичные модели эволюции неизбежно становятся более сложными и трудными для расчета. Прогресс в области реконструкции предков во многом опирался на экспоненциальный рост вычислительной мощности и сопутствующее развитие эффективных вычислительных алгоритмов (например, алгоритма динамического программирования для совместной реконструкции предковых последовательностей с максимальной вероятностью ). Методы реконструкции предков часто применяются к заданному филогенетическому дереву, которое уже было выведено из тех же данных. Этот подход удобен, но имеет тот недостаток, что его результаты зависят от точности одного филогенетического дерева. Напротив, некоторые исследователи выступают за более интенсивный с точки зрения вычислений байесовский подход, который учитывает неопределенность в реконструкции дерева путем оценки наследственных реконструкций по множеству деревьев.

Содержание
  • 1 История
  • 2 Методы и алгоритмы
    • 2.1 Максимальная экономия
    • 2.2 Максимальное правдоподобие
      • 2.2.1 Предельное и совместное правдоподобие
    • 2.3 Байесовский вывод
      • 2.3.1 Эмпирический и иерархический байесовский
    • 2.4 Калибровка
  • 3 Модели
    • 3.1 Модели с дискретным состоянием
      • 3.1.1 Пример: модель видообразования и исчезновения двоичного состояния
    • 3.2 Модели с непрерывным состоянием
  • 4 Приложения
    • 4.1 Эволюция характера
      • 4.1.1 Эволюция поведения и жизненного цикла
        • 4.1.1.1 Реконструкция диеты галапагосских вьюрков
      • 4.1.2 Эволюция морфологического и физиологического характера
        • 4.1.2.1 Масса тела млекопитающих
        • 4.1.2.2 Коррелированная эволюция характера
      • 4.1.3 Молекулярная эволюция
        • 4.1.3.1 Дизайн вакцины
        • 4.1.3.2 Перестройки генома
      • 4.1.4 Пространственные приложения
        • 4.1.4.1 Миграция
        • 4.1. 4.2 Диапазоны видов
      • 4.1.5 Лингвистическая эволюция
  • 5 Программное обеспечение
    • 5.1 Описание пакетов
      • 5.1.1 Молекулярная эволюция
      • 5.1.2 Другие типы символов
      • 5.1.3 Веб-приложения
  • 6 Направления будущего
  • 7 См. Также
  • 8 Ссылки
История

Концепция реконструкции предков часто приписывается Эмилю Цукеркандлю и Линусу Полингу. Мотивированные разработкой методов определения первичной (аминокислотной) последовательности белков Фредериком Сэнгером в 1955 году, Цукеркандл и Полинг постулировали, что такие последовательности можно использовать не только для вывода филогения, относящаяся к наблюдаемым белковым последовательностям, а также к предковой белковой последовательности в самой ранней точке (корне) этого дерева. Однако идея реконструкции предков по измеримым биологическим характеристикам уже развивалась в области кладистики, одного из предшественников современной филогенетики. Кладистические методы, появившиеся еще в 1901 году, делают вывод об эволюционных взаимоотношениях видов на основе распределения общих характеристик, некоторые из которых, как предполагается, произошли от общих предков. Кроме того, и Альфред Стертевант сформулировал принципы наследственной реконструкции в филогенетическом контексте в 1938 году, когда сделал вывод об эволюционной истории хромосомных инверсий в Drosophila pseudoobscura.

Таким образом, предковые реконструкция имеет свои корни в нескольких дисциплинах. Сегодня вычислительные методы реконструкции предков продолжают расширяться и применяться в различных условиях, так что предковые состояния выводятся не только по биологическим характеристикам и молекулярным последовательностям, но также по структуре или каталитическим свойствам сравнения древних и современных белков, географического положения популяций и видов (филогеография ) и структуры геномов более высокого порядка. Один из самых ярких примеров - прослеживание эволюции от обезьяны к человеку.

Методы и алгоритмы

Любая попытка реконструкции предков начинается с филогении. В общем, филогения - это основанная на древе гипотеза о порядке, в котором популяции (называемые таксоны ) связаны по происхождению от общих предков. Наблюдаемые таксоны представлены кончиками или конечными узлами дерева, которые постепенно соединяются ветвями со своими общими предками, которые представлены точками ветвления дерева, которые обычно называют предковыми или внутренними узлами. В конце концов, все линии сходятся к самому последнему общему предку всей выборки таксонов. В контексте реконструкции предков филогения часто рассматривается как известная величина (за исключением байесовских подходов). Поскольку может существовать огромное количество филогений, которые почти одинаково эффективны для объяснения данных, сокращение подмножества филогений, поддерживаемых данными, до одной репрезентативной или точечной оценки может быть удобным, а иногда и необходимым упрощающим предположением.

Реконструкция предков может рассматриваться как прямой результат применения гипотетической модели эволюции к данной филогении. Когда модель содержит один или несколько свободных параметров, общая цель состоит в том, чтобы оценить эти параметры на основе измеренных характеристик среди наблюдаемых таксонов (последовательностей), которые произошли от общих предков. Экономия - важное исключение из этой парадигмы: хотя было показано, что есть обстоятельства, при которых она является оценкой максимального правдоподобия, по сути, она просто основана на эвристике, согласно которой изменения состояния символа редко, без попытки количественно оценить эту редкость.

Существует три разных класса методов реконструкции предков. В хронологическом порядке открытия это максимальная экономия, максимальная вероятность и байесовский вывод. Максимальная экономия считает все эволюционные события одинаково вероятными; максимальная вероятность объясняет различную вероятность определенных классов событий; а вывод Байейса связывает условную вероятность события с вероятностью дерева, а также степенью неопределенности, которая связана с этим деревом. Максимальная экономия и максимальная вероятность дают единственный наиболее вероятный результат, тогда как байесовский вывод учитывает неопределенности в данных и дает выборку возможных деревьев.

Максимальная экономия

Экономия, известная в просторечии как «бритва Оккама », относится к принципу выбора простейшей из конкурирующих гипотез. В контексте реконструкции предков, экономия пытается найти распределение состояний предков в пределах данного дерева, которое минимизирует общее количество изменений состояния персонажа, которые были бы необходимы для объяснения состояний, наблюдаемых на концах дерева. Этот метод максимальной экономии является одним из первых формализованных алгоритмов восстановления предковых состояний, а также одним из самых простых.

Максимальная экономия может быть реализована с помощью одного из нескольких алгоритмов. Одним из самых ранних примеров является метод Fitch, который присваивает наследственные состояния символов путем экономии посредством двух обходов корневого двоичного дерева. Первый этап - это обход после заказа, который переходит от кончиков к корню дерева, посещая дочерние (дочерние) узлы раньше их родителей. Первоначально мы определяем набор возможных состояний символа S i для i-гопредка на основе наблюдаемых состояний символа его потомков. Каждое присвоение - это пересечение множества состояний символов потомков предка; если пересечение представляет собой пустое множество, то это объединение множеств . В последнем случае подразумевается, что между предком и одним из двух его непосредственных потомков произошло изменение состояния символа. Каждое такое событие учитывается в функции стоимости алгоритма, которую можно использовать для различения альтернативных деревьев на основе максимальной экономии. Затем выполняется предварительный обход дерева, начиная от корня к вершинам. Затем состояния символов назначаются каждому потомку в зависимости от того, какие состояния символа он разделяет со своим родителем. Поскольку у корня нет родительского узла, может потребоваться произвольно выбрать состояние символа, особенно когда в корне восстановлено более одного возможного состояния.

Филогения гипотетического рода растений со состояниями опыления «пчелы», «колибри» или «ветер», обозначенные рисунками на концах. Узлы состояния опыления в филогенетическом дереве, предполагаемые при максимальной экономичности, окрашены на ветвях, ведущих в них (желтый цвет представляет опыление пчелами, красный цвет представляет опыление «колибри», а черный - опыление «ветром», двухцветные ветви одинаково экономны для растений. два состояния раскрашены). Присвоение «колибри» в качестве корневого состояния (из-за предшествующего знания из летописи окаменелостей) приводит к паттерну предковых состояний, представленному символами в узлах филогении, состоянию, требующему наименьшего количества изменений, чтобы вызвать паттерн, наблюдаемый в кончики обведены кружком на каждом узле.

Например, рассмотрим филогенез, восстановленный для рода растений, состоящего из 6 видов A - F, где каждое растение опыляется «пчелой», «колибри» или «ветром». Возникает очевидный вопрос: какие опылители в более глубоких узлах были в филогении этого рода растений. При максимальной экономии реконструкция предкового состояния для этой клады показывает, что «колибри» является наиболее экономным предковым состоянием для нижней клады (растения D, E, F), которое предки определяют для узлов в верхней кладе (растения A, B, C) двусмысленны и что опылители "колибри" и "пчелы" одинаково правдоподобны для состояния опыления в корне филогении. Предположим, что у нас есть веские доказательства из летописи окаменелостей, что корневое состояние - «колибри». Преобразование корня в "колибри" даст образец реконструкции предкового состояния, изображенный символами в узлах, при этом состояние, требующее наименьшего количества изменений, обведено кружком.

Методы экономии интуитивно привлекательны и очень эффективны, так что они все еще используются в некоторых случаях для засеивания алгоритмов оптимизации максимального правдоподобия исходной филогении. Однако лежащее в основе предположение о том, что эволюция достигла определенного конечного результата как можно быстрее, неточно. Естественный отбор и эволюция не работают для достижения цели, они просто выбирают за или против случайно происходящих генетических изменений. Методы экономии предполагают шесть общих допущений: что филогенетическое дерево, которое вы используете, является правильным, что у вас есть все соответствующие данные, в которых не было сделано ошибок при кодировании, что все ветви филогенетического дерева с одинаковой вероятностью изменятся, что скорость эволюции низкая, и вероятность потери или приобретения характеристики одинакова. На самом деле предположения часто нарушаются, что приводит к нескольким проблемам:

  1. Разница в темпах эволюции. Метод Fitch предполагает, что изменения между всеми состояниями персонажа имеют одинаковую вероятность; таким образом, любое изменение требует одинаковых затрат для данного дерева. Это предположение часто нереалистично и может ограничивать точность таких методов. Например, переходы имеют тенденцию происходить чаще, чем трансверсии в эволюции нуклеиновых кислот. Это предположение можно ослабить, присвоив разную стоимость изменениям состояния конкретного символа, что приведет к взвешенному алгоритму экономии.
  2. Быстрая эволюция. Результатом эвристики «минимальной эволюции», лежащей в основе таких методов, является то, что такие методы предполагают, что изменения редки, и поэтому не подходят в тех случаях, когда изменение является нормой, а не исключением.
  3. Вариация во времени между линиями. Методы экономии неявно предполагают, что вдоль каждой ветви дерева прошло одинаковое количество эволюционного времени. Таким образом, они не учитывают различия в длине ветвей дерева, которые часто используются для количественной оценки эволюционного или хронологического времени. Это ограничение заставляет метод делать вывод, что одно изменение произошло на очень короткой ветви, а не несколько изменений, например, на очень длинной ветви. Кроме того, возможно, что некоторые ветви деревамогут подвергаться более высокому выбору и изменению, чем другие, возможно, из-за изменения факторов окружающей среды. Некоторые периоды времени могут представлять более быструю эволюцию, чем другие, когда это происходит, экономия становится неточной. Этот недостаток устраняется с помощью методов, основанных на модели (как метода максимального правдоподобия, так и байесовского метода), которые выводят стохастический процесс эволюции по мере его развития вдоль каждой ветви дерева.
  4. Статистическое обоснование. Без статистической модели, лежащей в основе метода, его оценки не имеют четко определенных неопределенностей.
  5. Конвергентная эволюция. При рассмотрении состояния одного персонажа экономия автоматически предполагает, что два организма, которые разделяют эту характеристику, будут более тесно связаны между собой, чем те, которые не имеют. Например, то, что у собак и обезьян есть мех, не означает, что они более тесно связаны с людьми, чем обезьяны.

Максимальное правдоподобие

Максимальное правдоподобие (ML) методы реконструкции предкового состояния обрабатывают состояния персонажей во внутренних узлах дерева в качестве параметров и попытаться найти значения параметров, которые максимизируют вероятность данных (наблюдаемые состояния признаков) с учетом гипотезы (модели эволюции и филогении, связывающих наблюдаемые последовательности или таксоны). Другими словами, этот метод предполагает, что предковые состояния являются наиболее вероятными статистически с учетом наблюдаемых фенотипов. Некоторые из самых ранних подходов ML к реконструкции предков были разработаны в контексте эволюции генетической последовательности ; аналогичные модели были также разработаны для аналогичного случая эволюции дискретного характера.

Использование модели эволюции объясняет тот факт, что не все события могут произойти с одинаковой вероятностью. Например, переход , который представляет собой тип точечной мутации от одного пурина к другому или от одного пиримидина к другому, гораздо более вероятен, чем трансверсия, которая является шанс перехода пурина на пиримидин или наоборот. Эти различия не улавливаются максимальной экономией. Однако то, что одни события более вероятны, чем другие, не означает, что они всегда происходят. Мы знаем, что на протяжении истории эволюции были времена, когда существовал большой разрыв между тем, что могло произойти, и тем, что произошло на самом деле. В этом случае максимальная экономия может быть более точной, потому что она более склонна к большим, маловероятным прыжкам, чем максимальная вероятность. Было показано, что максимальное правдоподобие достаточно надежно для реконструкции состояний характера, но оно не дает точных оценок стабильности белков. Максимальная вероятность всегда переоценивает стабильность белков, что имеет смысл, поскольку предполагает, что белки, которые были произведены и использованы, были наиболее стабильными и оптимальными. Достоинства максимального правдоподобия были предметом споров, и некоторые пришли к выводу, что тест максимального правдоподобия представляет собой хорошее средство между точностью и скоростью. Однако другие исследования жаловались, что максимальная вероятность требует слишком много времени и вычислительной мощности, чтобы быть полезной в некоторых сценариях.

В этих подходах используется та же вероятностная структура, что и для вывода филогенетического дерева. Вкратце, эволюция генетической последовательности моделируется обратимым во времени непрерывным временем марковским процессом. В простейшем из них все символы претерпевают независимые переходы состояний (например, нуклеотидные замены) с постоянной скоростью во времени. Эта базовая модель часто расширяется, чтобы разрешить разные ставки для каждой ветви дерева. В действительности, частота мутаций также может меняться со временем (например, из-за изменений окружающей среды); это можно смоделировать, разрешив параметрам скорости эволюционировать по дереву за счет увеличения количества параметров. Модель определяет вероятности перехода из состояний i в j вдоль ветви длины t (в единицах эволюционного времени). Вероятность филогении вычисляется из вложенной суммы вероятностей перехода, которая соответствует иерархической структуре предложенного дерева. В каждом узле вероятность его потомков суммируется по всем возможным состояниям предкового характера в этом узле:

L x = ∑ S x ∈ Ω P (S x) (∑ S y ∈ Ω P (S y | S x, txy) L Y ∑ S z ∈ Ω п (S z | S x, txz) L z) {\ displaystyle L_ {x} = \ sum _ {S_ {x} \ in \ Omega} P (S_ {x}) \ left (\ sum _ {S_ {y} \ in \ Omega} P (S_ {y} | S_ {x}, t_ {xy}) L_ {y} \ sum _ {S_ {z} \ in \ Omega } P (S_ {z} | S_ {x}, t_ {xz}) L_ {z} \ right)} L_x = \sum_{S_x\in \Omega} P(S_x) \left(\sum_{S_y\in \Omega} P(S_y | S_x, t_{xy}) L_y \sum_{S_z\in \Omega} P(S_z | S_x, t_{xz}) L_z\right)

где мы вычисляем вероятность поддерева с корнем в узле x с прямым потомки y и z, S i {\ displaystyle S_ {i}}S_{i}обозначает состояние символа i-го узла, tij {\ displaystyle t_ {ij}}t_{{ij}}- длина ветви (времячтовероятность может быть произвольно большой, поэтому байесовские методы более подходят.

Приложения

Развитие персонажа

Реконструкция предков широко используется для вывода экологических, фенотипических или биогеографических признаков, связанных с предковыми узлами в филогенетическом дереве. Все методы реконструкции наследственных черт имеют подводные камни, поскольку они используют математические модели для прогнозирования того, как черты изменились при большом количестве недостающих данных. Эти недостающие данные включают состояние вымерших видов, относительные скорости эволюционных изменений, знание начальных состояний признаков и точность филогенетических деревьев. Во всех случаях, когда используется реконструкция наследственных признаков, результаты должны быть подтверждены анализом биологических данных, которые подтверждают выводы, основанные на модели. Гриффит О.В. и др.

Реконструкция предков позволяет изучать эволюционные пути, адаптивный отбор, экспрессию генов развития и функциональную дивергенцию эволюционного прошлого. Для обзора биологических и вычислительных методов реконструкции предков см. Chang et al. Для критики методов вычисления реконструкции предков см. Williams P.D. и др..

Поведение и эволюция жизненного цикла

У рогатых ящериц (род Phrynosoma ), живорождения (живые рождение) эволюционировала несколько раз на основе методов реконструкции предков.

Реконструкция диеты галапагосских вьюрков

Имеются как филогенетические, так и характерные данные для излучения вьюрков, населяющих Галапагосские острова. Эти данные позволяют проверить гипотезы относительно времени и порядка изменений состояния персонажа во времени посредством реконструкции предкового состояния. В течение засушливого сезона рацион 13 видов галапагосских вьюрков можно разделить на три широкие категории рациона: первые, которые потребляют зерновые продукты, считаются «зерноядными », которые поедают членистоногие, называются «насекомоядными », а те, что поедают растительность, классифицируются как «листовидные ». Реконструкция диетического предкового состояния с использованием максимальной экономии восстанавливает 2 основных перехода от состояния насекомоядных: один - к зернистости, а другой - к фоливору. Реконструкция предкового состояния с максимальной вероятностью дает в целом аналогичные результаты с одним существенным отличием: общие предки древесных вьюрков (Camarhynchus ) и наземных вьюрков (Geospiza ), скорее всего, являются зерноядными, а скорее чем насекомоядные (судя по скупости). В этом случае разница между предковыми состояниями, полученными при максимальной экономии и максимальной вероятности, вероятно, происходит в результате того факта, что оценки ML учитывают длину ветвей филогенетического дерева.

Развитие морфологических и физиологических признаков

Фриносоматида ящерицы демонстрируют замечательное морфологическое разнообразие, в том числе относительный состав мышц типа волокон в их мышцах задних конечностей. Реконструкция предков, основанная на скупости изменения квадрата (эквивалент максимальной вероятности при броуновском движении эволюция персонажа) указывает на то, что рогатые ящерицы, одна из трех основных субкладов линии передачи, претерпели серьезные эволюционное увеличение доли быстроокисляющих гликолитических волокон в их подвздошно-фибулярных мышцах.

Масса тела млекопитающих

При анализе массы тела 1,679 плацентарных млекопитающих сравнивая виды От стабильных моделей непрерывной эволюции характера до моделей броуновского движения Эллиот и Мурс показали, что эволюционный процесс, описывающий эволюцию массы тела млекопитающих, лучше всего характеризуется стабильной моделью непрерывной эволюции характера, которая учитывает редкие изменения большой величины. Согласно стабильной модели, предковые млекопитающие сохранили низкую массу тела за счет ранней диверсификации, причем значительное увеличение массы тела совпало с происхождением нескольких отрядов крупных видов с массой тела (например, копытных). Напротив, моделирование в рамках модели броуновского движения восстановило менее реалистичную, на порядок большую массу тела у предковых млекопитающих, что потребовало значительного уменьшения размера тела до появления Орденов, демонстрирующих небольшой размер тела (например, Rodentia ). Таким образом, стабильные модели восстанавливают более реалистичную картину эволюции массы тела млекопитающих, допуская большие трансформации в небольшом подмножестве ветвей.

Коррелированная эволюция характера

Филогенетические сравнительные методы (выводы, сделанные путем сравнения родственные таксоны) часто используются для определения биологических характеристик, которые не развиваются независимо, что может выявить лежащую в основе зависимость. Например, эволюция формы клюва зяблика может быть связана с его поведением в поисках пищи. Однако не рекомендуется искать эти ассоциации путем прямого сравнения измерений или генетических последовательностей, потому что эти наблюдения не являются независимыми из-за их происхождения от общих предков. Для дискретных символов эта проблема была сначала решена в рамках максимальной экономии путем оценки того, имеют ли два символа тенденцию претерпевать изменения на одних и тех же ветвях дерева. Фельзенштейн определил эту проблему для непрерывной эволюции персонажа и предложил решение, аналогичное реконструкции предков, в котором филогенетическая структура данных учитывалась статистически, проводя анализ путем вычисления «независимых контрастов» между узлами дерева, связанными неперекрывающимися ветвями.

Молекулярная эволюция

На молекулярном уровне аминокислотные остатки в разных местах белка могут развиваться независимо, потому что они имеют прямое физико-химическое взаимодействие, или косвенно, за счет их взаимодействия с общим субстратом или через длительные промежутки времени. диапазон взаимодействий в структуре белка. Напротив, сложенная структура белка потенциально может быть выведена из распределения взаимодействий остатков. Шиндялов и его коллеги опубликовали одно из первых применений предковой реконструкции для предсказания трехмерной структуры белка через контакты остатков. Филогении, относящиеся к 67 различным семействам белков, были созданы с помощью метода кластеризации на основе расстояний (метод невзвешенных парных групп со средним арифметическим, UPGMA), а предковые последовательности реконструировали методом экономии. Авторы сообщили о слабой, но значительной тенденции коэволюционирующих пар остатков совместно располагаться в известной трехмерной структуре белков.

Реконструкция древних белков и последовательностей ДНК только недавно стала важной научной задачей. Развитие обширных баз данных геномных последовательностей в сочетании с достижениями в области биотехнологии и методов филогенетического вывода сделало реконструкцию предков дешевой, быстрой и практичной с научной точки зрения. Эта концепция была применена для идентификации коэволюционирующих остатков в белковых последовательностях с использованием более продвинутых методов реконструкции филогении и предковых последовательностей. Например, предковая реконструкция была использована для идентификации коэволюционирующих остатков в белках, кодируемых геномами РНК-вирусов, в частности, в ВИЧ.

Родовой белок и ДНК реконструкция позволяет для воссоздания эволюции белков и ДНК в лаборатории, чтобы их можно было изучать напрямую. Что касается белков, это позволяет исследовать эволюцию современной молекулярной структуры и функции. Кроме того, реконструкция предкового белка может привести к открытию новых биохимических функций, которые были утрачены в современных белках. Это также позволяет получить представление о биологии и экологии вымерших организмов. Хотя большинство реконструкций предков касалось белков, они также использовались для проверки эволюционных механизмов на уровне бактериальных геномов и последовательностей генов приматов.

Дизайн вакцины

РНК-вирусы, такие как Вирус иммунодефицита человека (ВИЧ) развивается чрезвычайно быстро, на несколько порядков быстрее, чем у млекопитающих или птиц. Для этих организмов реконструкция предков может применяться в гораздо более коротком временном масштабе; например, чтобы реконструировать глобального или регионального прародителя эпидемии, которая длилась десятилетия, а не миллионы лет. Команда Брайана Гашена предложила использовать такие реконструированные штаммы в качестве мишеней для разработки вакцины, в отличие от последовательностей, выделенных от пациентов в настоящее время. Поскольку ВИЧ чрезвычайно разнообразен, вакцина, разработанная для работы с вирусной популяцией одного пациента, может не работать для другого пациента, поскольку эволюционное расстояние между этими двумя вирусами может быть большим. Однако их последний общий предок ближе к каждому из двух вирусов, чем друг к другу. Таким образом, вакцина, разработанная для общего предка, могла бы иметь больше шансов быть эффективной для большей части циркулирующих штаммов. Другая команда пошла дальше этой идеи, разработав метод реконструкции центра дерева для создания последовательности, общее эволюционное расстояние которой до современных штаммов как можно меньше. Строго говоря, этот метод не был реконструкцией предков, поскольку последовательность центра дерева (COT) не обязательно представляет собой последовательность, которая когда-либо существовала в истории эволюции вируса. Однако Роллан и его коллеги обнаружили, что в случае ВИЧ вирус COT был функциональным при синтезе. Подобные эксперименты с синтетическими предковымипоследовательностями, полученными методом максимальной вероятности реконструкции, также показали, что эти предки одновременно функциональны и иммуногенны, что придает определенное доверие к этим методам. Кроме того, реконструкция предков потенциально может быть использована для вывода генетической последовательности переданных вариантов ВИЧ, которые привели к возникновению следующей инфекции, с целью определения отличительных характеристик этих вариантов (как неслучайный выбор переданной популяции вирусов), которые могут стать мишенью для разработки вакцины.

Перестройки генома

Вместо того, чтобы делать вывод о наследственной последовательности ДНК, можно интересоваться крупномасштабной молекулярной структурой и содержанием предкового генома. К этой проблеме часто подходят в комбинаторной структуре, моделируя геномы как перестановки генов или гомологичных областей. С этими перестановками разрешены различные операции, такие как инверсия (сегмент перестановки инвертируется на месте), удаление (сегмент удаляется), транспозиция (сегмент удаляется из одной части перестановки и вставляется где-то еще) или усиление генетического содержания посредством рекомбинации, дупликации или горизонтального переноса генов. «Проблема перестройки генома», впервые поставленная Уоттерсоном и его коллегами, ставит вопрос: учитывая два генома (перестановки) и набор допустимых операций, какова самая короткая последовательность операций, которая преобразует один геном в другой? Обобщением этой проблемы, применимым к наследственной реконструкции, является «проблема множественной перестройки генома»: для заданного набора геномов и набора допустимых операций найдите (i) бинарное дерево с данными геномами в качестве его листьев и (ii) назначение геномов внутренним узлам дерева, так что общее количество операций по всему дереву сводится к минимуму. Этот подход похож на экономию, за исключением того, что дерево выводится вместе с наследственными последовательностями. К сожалению, даже проблема перестройки одного генома является NP-сложной, хотя ей уделялось много внимания в математике и информатике (обзор см. В Fertin et al.).

Реконструкция наследственных геномов также называется реконструкцией кариотипа. Хромосомная роспись в настоящее время является основным экспериментальным методом. Недавно исследователи разработали вычислительные методы для реконструкции наследственного кариотипа, используя преимущества сравнительной геномики. Кроме того, сравнительная геномика и реконструкция генома предков были применены для выявления древних событий горизонтального переноса генов у последнего общего предка линии (например, Candidatus Accumulibacter phosphatis) для определения эволюционной основы приобретения признаков.

Пространственные приложения

Миграция

Реконструкция предков не ограничивается биологическими особенностями. Пространственное расположение также является признаком, и методы реконструкции предков позволяют сделать вывод о местонахождении предков рассматриваемых индивидов. Такие методы использовались Леми и его коллегами для географического отслеживания предков 192 штаммов птичьего гриппа A-H5N1, взятых из двадцати населенных пунктов в Европе и Азии, и для 101 последовательностей вируса бешенства, взятых по двенадцать африканских стран.

Рассмотрение местоположений как дискретных состояний (страны, города и т. Д.) Позволяет применять модели дискретных состояний, описанные выше. Однако, в отличие от модели, где пространство состояний для признака невелико, мест может быть много, а переходы между определенными парами состояний могут происходить редко или никогда не происходить; например, миграция между удаленными местами может никогда не произойти напрямую, если воздушное сообщение между этими двумя местами не существует, поэтому такие миграции должны сначала проходить через промежуточные регионы. Это означает, что в модели может быть много параметров, равных нулю или близких к нулю. С этой целью Леми и его коллеги использовали байесовскую процедуру не только для оценки параметров и предковых состояний, но и для выбора того, какие параметры миграции не равны нулю; их работа показывает, что эта процедура действительно приводит к более эффективному использованию данных. Они также исследуют использование предшествующих распределений, которые включают географическую структуру или гипотезы о динамике миграции, обнаруживая, что те, которые они рассматривали, мало повлияли на результаты.

Используя этот анализ, команда Леми обнаружила, что наиболее вероятным центром распространения A-H5N1 является Гуандун, при этом Гонконг также получает заднюю поддержку. Кроме того, их результаты подтверждают гипотезу длительного присутствия африканского бешенства в Западной Африке.

Ареалы видов

Выведение исторических биогеографических закономерностей часто требует реконструкции ареалов предков видов на филогенетические деревья. Например, хорошо разрешенная филогения видов растений рода Cyrtandra была использована вместе с информацией об их географических ареалах для сравнения четырех методов реконструкции ареалов предков. Команда Fitch сравнила экономичность (FP; экономия), стохастическое картирование (SM; максимальная вероятность), анализ дисперсии-викариантности (DIVA; экономия) и дисперсия-исчезновение-кладогенез (DEC; максимальная вероятность). Результаты показали, что оба метода экономии работают плохо, что, вероятно, связано с тем, что методы экономии не учитывают длину ветвей. Оба метода максимального правдоподобия работают лучше; тем не менее, анализ DEC, который дополнительно позволяет включать геологические априорные факторы, дал более реалистичные выводы об эволюции ареала Киртандры по сравнению с другими методами.

Другой метод максимального правдоподобия восстанавливает филогеографическую историю гена путем восстановления предков выборки таксоны. Этот метод предполагает пространственно явную модель случайного блуждания миграции, чтобы восстановить местонахождение предков с учетом географических координат людей, представленных кончиками филогенетического дерева. Применительно к филогенетическому дереву хористых лягушек Pseudacris feriarum этот метод позволил восстановить недавнюю экспансию на север, более высокое расстояние расселения по поколениям в недавно колонизированном регионе, нецентральное местонахождение предков и направленную миграцию.

Филогения 7 региональных штаммов Drosophila pseudoobscura, согласно заключению Стуртеванта и Добжанского. Отображаемые последовательности не соответствуют исходной статье, но были получены из обозначений в сопроводительной статье авторов следующим образом: A (63A-65B), B (65C-68D), C (69A-70A), D (70B- 70D), E (71A-71B), F (71A-73C), G (74A-74C), H (75A-75C), I (76A-76B), J (76C-77B), K (78A-79D), L (80A-81D). Предполагаемые авторами инверсии выделены синим цветом вдоль ветвей.

Первое рассмотрение проблемы множественной перестройки генома, задолго до ее формализации в терминах перестановок, было представлено Стуртевантом и Добжанским в 1936 году. Они исследовали геномы нескольких штаммов генома. плодовая муха из разных географических регионов и обнаружила, что одна конфигурация, которую они назвали «стандартной», была наиболее распространенной во всех изученных областях. Примечательно, что они также заметили, что четыре разных штамма могут быть получены из стандартной последовательности с помощью одной инверсии, а два других могут быть связаны второй инверсией. Это позволило им выдвинуть гипотезу о филогенезе последовательностей и сделать вывод, что стандартная последовательность, вероятно, также была предковой.

Лингвистическая эволюция

Реконструкции слов и явлений древних протоязыков, таких как протоиндоевропейский, были выполнены на основе наблюдаемые аналоги в современных языках. Обычно такие анализы проводят вручную с использованием «сравнительного метода». Во-первых, слова из разных языков с общей этимологией (родственные ) идентифицируются в современных изучаемых языках, аналогично идентификации ортологичных биологических последовательностей. Во-вторых, идентифицируются соответствия между отдельными звуками в родственных словах, шаг, аналогичный биологическому выравниванию последовательностей, хотя и выполняется вручную. Наконец, вероятные наследственные звуки предполагаются путем ручного исследования и различных эвристических методов (например, тот факт, что в большинстве языков есть как носовые, так и неназальные гласные ).

Программное обеспечение

Существует множество доступных программных пакетов, которые могут выполнять реконструкцию предкового состояния. Как правило, эти программные пакеты были разработаны и поддерживаются усилиями ученых в смежных областях и выпущены под лицензиями бесплатного программного обеспечения. Следующая таблица не предназначена для исчерпывающего перечисления всех доступных пакеты, но предоставляет репрезентативную выборку обширного разнообразия пакетов, которые реализуют методы реконструкции предков с различными преимуществами и функциями.

NameMethodsPlatformInputs! Типы символовНепрерывные (C) или дискретные символы (D)Лицензия на программное обеспечение
PAML Максимальное правдоподобиеUnix, Mac, WinPHYLIP, NEXUS, FASTAНуклеотид, белокDGN Стандартная общественная лицензия U, версия 3
BEAST BayesianUnix, Mac, WinNEXUS, BEAST XMLNucleotide, Protein, GeographicC, DСтандартная общественная лицензия ограниченного применения GNU
phytools Maximum LikelihoodUnix,Mac,Winnewick, nexusКачественные и количественные характеристикиC, DСтандартная общественная лицензия GNU
APE Максимальная вероятностьUnix, Mac, WinNEXUS, FASTA, CLUSTALНуклеотид, белокC, DСтандартная общественная лицензия GNU
Diversitree Максимальная вероятностьUnix, Mac, WinNEXUSКачественные и количественные признаки, географическийC, DСтандартная общественная лицензия GNU, версия 2
HyPhy Maximum LikelihoodUnix, Mac, WinMEGA, NEXUS, FASTA, PHYLIPNucleotide, Protein (настраиваемый)DЛицензия свободной документации GNU 1.3
BayesTraits БайесовскийUnix, Mac, WinTSV или пробел d исключенная таблица. Строки - это виды, столбцы - характеристики.Качественные и количественные характеристикиC, DЛицензия Creative Commons Attribution License
Лагранж Максимальное правдоподобиеLinux, Mac, WinTSV / CSV областей видов. Строки - это виды, а столбцы - географические регионыГеографический-Стандартная общественная лицензия GNU, версия 2
Мескит Экономия, максимальная вероятностьUnix, Mac, WinFasta, NBRF, Genbank, PHYLIP, CLUSTAL, TSVNucleotide, Protein, Geographic C, DЛицензия Creative Commons Attribution 3.0
Phylomapper Максимальное правдоподобие, байесовский (для версии 2)Unix, Mac, WinNEXUSГеографическая, экологическая нишаC, D-
Предки Максимальная вероятностьВебFastaНуклеотид (индели)D-
Phyrex Максимальная экономичностьLinuxFastaВыражение генаC, DСобственное
SIMMAP Стохастическое отображениеMacXML- как формат Нуклеотид, качественные характеристикиDСобственный
MRBayes BayesianUnix, Mac, WinNEXUSНуклеотид, белокDСтандартная общественная лицензия GNU
PARANA Максимальная экономияUnix, Mac, WinNewickБиологические сетиDЛицензия Apache
PHAST (PREQUEL)Maximum LikelihoodUnix, Mac, WinМножественное выравниваниеНуклеотидDЛицензия BSD
RASP Максимальное правдоподобие, байесовскоеUnix, Mac, WinNewickGeographicD-
VIP Maximum ParsimonyLinux, WinNewickGeographicD (сетка)GPL Creative Commons
FastML Maximum LikelihoodWeb, UnixFastaNucleotide, ProteinDАвторские права
MLGO Максимальная вероятностьИнтернетПользовательский Перестановка порядка геновDGNU
BADGER БайесовскийUnix, Mac, WinПользовательская Перестановка порядка геновDGNU GPL версии 2
COUNT Максимальная экономия, максимальная вероятностьUnix, Mac, WinTab- текстовый файл с разделителями строк для таксонов и данных подсчета в столбцах.Данные подсчета (числовые) (например, размер семейства гомологов)DBSD
MEGA Максимальная экономия, максимальная вероятность.Mac, WinMEGAНуклеотид, белокDСобственный
ANGES Локальная экономияUnixПользовательские карты геномаDСтандартная общественная лицензия GNU, версия 3
DECIPHER Максимальное правдоподобиеUnix, Mac, WinFASTA, GenBankNucleotideDСтандартная общественная лицензия GNU, версия 3
EREM Максимальная вероятность.Модуль Win, Unix, MatlabПользовательский текстовый формат для параметры модели, дерево, наблюдаемые значения символов. ДвоичныйDНе указано, хотя сайт указывает, что программное обеспечение свободно доступно.

Описание пакетов

Молекулярная эволюция

Большинство этих программных пакетов разработаны для анализа данных генетической последовательности. Например, PAML - это набор программ для филогенетического анализа ДНК и выравнивания последовательностей белков по максимальной вероятности. Реконструкция предков может быть выполнена с помощью программы codeml. Кроме того, LAZARUS представляет собой набор скриптов Python, которые обертывают наследственные функции реконструкции PAML для пакетной обработки и большей простоты использования. Пакеты программного обеспечения, такие как MEGA, HyPhy и Mesquite, также выполняют филогенетический анализ данных о последовательностях, но более модульные и настраиваемые. HyPhy реализует совместный метод максимального правдоподобия реконструкции наследственной последовательности, который может

Последняя правка сделана 2021-06-10 22:47:34
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте