В биоинформатике, анализ последовательности - это процесс воздействия на ДНК, РНК или пептидную последовательность с помощью любого из широкого диапазона аналитических методов для понимания ее особенности, функции, структура или эволюция. Используемые методологии включают выравнивание последовательностей, поиск в биологических базах данных и другие. С момента разработки методов высокопроизводительного производства последовательностей генов и белков скорость добавления новых последовательностей в базы данных увеличивалась экспоненциально. Такой набор последовательностей сам по себе не улучшает понимание ученым биологии организмов. Однако сравнение этих новых последовательностей с последовательностями с известными функциями является ключевым способом понимания биологии организма, из которого происходит новая последовательность. Таким образом, анализ последовательностей может использоваться для определения функции генов и белков путем изучения сходства между сравниваемыми последовательностями. В настоящее время существует множество инструментов и методов, которые обеспечивают сравнение последовательностей (выравнивание последовательностей) и анализ продукта выравнивания, чтобы понять его биологию.
Анализ последовательностей в молекулярной биологии включает в себя очень широкий круг актуальных тем:
В химии анализ последовательности включает методы, используемые для определения последовательности полимера, образованного из нескольких мономеров. В молекулярной биологии и генетика, та же процедура ess называется просто «упорядочение ».
В маркетинге анализ последовательности часто используется в аналитических приложениях для управления взаимоотношениями с клиентами, таких как модели NPTB (Next Product to Buy).
В социологии методы последовательности все чаще используются для изучения жизненного пути и карьерных траекторий, моделей организационного и национального развития, структуры разговоров и взаимодействия, а также проблемы синхронизации работы / семьи. Эти исследования привели к появлению нового подполя анализа социальной последовательности.
С тех пор, как самые первые последовательности белка инсулин были описанный Фредом Сэнгером в 1951 году, биологи пытались использовать эти знания, чтобы понять функцию молекул. Открытия он и его коллега способствовали успешному секвенированию первого генома на основе ДНК. Метод, использованный в этом исследовании, который называется «методом Сэнгера» или секвенирование по Сэнгеру, стал важной вехой в секвенировании длинноцепочечных молекул, таких как ДНК. Этот метод в конечном итоге был использован в проекте генома человека. Согласно Майклу Левитту, анализ последовательности зародился в период с 1969–1977 гг. В 1969 году анализ последовательностей транспортной РНК был использован для вывода остаточных взаимодействий из коррелированных изменений в нуклеотидных последовательностях, что дало начало модели вторичной структуры тРНК . В 1970 году Сол Б. Нидлман и Кристиан Д. Вунш опубликовали первый компьютерный алгоритм для выравнивания двух последовательностей. За это время разработки в области получения нуклеотидной последовательности значительно улучшились, что привело к публикации первого полного генома бактериофага в 1977 году. Считалось, что Роберт Холли и его команда из Корнельского университета первыми секвенировали молекулу РНК.
Известны миллионы последовательностей белка и нуклеотидов. Эти последовательности попадают во многие группы родственных последовательностей, известные как семейства белков или семейства генов. Взаимосвязи между этими последовательностями обычно обнаруживают, сравнивая их вместе и присваивая этому выравниванию оценку. Существует два основных типа выравнивания последовательностей. При парном выравнивании последовательностей одновременно сравниваются только две последовательности, а при множественном выравнивании последовательностей сравниваются многие последовательности. Двумя важными алгоритмами для выравнивания пар последовательностей являются алгоритм Нидлмана-Вунша и алгоритм Смита-Уотермана. Популярные инструменты для выравнивания последовательностей включают:
Обычно попарное выравнивание последовательностей используется для того, чтобы взять интересующую последовательность и сравнить ее со всеми известными последовательностями в базе данных. для идентификации гомологичных последовательностей. Как правило, совпадения в базе данных упорядочены так, чтобы сначала отображались наиболее близкие последовательности, а затем последовательности с уменьшающимся сходством. Эти совпадения обычно сообщаются с мерой статистической значимости, такой как Ожидаемое значение.
В 1987 году Майкл Грибсков, Эндрю МакЛахлан и Дэвид Эйзенберг представили метод сравнения профилей для выявления отдаленного сходства между белками. Вместо использования одной последовательности в методах профилей используется выравнивание нескольких последовательностей для кодирования профиля, который содержит информацию об уровне сохранности каждого остатка. Эти профили затем можно использовать для поиска в коллекциях последовательностей, чтобы найти связанные последовательности. Профили также известны как оценочные матрицы для конкретных позиций (PSSM). В 1993 г. Андерс Крог и его коллеги представили вероятностную интерпретацию профилей с использованием скрытых марковских моделей. Эти модели стали известны как профильные HMM.
В последние годы были разработаны методы, позволяющие напрямую сравнивать профили друг с другом. Эти методы известны как методы сравнения профиля и профиля.
Сборка последовательности относится к реконструкции последовательности ДНК путем выравнивания и слияния небольших фрагментов ДНК. Это неотъемлемая часть современного секвенирования ДНК. Поскольку доступные в настоящее время технологии секвенирования ДНК плохо подходят для считывания длинных последовательностей, большие фрагменты ДНК (например, геномы) часто секвенируются путем (1) разрезания ДНК на мелкие фрагменты, (2) считывания небольших фрагментов и (3)) воссоздание исходной ДНК путем объединения информации о различных фрагментах.
В последнее время секвенирование нескольких видов одновременно является одной из важнейших исследовательских задач. Метагеномика - это изучение микробных сообществ, полученных непосредственно из окружающей среды. В отличие от культивированных микроорганизмов из лаборатории, образец дикой природы обычно содержит десятки, а иногда даже тысячи типов микроорганизмов из их первоначальных мест обитания. Восстановление исходных геномов может оказаться очень сложной задачей.
Прогнозирование генов или поиск генов относится к процессу идентификации участков геномной ДНК, которые кодируют гены. Это включает кодирующие белки гены, а также гены РНК, но также может включать прогнозирование других функциональных элементов, таких как регуляторные области. Поиск генов - один из первых и наиболее важных шагов в понимании генома вида после того, как он был секвенирован. В целом, предсказание бактериальных генов значительно проще и точнее, чем предсказание генов у эукариотических видов, которые обычно имеют сложные паттерны интрона / экзона. Идентификация генов в длинных последовательностях остается проблемой, особенно когда количество генов неизвестно. может быть частью решения. Машинное обучение сыграло значительную роль в прогнозировании последовательности факторов транскрипции. Традиционный анализ секвенирования сосредоточен на статистических параметрах самой нуклеотидной последовательности (наиболее часто используемые программы перечислены в таблице 4.1 ). Другой метод заключается в идентификации гомологичных последовательностей на основе других известных последовательностей генов (инструменты см. Таблица 4.3 ). Два описанных здесь метода ориентированы на последовательность. Однако особенности формы этих молекул, таких как ДНК и белок, также были изучены, и было предложено иметь эквивалентное, если не большее, влияние на поведение этих молекул.
Трехмерные структуры молекул имеют большое значение для их функций в природе. Поскольку структурное предсказание больших молекул на атомном уровне представляет собой в значительной степени неразрешимую проблему, некоторые биологи представили способы предсказания трехмерной структуры на уровне первичной последовательности. Это включает биохимический или статистический анализ аминокислотных остатков в локальных областях и структурный вывод из гомологов (или других потенциально связанных белков) с известными трехмерными структурами.
Существует большое количество различных подходов к решению проблемы предсказания структуры. Чтобы определить, какие методы были наиболее эффективными, было организовано соревнование по прогнозированию структуры под названием CASP (Критическая оценка прогнозирования структуры).
Задачи, которые лежат в Пространство анализа последовательностей часто бывает нетривиальным для решения и требует использования относительно сложных подходов. Из множества методов, используемых на практике, наиболее популярными являются: