Рфам

редактировать
Рфам
Rfam logo.png
Содержание
Описание База данных Rfam предоставляет сопоставления, согласованные вторичные структуры и ковариационные модели для семейств РНК.
Типы данных захвачены Семейства РНК
Организмы все
Контакт
Исследовательский центр EBI
Первичное цитирование PMID   33211869
Доступ
Формат данных Стокгольмский формат
Веб-сайт rfam.org
Скачать URL FTP
Разное
Лицензия Всеобщее достояние
Добавляемые в закладки объекты да

Rfam - это база данных, содержащая информацию о семействах некодирующих РНК (нкРНК) и других структурированных элементах РНК. Он является аннотированный, открытый доступ к базе данных, первоначально разработанный в Wellcome Trust Sanger Institute совместно с Janelia хуторе, и в настоящее время размещается в Европейском биоинформатики институте. Rfam разработан, чтобы быть похожим на базу данных Pfam для аннотирования семейств белков.

В отличие от белков нкРНК часто имеют сходную вторичную структуру, но не имеют большого сходства в первичной последовательности. Rfam делит нкРНК на семейства на основе эволюции от общего предка. Получение множественных выравниваний последовательностей (MSA) этих семейств может дать представление об их структуре и функциях, как и в случае семейств белков. Эти MSA становятся более полезными с добавлением информации о вторичной структуре. Rfam исследователи также вносят свой вклад в Википедии «s РНК WikiProject.

СОДЕРЖАНИЕ

  • 1 Использование
  • 2 Методы
  • 3 История
  • 4 проблемы
  • 5 ссылки
  • 6 Внешние ссылки

Использует

База данных Rfam может использоваться для множества функций. Для каждого семейства нкРНК интерфейс позволяет пользователям: просматривать и загружать несколько выравниваний последовательностей; прочитать аннотацию; и изучить видовое распределение членов семьи. Также есть ссылки на литературные источники и другие базы данных РНК. Rfam также предоставляет ссылки на Википедию, чтобы пользователи могли создавать или редактировать записи.

Интерфейс на веб-сайте Rfam позволяет пользователям искать нкРНК по ключевому слову, фамилии или геному, а также выполнять поиск по последовательности нкРНК или регистрационному номеру EMBL. [1] Информация о базе данных также доступна для загрузки, установки и использования с помощью программного пакета INFERNAL. Пакет INFERNAL также можно использовать с Rfam для аннотирования последовательностей (включая полные геномы) гомологов известных нкРНК.

Методы

Теоретическое выравнивание нкРНК от 6 видов. Пары оснований вторичной структуры окрашены в блоки и обозначены в согласованной последовательности вторичной структуры (нижняя строка) символами lt;иgt;.

В базе данных информация о вторичной структуре и первичной последовательности, представленная MSA, объединяется в статистических моделях, называемых стохастическими контекстно-свободными грамматиками профиля (SCFG), также известными как ковариационные модели. Они аналогичны скрытым марковским моделям, используемым для аннотации семейств белков в базе данных Pfam. Каждое семейство в базе данных представлено двумя множественными выравниваниями последовательностей в Стокгольмском формате и SCFG.

Первый MSA - это «начальное» выравнивание. Это вручную подобранное выравнивание, которое содержит репрезентативных членов семейства нкРНК и аннотировано структурной информацией. Это начальное выравнивание используется для создания SCFG, который используется с программным обеспечением Rfam INFERNAL для идентификации дополнительных членов семейства и добавления их к выравниванию. Выбирается пороговое значение для конкретной семьи, чтобы избежать ложных срабатываний.

До выпуска 12 Rfam использовал начальный этап фильтрации BLAST, потому что профили SCFG были слишком дорогостоящими в вычислительном отношении. Однако последние версии INFERNAL достаточно быстры, поэтому шаг BLAST больше не нужен.

Второй MSA представляет собой «полное» выравнивание и создается в результате поиска с использованием модели ковариации по базе данных последовательностей. Все обнаруженные гомологи выравниваются по модели, обеспечивая автоматическое полное выравнивание.

История

Версия 1.0 Rfam была запущена в 2003 году и содержала 25 семейств нкРНК и аннотировала около 50 000 генов нкРНК. В 2005 году была выпущена версия 6.1, содержащая 379 семейств, аннотирующих более 280 000 генов. В августе 2012 года версия 11.0 содержала 2208 семейств РНК, тогда как текущая версия (14.6, выпущенная в июле 2021 года) аннотирует 4070 семейств.

Проблемы

  1. Геномы высших эукариот содержат множество псевдогенов и повторов, происходящих от нкРНК. Отличить эти нефункциональные копии от функциональной нкРНК - сложная задача.
  2. Интроны не моделируются ковариационными моделями.

использованная литература

внешние ссылки

Последняя правка сделана 2023-03-29 07:27:42
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте