![]() | |
---|---|
Содержание | |
Описание | База данных Rfam предоставляет сопоставления, согласованные вторичные структуры и ковариационные модели для семейств РНК. |
Типы данных захвачены | Семейства РНК |
Организмы | все |
Контакт | |
Исследовательский центр | EBI |
Первичное цитирование | PMID 33211869 |
Доступ | |
Формат данных | Стокгольмский формат |
Веб-сайт | rfam.org |
Скачать URL | FTP |
Разное | |
Лицензия | Всеобщее достояние |
Добавляемые в закладки объекты | да |
Rfam - это база данных, содержащая информацию о семействах некодирующих РНК (нкРНК) и других структурированных элементах РНК. Он является аннотированный, открытый доступ к базе данных, первоначально разработанный в Wellcome Trust Sanger Institute совместно с Janelia хуторе, и в настоящее время размещается в Европейском биоинформатики институте. Rfam разработан, чтобы быть похожим на базу данных Pfam для аннотирования семейств белков.
В отличие от белков нкРНК часто имеют сходную вторичную структуру, но не имеют большого сходства в первичной последовательности. Rfam делит нкРНК на семейства на основе эволюции от общего предка. Получение множественных выравниваний последовательностей (MSA) этих семейств может дать представление об их структуре и функциях, как и в случае семейств белков. Эти MSA становятся более полезными с добавлением информации о вторичной структуре. Rfam исследователи также вносят свой вклад в Википедии «s РНК WikiProject.
База данных Rfam может использоваться для множества функций. Для каждого семейства нкРНК интерфейс позволяет пользователям: просматривать и загружать несколько выравниваний последовательностей; прочитать аннотацию; и изучить видовое распределение членов семьи. Также есть ссылки на литературные источники и другие базы данных РНК. Rfam также предоставляет ссылки на Википедию, чтобы пользователи могли создавать или редактировать записи.
Интерфейс на веб-сайте Rfam позволяет пользователям искать нкРНК по ключевому слову, фамилии или геному, а также выполнять поиск по последовательности нкРНК или регистрационному номеру EMBL. [1] Информация о базе данных также доступна для загрузки, установки и использования с помощью программного пакета INFERNAL. Пакет INFERNAL также можно использовать с Rfam для аннотирования последовательностей (включая полные геномы) гомологов известных нкРНК.
В базе данных информация о вторичной структуре и первичной последовательности, представленная MSA, объединяется в статистических моделях, называемых стохастическими контекстно-свободными грамматиками профиля (SCFG), также известными как ковариационные модели. Они аналогичны скрытым марковским моделям, используемым для аннотации семейств белков в базе данных Pfam. Каждое семейство в базе данных представлено двумя множественными выравниваниями последовательностей в Стокгольмском формате и SCFG.
Первый MSA - это «начальное» выравнивание. Это вручную подобранное выравнивание, которое содержит репрезентативных членов семейства нкРНК и аннотировано структурной информацией. Это начальное выравнивание используется для создания SCFG, который используется с программным обеспечением Rfam INFERNAL для идентификации дополнительных членов семейства и добавления их к выравниванию. Выбирается пороговое значение для конкретной семьи, чтобы избежать ложных срабатываний.
До выпуска 12 Rfam использовал начальный этап фильтрации BLAST, потому что профили SCFG были слишком дорогостоящими в вычислительном отношении. Однако последние версии INFERNAL достаточно быстры, поэтому шаг BLAST больше не нужен.
Второй MSA представляет собой «полное» выравнивание и создается в результате поиска с использованием модели ковариации по базе данных последовательностей. Все обнаруженные гомологи выравниваются по модели, обеспечивая автоматическое полное выравнивание.
Версия 1.0 Rfam была запущена в 2003 году и содержала 25 семейств нкРНК и аннотировала около 50 000 генов нкРНК. В 2005 году была выпущена версия 6.1, содержащая 379 семейств, аннотирующих более 280 000 генов. В августе 2012 года версия 11.0 содержала 2208 семейств РНК, тогда как текущая версия (14.6, выпущенная в июле 2021 года) аннотирует 4070 семейств.