Pfam

редактировать

Pfam

Содержимое
Описание	База данных Pfam предоставляет сопоставления и скрытые модели Маркова для белковых доменов.
Типы данных. захваченные	Семейства белков
Организмы	все
Связаться
Исследовательский центр	EBI
Основное цитирование	PMID 19920124
Доступ
Формат данных	Стокгольмский формат
Веб-сайт	pfam.xfam.org
URL загрузки	FTP 1 FTP 2
Разное
Лицензия	Стандартная общественная лицензия ограниченного применения GNU
Версия	33.1
Закладки. объектов	да

Pfam - это база данных семейств белков, которая включает их аннотации и множественные сопоставления последовательностей, созданные с использованием скрытых марковских моделей. Самая последняя версия, Pfam 33.1, была выпущена в мае 2020 года и содержит 18 259 семейств.

Содержание

1 Использует
2 Функции
- 2.1 Создание новых записей
- 2.2 Домены с неизвестной функцией
- 2.3 Кланы
3 История
- 3.1 Курирование сообщества
4 См. Также
5 Ссылки
6 Внешние ссылки

Использование

Основная цель базы данных Pfam - обеспечивают полную и точную классификацию семейств и доменов белков. Первоначально цель создания базы данных заключалась в том, чтобы иметь полуавтоматический метод сбора информации об известных семействах белков для повышения эффективности аннотирования геномов. Классификация семейств белков Pfam была широко принята биологами из-за ее широкого охвата белков и разумных соглашений об именах.

Она используется биологами-экспериментаторами, исследующими определенные белки, структурными биологами для определения новых целей для определения структуры компьютерными биологами для организации последовательностей и биологами-эволюционистами, отслеживающими происхождение белков. Первые проекты генома, такие как человек и муха, широко использовали Pfam для функциональной аннотации геномных данных.

Веб-сайт Pfam позволяет пользователям отправлять последовательности белков или ДНК для поиска совпадений с семьями в базе данных. Если представлена ДНК, выполняется шестикадровая трансляция, затем выполняется поиск в каждом кадре. Вместо того, чтобы выполнять типичный поиск BLAST, Pfam использует профиль скрытых марковских моделей, которые придают больший вес совпадениям на сохраненных сайтах, что позволяет лучше обнаруживать удаленную гомологию, делая они больше подходят для аннотирования геномов организмов без хорошо аннотированных близких родственников.

Pfam также использовался при создании других ресурсов, таких как iPfam, который каталогизирует доменные взаимодействия внутри и между белками, на основе информации в базах данных структур и сопоставления доменов Pfam с этими структурами.

Характеристики

Для каждого семейства в Pfam можно:

Просмотреть описание семейства
Просмотрите множественные выравнивания
Просмотрите архитектуры доменов белков
Изучите распределение видов
Следуйте ссылкам на другие базы данных
Просмотрите известные структуры белков

Записи могут быть нескольких типов: семейство, домен, повторение или мотив. Семья - это класс по умолчанию, который просто указывает на то, что члены связаны между собой. Домены определяются как автономная структурная единица или единица последовательности многократного использования, которую можно найти во множестве белковых контекстов. Повторы обычно не стабильны по отдельности, а обычно требуются для образования тандемных повторов, чтобы сформировать домен или расширенную структуру. Мотивы обычно представляют собой более короткие единицы последовательности, обнаруживаемые вне глобулярных доменов.

Описание семейств Pfam осуществляется широкой публикой с помощью Википедии (см. История).

Начиная с версии 29.0, 76,1% белковых последовательностей в UniprotKB совпадают по крайней мере с одним доменом Pfam.

Создание новых записей

Новые семейства поступают из ряда источников, в первую очередь из PDB и анализа полных протеомов для поиска генов без попадания Pfam.

Для каждого семейства репрезентативное подмножество последовательностей выровнено в качественное выравнивание семян. Последовательности для начального выравнивания берутся в основном из pfamseq (неизбыточная база данных эталонных протеомов) с некоторыми дополнениями из UniprotKB. Это начальное выравнивание затем используется для построения профильной скрытой марковской модели с использованием HMMER. Затем этот HMM просматривается в базах данных последовательностей, и все совпадения, которые достигают заданного порога сбора, классифицируются как члены семейства белков. Полученный набор элементов затем выравнивается по профилю HMM для генерации полного выравнивания.

Для каждого семейства назначается вручную подобранный порог сбора, который максимизирует количество истинных совпадений с семейством, исключая любые ложноположительные совпадения. Ложноположительные результаты оцениваются путем наблюдения совпадений между попаданиями в семейство Pfam, принадлежащих к разным кланам. Этот порог используется для оценки того, следует ли включать совпадение с семейством HMM в семейство белков. При каждом обновлении Pfam пороги сбора повторно оцениваются, чтобы предотвратить перекрытие между новыми и существующими семействами.

Домены с неизвестной функцией

Домены с неизвестной функцией (DUF) представляют растущую часть базы данных Pfam. Семейства названы так потому, что было обнаружено, что они сохраняются у разных видов, но выполняют неизвестную роль. Каждый вновь добавленный DUF именуется в порядке добавления. Имена этих записей обновляются по мере определения их функций. Обычно, когда функция по крайней мере одного белка, принадлежащего DUF, была определена, функция всего DUF обновляется, и семейство переименовывается. Некоторые названные семейства все еще являются доменами с неизвестной функцией, названными в честь репрезентативного белка, например YbbR. Ожидается, что количество DUF будет продолжать увеличиваться, поскольку в данных последовательностей продолжают идентифицироваться консервативные последовательности с неизвестной функцией. Ожидается, что DUF в конечном итоге превзойдут по численности семейства известных функций.

Кланы

Со временем охват как последовательностей, так и остатков увеличился, и по мере роста семейств было обнаружено больше эволюционных взаимосвязей, позволяющих объединение семей в кланы. Кланы были впервые представлены в базе данных Pfam в 2005 году. Они представляют собой группы родственных семейств, которые имеют одно эволюционное происхождение, что подтверждается сравнениями структур, функций, последовательностей и HMM. На момент выпуска 29.0 примерно треть семейств белков принадлежала клану. Эта часть выросла примерно до трех четвертей к 2019 году (версия 32.0).

Для выявления возможных клановых отношений кураторы Pfam используют программу простого сравнения результатов (SCOOP), а также информацию из базы данных ECOD. ECOD - это полуавтоматическая иерархическая база данных семейств белков с известной структурой, с семействами, которые легко сопоставляются с записями Pfam и уровнями гомологии, которые обычно сопоставляются с кланами Pfam.

История

Pfam была основана в 1995 г. Эриком Сонхаммером, Шоном Эдди и Ричардом Дурбином как набор часто встречающихся белковых доменов, которые можно использовать для аннотирования кодирующих белок генов многоклеточных животных. Одна из его основных целей при создании заключалась в том, чтобы помочь в аннотации C. elegans геном. Частично этот проект был продиктован утверждением Сайруса Чотиа «Тысяча семейств для молекулярного биолога» о том, что существует около 1500 различных семейств белков и что большинство белков попадает только в 1000 из них. Вопреки этому утверждению, база данных Pfam в настоящее время содержит 16 306 записей, соответствующих уникальным доменам и семействам белков. Однако многие из этих семейств содержат структурные и функциональные сходства, указывающие на общее эволюционное происхождение (см. Кланы).

Основным отличием Pfam от других баз данных на момент его создания было использование двух типов сопоставления для записей : меньшее выравнивание семян, проверяемое вручную, а также полное выравнивание, построенное путем выравнивания последовательностей со скрытой марковской моделью профиля, построенной на основе выравнивания семян. Это меньшее выравнивание семян было легче обновлять по мере выхода новых версий баз данных последовательностей, и, следовательно представляет собой многообещающее решение дилеммы о том, как поддерживать базу данных в актуальном состоянии, поскольку секвенирование генома стало более эффективным и со временем необходимо было обрабатывать больше данных. Дальнейшее улучшение скорости обновления базы данных появилось в версии 24.0, с введением HMMER3, который в ~ 100 раз быстрее, чем HMMER2 и более чувствителен.

Поскольку записи в Pfam-A не охватывают все известные белки, автоматически Созданное дополнение было предоставлено под названием Pfam-B. Pfam-B содержал большое количество небольших семейств, образованных из кластеров, созданных с помощью алгоритма ADDA. Несмотря на более низкое качество, семейства Pfam-B могут быть полезны, когда не обнаружены семейства Pfam-A. Pfam-B был прекращен в версии 28.0.

Pfam изначально размещался на трех зеркальных сайтах по всему миру для сохранения избыточности. Однако в период с 2012 по 2014 год ресурс Pfam был перемещен на EMBL-EBI, что позволило размещать веб-сайт с одного домена (xfam.org) с использованием дублирующих независимых центров обработки данных. Это позволило улучшить централизацию обновлений и группировку с другими проектами Xfam, такими как Rfam, TreeFam, iPfam и другими, при сохранении критической устойчивости, обеспечиваемой хостингом из нескольких центров.

Pfam претерпела существенную реорганизацию за последние два года, чтобы еще больше сократить ручные усилия, связанные с курированием, и обеспечить более частое обновление.

Курирование сообщества

Представлено курирование такой большой базы данных проблемы с точки зрения количества новых семейств и обновленной информации, которую необходимо было добавить. Чтобы ускорить выпуск базы данных, разработчики запустили ряд инициатив, позволяющих активнее вовлекать сообщество в управление базой данных.

Важным шагом в улучшении темпа обновления и улучшения записей было открытие функциональной аннотации доменов Pfam для сообщества Википедии в версии 26.0. Для записей, у которых уже была запись в Википедии, она была связана со страницей Pfam, а для тех, у которых ее не было, сообществу было предложено создать ее и проинформировать кураторов, чтобы она была связана. Ожидается, что пока участие сообщества значительно улучшит уровень аннотации этих семейств, некоторые останутся недостаточно примечательными для включения в Википедию, и в этом случае они сохранят свое исходное описание Pfam. Некоторые статьи Википедии охватывают несколько семейств, например, статья Zinc finger. Также была реализована автоматическая процедура создания статей на основе данных InterPro и Pfam, при которой страница заполняется информацией и ссылками на базы данных, а также доступными изображениями, а затем после того, как статья была просмотрена куратором, она перемещается из песочницы в Собственно Википедия. Чтобы предотвратить вандализм статей, каждая редакция Википедии проверяется кураторами перед тем, как она будет размещена на веб-сайте Pfam. Однако почти все случаи вандализма исправлялись сообществом до того, как они доходили до кураторов.

Pfam управляется международным консорциумом из трех групп. В более ранних версиях Pfam семейные записи могли быть изменены только на сайте Кембриджа, Великобритания, что ограничивало возможность членов консорциума участвовать в курировании сайта. В версии 26.0 разработчики перешли на новую систему, которая позволяла зарегистрированным пользователям в любой точке мира добавлять или изменять семейства Pfam.

См. Также

Список биологических баз данных
Rfam База данных для сохраняемых семейства некодирующих РНК
TreeFam База данных филогенетических деревьев генов животных
TrEMBL База данных, выполняющая автоматическую аннотацию последовательности белков
InterPro Интеграция баз данных доменов белков и семейств белков
PDBfam - тщательное присвоение доменов Pfam последовательностям в Protein Data Bank (PDB)

Ссылки

Внешние ссылки

Pfam - База данных семейства белков at EBI UK
iPfam - Взаимодействие доменов Pfam в PDB
PDBfam - Назначение доменов Pfam последовательностям в PDB в Онкологическом центре Fox Chase США
PlantTFDB - правила присвоения семейств для факторов транскрипции растений на основе доменов Pfam