Содержание | |
---|---|
Описание | База данных SUPERFAMILY предоставляет структурную и функциональную аннотацию для всех белков и геномов. |
Типы данных захвачены | Семейства белков, аннотация генома, выравнивания, скрытые марковские модели (HMM) |
Организмы | все |
Контакт | |
Исследовательский центр | Бристольский университет |
Лаборатория | |
Первичное цитирование | PMID 19036790 |
Доступ | |
Формат данных | Формат FASTA |
Веб-сайт | supfam.org |
Скачать URL | supfam.org / SUPERFAMILY / downloads.html |
Разнообразный | |
Лицензия | Стандартная общественная лицензия GNU |
Версия | 1,75 |
SUPERFAMILY - это база данных и платформа поиска структурных и функциональных аннотаций для всех белков и геномов. Он классифицирует аминокислотные последовательности в известные структурные домены, особенно в суперсемейства SCOP. Домены - это функциональные, структурные и эволюционные единицы, которые образуют белки. Домены общего предка сгруппированы в суперсемейства. Домены и суперсемейства доменов определены и описаны в SCOP. Суперсемейства - это группы белков, которые имеют структурные доказательства, подтверждающие общего эволюционного предка, но могут не иметь поддающейся обнаружению гомологии последовательностей.
Аннотация SUPERFAMILY основана на наборе скрытых марковских моделей (HMM), которые представляют структурные белковые домены на уровне суперсемейства SCOP. Суперсемейство объединяет домены, которые связаны эволюционными отношениями. Аннотации производятся путем сканирования белковых последовательностей полностью секвенированных геномов по скрытым марковским моделям.
Для каждого белка вы можете:
Для каждого генома вы можете:
Для каждого суперсемейства вы можете:
Все аннотации, модели и дамп базы данных доступны для бесплатного скачивания всем желающим.
Последовательный поиск
Отправьте последовательность белка или ДНК для классификации SCOP на суперсемейство и на уровне семейства с помощью SUPERFAMILY HMM. Последовательности могут быть отправлены либо путем необработанного ввода, либо путем загрузки файла, но все они должны быть в формате FASTA. Последовательности могут быть аминокислотами, нуклеотидной последовательностью с фиксированной рамкой или всеми рамками представленной нуклеотидной последовательности. Одновременно можно запускать до 1000 последовательностей.
Поиск по ключевым словам
Выполните поиск в базе данных, используя название суперсемейства, семейства или вида плюс последовательность, идентификаторы SCOP, PDB или HMM. Успешный поиск дает класс, складки, суперсемейства, семейства и отдельные белки, соответствующие запросу.
Назначение домена
В базе данных есть назначения доменов, выравнивания и архитектуры для полных последовательностей эукариотических и прокариотических организмов, а также коллекции последовательностей.
Инструменты сравнительной геномики
Просмотрите необычные (чрезмерно и недостаточно представленные) суперсемейства и семейства, списки и графики смежных пар доменов, уникальные пары доменов, комбинации доменов, сети совместного появления архитектуры доменов и распределение доменов по таксономическим царствам для каждого организма.
Статистика генома
Для каждого генома: количество последовательностей, количество последовательностей с назначением, процент последовательностей с назначением, процент общего покрытия последовательностей, количество назначенных доменов, количество назначенных суперсемейств, количество назначенных семейств, средний размер суперсемейства, процент, полученный в результате дупликации, средний длина последовательности, средняя совпадающая длина, количество пар доменов и количество уникальных доменных архитектур.
Генная онтология
Доменно-ориентированная генная онтология (GO) автоматически аннотируется.
Из-за растущего разрыва между секвенированными белками и известными функциями белков становится все более важным разработать более автоматизированный метод функционального аннотирования белков, особенно для белков с известными доменами. SUPERFAMILY использует аннотации GO на уровне белков, взятые из проекта Genome Ontology Annotation (GOA), который предлагает высококачественные аннотации GO, напрямую связанные с белками в UniprotKB для широкого спектра видов. SUPERFAMILY сгенерировал GO-аннотации для эволюционно закрытых доменов (на уровне семейства SCOP) и удаленных доменов (на уровне суперсемейства SCOP).
Онтология фенотипа
Доменно-ориентированная онтология фенотипа / анатомии, включая онтологию заболевания, фенотип человека, фенотип мыши, фенотип червя, фенотип дрожжей, фенотип мух, анатомию мух, анатомию рыбок данио, анатомию ксенопов и растение арабидопсис.
Аннотация надсемейства
InterPro составляет рефераты для более чем 1000 суперсемейств, а аннотации Gene Ontology (GO) - для более чем 700 суперсемейств. Эта функция позволяет напрямую аннотировать ключевые особенности, функции и структуры суперсемейства.
Функциональная аннотация
Функциональная аннотация суперсемейства SCOP 1.73.
База данных SUPERFAMILY использует схему из 50 подробных категорий функций, которые сопоставляются с 7 общими категориями функций, аналогично схеме, используемой в базе данных COG. Общая функция, назначенная суперсемейству, использовалась для отражения основной функции этого суперсемейства. Общие категории функций:
Каждое суперсемейство доменов в SCOP-классах от a до g было вручную аннотировано с использованием этой схемы, и использованная информация была предоставлена SCOP, InterPro, Pfam, Swiss Prot и различными литературными источниками.
Филогенетические деревья
Создавайте собственные филогенетические деревья, выбрав 3 или более доступных генома на сайте SUPERFAMILY. Деревья генерируются с использованием методов эвристической экономии и основаны на данных об архитектуре белковых доменов для всех геномов в SUPERFAMILY. Комбинации геномов или определенные клады могут отображаться в виде отдельных деревьев.
Подобные доменные архитектуры
Эта функция позволяет пользователю найти 10 доменных архитектур, наиболее похожих на интересующую доменную архитектуру.
Скрытые марковские модели
Произведите назначения области SCOP для последовательности, используя SUPERFAMILY скрытые модели Маркова.
Сравнение профилей
Найдите совпадения с удаленными доменами, когда поиск HMM не может найти значимого совпадения. Используется сравнение профилей (PRC) для выравнивания и оценки двух профилей HMM.
Веб-сервисы
Распределенный сервер аннотаций и ссылка на SUPERFAMILY.
Загрузки
Последовательности, задания, модели, база данных MySQL и скрипты - обновляются еженедельно.
База данных SUPERFAMILY имеет множество исследовательских приложений и использовалась многими исследовательскими группами для различных исследований. Он может служить либо базой данных для белков, которые пользователь желает исследовать с помощью других методов, либо назначать функцию и структуру новому или не охарактеризованному белку. Одно исследование показало, что SUPERFAMILY очень хорошо умеет правильно назначать соответствующую функцию и структуру большому количеству областей неизвестной функции, сравнивая их со скрытыми марковскими моделями баз данных. Другое исследование использовало SUPERFAMILY для создания набора данных из 1733 складчатых доменов суперсемейства (FSF) с использованием сравнения протеомов и функциономов для определения происхождения клеточной диверсификации.