UniGene

редактировать
UniGene
Unigene banner.jpg
Содержание
Описаниетранскриптом
Связаться
Исследовательский центр NCBI
Доступ к
Веб-сайтhttps://www.ncbi.nlm.nih.gov/unigene

UniGene - это база данных NCBI транскриптома и таким образом, несмотря на название, это не в первую очередь база данных для генов. Каждая запись представляет собой набор транскриптов, которые, по-видимому, происходят из одного и того же локуса транскрипции (т. Е. Гена или экспрессированного псевдогена ). Информация о сходстве белка, экспрессии генов, кДНК клонах и геномном местоположении включена в каждую запись.

Доступны описания процедур построения на основе транскриптов UniGene и генома.

Содержание
  • 1 Подробное описание базы данных UniGene
  • 2 Вывод UniGene
  • 3 Связанные базы данных
  • 4 См. Также
  • 5 Ссылки
  • 6 Внешние ссылки
Подробное описание базы данных UniGene

Ресурс UniGene, разработанный в NCBI, кластеры EST и другие последовательности мРНК вместе с кодирующими последовательностями (CDS) , аннотированные на геномной ДНК на подмножества родственных последовательностей. В большинстве случаев каждый кластер состоит из последовательностей, продуцируемых одним геном, включая транскрипты с альтернативным сплайсингом. Однако некоторые гены могут быть представлены более чем одним кластером. Кластеры специфичны для организма и в настоящее время доступны для человека, мыши, крысы, рыбок данио и крупного рогатого скота. Они строятся в несколько этапов с использованием автоматического процесса, основанного на специальных алгоритмах сравнения последовательностей . Сначала нуклеотидные последовательности ищутся на предмет примесей, таких как митохондриальная, рибосомная и векторная последовательность, повторяющиеся элементы и последовательности низкой сложности. После проверки последовательности она должна содержать не менее 100 оснований, чтобы быть кандидатом на включение в UniGene. мРНК и геномная ДНК сначала группируются в генные связи. Второе сравнение последовательностей связывает EST друг с другом и со связями генов. На этом этапе все кластеры «закреплены» и содержат либо последовательность с сайтом полиаденилирования, либо два EST, помеченных как исходящие с 3-го конца клона. Основанные на клонах ребра добавляются путем связывания 5 и 3 EST, происходящих от одного и того же клона. В некоторых случаях такое связывание может объединять кластеры, идентифицированные на предыдущем этапе. Наконец, незакрепленные EST и кластеры генов размера 1 (которые могут представлять редкие транскрипты) сравниваются с другими кластерами UniGene с более низкой строгостью. Сборка UniGene обновляется еженедельно, и последовательности, составляющие кластер, могут меняться. Таким образом, ссылаться на кластер UniGene по его идентификатору небезопасно; вместо этого следует использовать регистрационные номера GenBank последовательностей в кластере.

По состоянию на июль 2000 г. человеческая подгруппа UniGene содержала 1,7 миллиона последовательностей в 82000 кластерах; 98% этих кластерных последовательностей были EST, а оставшиеся 2% были из мРНК или CDS, аннотированных на геномной ДНК. Эти человеческие кластеры могут представлять собой фрагменты до 82000 уникальных человеческих генов, что означает, что многие человеческие гены теперь представлены в кластере UniGene. (Это число, несомненно, является завышенной оценкой количества генов в геноме человека, поскольку некоторые гены могут быть представлены более чем одним кластером.) Только 1,4% кластеров полностью лишены EST, что означает, что большинство генов человека представлено хотя бы одним СТАНДАРТНОЕ ВОСТОЧНОЕ ВРЕМЯ. Напротив, похоже, что большинство генов человека было идентифицировано только с помощью EST; только 16% кластеров содержат мРНК или CDS, аннотированные на геномной ДНК. Поскольку для мышей, крыс и рыбок данио доступно меньше EST, кластеры UniGene не являются репрезентативными для уникальных генов в геноме. UniGene мыши содержит 895 000 последовательностей в 88 000 кластеров, а UniGene крысы содержит 170 000 последовательностей в 37 000 кластеров.

Новый ресурс UniGene, HomoloGene, включает тщательно отобранные и рассчитанные ортологи и гомологи для генов человека, мыши, крысы и рыбок данио. Вычисленные ортологи и гомологи являются результатом сравнения нуклеотидных последовательностей между всеми кластерами UniGene для каждой пары организмов. Гомологи считаются наиболее подходящими для кластера UniGene в одном организме и кластера во втором организме. Когда две последовательности в разных организмах наилучшим образом соответствуют друг другу (взаимное наилучшее соответствие), кластеры UniGene, соответствующие паре последовательностей, считаются предполагаемыми ортологами. Специальный символ указывает на то, что кластеры UniGene в трех или более организмах имеют взаимно согласованные ортологические отношения. Рассчитанные ортологи и гомологи считаются предполагаемыми, поскольку они основаны только на сравнении последовательностей. Кураторские ортологи предоставлены Базой данных генома мышей (MGD) в лаборатории Джексона и Информационной базой данных о рыбках данио (ZFIN) в Университете Орегона, а также могут быть получены из научной литературы. Запросы к UniGene вводятся в текстовое поле на любой из страниц UniGene. Условиями запроса могут быть, например, идентификатор UniGene, имя гена, текстовый термин, который находится где-то в записи UniGene, или номер доступа EST или последовательности гена в кластере. Например, кластер под названием «Домен 10 дезинтегрина и металлопротеазы», ​​который содержит последовательность для человеческого ADAM10, можно получить, введя ADAM10, дезинтегрин, AF009615 (номер доступа GenBank ADAM10) или H69859 (номер доступа GenBank EST в кластере). Чтобы запросить определенную часть записи UniGene, используйте символ @. Например, @gene (символ) ищет гены с именем символа, заключенным в круглые скобки, @chr (num) ищет записи, которые сопоставлены с номером хромосомы, @lib (id) возвращает записи в библиотеке кДНК, идентифицированные по id., а @pid (id) выбирает записи, связанные с идентификатором идентификатора белка GenBank.

Страница результатов запроса содержит список всех кластеров UniGene, соответствующих запросу. Каждый кластер идентифицируется идентификатором, описанием и символом гена, если таковой имеется. Идентификаторы кластера имеют префикс Hs для Homo sapiens, Rn для Rattus norvegicus, Mm для Mus musculus или Dn для Danio rerio. Описания кластеров UniGene берутся из LocusLink, если таковой имеется, или из названия последовательности в кластере. Страница отчета UniGene для каждого кластера содержит ссылки на данные из других ресурсов NCBI (рис. 12.5). Вверху страницы находятся ссылки на LocusLink, который предоставляет описательную информацию о генетических локусах (Pruitt et al., 2000), OMIM, каталог генов человека и генетических нарушений, и HomoloGene. Далее перечислены сходства между трансляциями последовательностей ДНК в кластере и последовательностей белков от модельных организмов, включая человека, мышь, крысу, плодовую муху и червя. В следующем разделе описывается соответствующая картографическая информация. За ним следует «информация об экспрессии», в которой перечислены ткани, из которых были созданы EST в кластере, а также ссылки на базу данных SAGE. Далее перечислены последовательности, составляющие кластер, вместе со ссылкой для загрузки этих последовательностей.

Важно отметить, что в кластерах, содержащих только EST (т.е. без мРНК или аннотированных CDS), будут отсутствовать некоторые из этих полей, такие как LocusLink, OMIM и связи мРНК / ген. Заголовки UniGene для таких кластеров, такие как ‘‘ EST, слабо похожие на ORF2, содержат домен обратной транскриптазы [H. sapiens], ’’ происходят от названия охарактеризованного белка, с которым совпадает транслируемая последовательность EST. Заголовок кластера может быть таким же простым, как «EST», если EST не имеют существенного сходства с охарактеризованными белками.

Прекращение использования UniGene

1 февраля 2019 года NCBI объявило, что удалил базу данных UniGene, потому что «эталонные геномы доступны для большинства организмов с большим исследовательским сообществом. Следовательно, использование UniGene и потребность в нем значительно снизились». Доступ к сборкам UniGene останется по FTP.

Связанные базы данных
  • База данных NCBI Gene База данных NCBI, каталогизирующая отдельные гены
  • HomoloGene База данных NCBI, в которой хранятся группы гомологичных генов от разных организмов
См. Также
Ссылки
Внешние ссылки
Последняя правка сделана 2021-06-20 10:58:32
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте