Инструмент профилирования последовательности

редактировать

A Инструмент профилирования последовательностей в биоинформатике - это тип программного обеспечения, которое представляет информацию, относящуюся к генетической последовательности, гену имя или ключевое слово. Такие инструменты обычно принимают запрос, такой как последовательность ДНК, РНК или белок, или «ключевое слово», и выполняют поиск в одной или нескольких базах данных для информации, относящейся к этой последовательности. Сводные данные и сводные результаты представлены в стандартизированном формате с описанием информации, для сбора которой в противном случае потребовалось бы посещение многих небольших сайтов или прямой поиск литературы. Многие инструменты профилирования последовательностей представляют собой программные порталы или шлюзы, которые упрощают процесс поиска информации о запросе в большом и постоянно растущем количестве баз данных биоинформатики. Доступ к этим видам инструментов осуществляется либо через Интернет, либо через локально загружаемые исполняемые файлы.

Содержание

1 Введение и использование
2 Профилировщики на основе ключевых слов
3 Профилировщики на основе последовательностей данных
4 Будущий рост и направления
5 См. Также
6 Ссылки

Введение и использование

Эпоха "пост- геномики " дала начало ряду веб-инструментов и программного обеспечения для компиляции, организации и доставки больших объемов первичной последовательности информацию, а также структуры белков, аннотации генов, выравнивания последовательностей и другие общие задачи биоинформатики.

В целом существует три типа баз данных и поставщиков услуг. Первый включает популярные общедоступные базы данных или базы данных с открытым доступом, поддерживаемые финансированием и грантами, такими как NCBI, ExPASy, Ensembl и PDB.. Вторая включает более мелкие или более конкретные базы данных, организованные и составленные отдельными исследовательскими группами. Примеры включают базу данных генома дрожжей, базу данных РНК. Третья и последняя включает частные корпоративные или институциональные базы данных, для доступа к которым требуется оплата или институциональная принадлежность. Такие примеры редки, учитывая глобализацию общедоступных баз данных, за исключением случаев, когда предполагаемая услуга находится в стадии разработки или конечная точка анализа не имеет коммерческой ценности.

Типичные сценарии подхода к профилированию становятся актуальными, особенно в случаях первых двух групп, когда исследователи обычно хотят объединить информацию, полученную из нескольких источников, об одном запросе или целевой последовательности. Например, пользователи могут использовать инструмент выравнивания последовательностей и поиска BLAST для идентификации гомологов интересующего их гена у других видов, а затем использовать эти результаты для поиска решенной структуры белка для одного вида. гомологов. Точно так же они могут также захотеть узнать вероятную вторичную структуру мРНК, кодирующую интересующий ген, или продает ли компания конструкцию ДНК, содержащую ген. Инструменты профилирования последовательности служат для автоматизации и интеграции процесса поиска такой разрозненной информации, делая процесс поиска в нескольких различных внешних базах данных прозрачным для пользователя.

Многие общедоступные базы данных уже сильно связаны, поэтому дополнительная информация в другой базе данных легко доступна; например, Genbank и PDB тесно взаимосвязаны. Однако специализированные инструменты, организованные и размещенные конкретными исследовательскими группами, могут быть трудными для интеграции в эту работу по связыванию, потому что они узко ориентированы, часто изменяются или используют пользовательские версии общих форматов файлов. Преимущества инструментов профилирования последовательностей включают в себя возможность использовать несколько из этих специализированных инструментов в одном запросе и представлять выходные данные с помощью общего интерфейса, возможность направлять выходные данные одного набора инструментов или поиск в базе данных во входные данные другого, а также способность распространять обязательства по размещению и компиляции в сети исследовательских групп и учреждений, а не в одном централизованном хранилище.

Профилировщики на основе ключевых слов

Большинство инструментов профилирования, доступных сегодня в Интернете, попадают в эту категорию. Пользователь при посещении сайта / инструмента вводит любую релевантную информацию, например, ключевое слово. дистрофия, диабет и т. д. или инвентарные номера GenBank, идентификатор PDB. Все релевантные результаты поиска представлены в формате, уникальном для каждого инструмента. Инструменты профилирования, основанные на поиске по ключевым словам, по сути, представляют собой поисковые системы, которые являются узкоспециализированными для работы в области биоинформатики, тем самым устраняя беспорядок нерелевантных или ненаучных обращений, которые могут возникнуть с традиционной поисковой системой, такой как Google. Большинство инструментов профилирования на основе ключевых слов допускают гибкие типы ввода ключевых слов, регистрационные номера из индексированных баз данных, а также традиционные дескрипторы ключевых слов.

Каждый инструмент профилирования имеет свою направленность и область интересов. Например, поисковая машина NCBI Entrez разделяет свои совпадения по категориям, так что пользователи, ищущие информацию о структуре белка, могут отсеивать последовательности без соответствующей структуры, в то время как пользователи, заинтересованные в просмотре литературы по предмету можно просматривать аннотации статей, опубликованных в научных журналах, не отвлекаясь от результатов исследования генов или последовательностей. База данных литературы по бионаукам Pubmed является популярным инструментом для поиска литературы, хотя эта услуга почти равна более общим службам Google Scholar.

. агрегации данных на основе ключевых слов, таким как Bioinformatic Harvester. выполняет предоставление отчетов с различных сторонних серверов в формате «как есть», поэтому пользователям не нужно посещать веб-сайт или устанавливать программное обеспечение для каждой отдельной компонентной службы. Это особенно бесценно, учитывая быстрое появление различных сайтов, предоставляющих различные инструменты для анализа последовательностей и манипуляций. Другой агрегированный веб-портал, Справочная база данных белков человека (Hprd ), содержит вручную аннотированные и тщательно отобранные записи для белков человека. Таким образом, предоставляемая информация является выборочной и исчерпывающей, а формат запроса - гибким и интуитивно понятным. Плюсы разработки вручную курируемых баз данных включают представление корректируемого материала и концепцию «молекулярных авторитетов», которые берут на себя ответственность за определенные белки. Однако минусы в том, что они обычно обновляются медленнее и могут не содержать очень новых или спорных данных.

Профилировщики на основе данных последовательностей

Типичный инструмент профилирования последовательностей обеспечивает дальнейшее развитие, используя фактическую последовательность ДНК, РНК или белка в качестве входных данных, и позволяет пользователю посещать различные веб-инструменты анализа для получения желаемой информации. Такие инструменты также обычно поставляются с коммерческим лабораторным оборудованием, таким как секвенаторы генов, или иногда продаются как программные приложения для молекулярной биологии. В другом примере общедоступной базы данных отчет о поиске последовательности BLAST из NCBI предоставляет ссылку из своего отчета о сопоставлении на другую релевантную информацию в его собственных базах данных, если такая конкретная информация существует.

Например, полученная запись, содержащая последовательность человека, будет нести отдельную ссылку, которая соединяет ее местоположение на карте генома человека; запись, содержащая последовательность, для которой была решена трехмерная структура, будет содержать ссылку, которая соединяет ее с ее базой данных структур. Sequerome, инструмент общедоступной службы, связывает весь отчет BLAST со многими сторонними серверами / сайтами, которые предоставляют высокоспециализированные услуги в манипуляциях с последовательностями, такие как рестрикционные ферменты карты, открытое чтение кадр анализирует последовательность нуклеотидов и предсказание вторичной структуры. Инструмент обеспечивает дополнительное преимущество в виде ведения журнала исследований операций, выполняемых пользователем, который затем можно удобно заархивировать с помощью функций «почта», «печать» или «сохранение». Таким образом, вся операция исследования последовательности с использованием различных исследовательских инструментов и, таким образом, доведения проекта до его завершения, может быть выполнена в одном интерфейсе браузера. Следовательно, будущее поколение инструментов профилирования последовательностей будет включать в себя возможность совместной работы в Интернете с исследователями для обмена журналами проектов и инструментов исследования, аннотирования результатов анализа последовательностей или лабораторных работ, настройки и автоматизации обработки наборов данных последовательностей и т. Д. InstaSeq - это поисковый инструмент на базе Google, который позволяет пользователю напрямую вводить последовательность и выполнять поиск по всей всемирной паутине. Эта уникальная поисковая система, единственная в своем роде, отличается от поиска в определенных базах данных, например. GenBank.

В результате пользователь может получить документ или страницу из менее известной базы данных практически из любой точки мира. Хотя профилировщиков на основе последовательностей в текущем сценарии мало, их ключевая роль станет очевидной, когда потребуется перекрестная обработка огромных объемов данных последовательностей между порталами и доменами.

Будущий рост и направления

Распространение биоинформатических инструментов для генетического анализа помогает исследователям определять и классифицировать гены и наборы генов, представляющие интерес для их работы; однако большое количество инструментов, которые выполняют в основном схожие агрегатные и аналитические функции, также могут сбивать с толку и расстраивать новых пользователей. Децентрализация, поощряемая агрегированными инструментами, позволяет отдельным исследовательским группам поддерживать специализированные серверы, предназначенные для определенных типов анализа данных, в ожидании, что их результаты будут собраны в более крупный отчет о гене или белке, представляющем интерес для других исследователей.

Данные, полученные с помощью экспериментов на микроматрицах, двухгибридного скрининга и других высокопроизводительных биологических экспериментов, являются объемными и их трудно анализировать вручную; Усилия сотрудничества структурной геномики, нацеленные на быстрое решение большого количества очень разнообразных белковых структур, также увеличивают потребность в интеграции между базами данных последовательностей и структур и порталами. Этот импульс к разработке более всеобъемлющих и более удобных методов профилирования последовательностей делает эту область активной области исследований среди нынешних исследователей геномики.

См. Также

Ссылки

Peri S, Navarro JD, Kristiansen TZ, et al. (Январь 2004 г.). «Справочная база данных белков человека как ресурс для открытия протеомики». Nucleic Acids Res. 32 (Проблема с базой данных): D497–501. doi : 10.1093 / nar / gkh070. PMC 308804. PMID 14681466.
Liebel U; Киндлер Б; Pepperkok R (август 2004 г.). «'Harvester': быстрая метапоисковая система человеческих ресурсов белка». Биоинформатика. 20 (12): 1962–3. doi : 10.1093 / bioinformatics / bth146. PMID 14988114.
Ганесан N; Беннетт Н.Ф.; Velauthapillai M; Паттабираман Н; Squier R; Кальянасундарам Б. (август 2005 г.). «Веб-интерфейс, облегчающий структурный анализ отчетов о сопоставлении BLAST». Биотехнологии. 39 (2): 186, 188. doi : 10.2144 / 05392BM05. PMID 16116790.
Beaton J; Смит С. (ноябрь 2005 г.). "Google против PubMed". Ann R Coll Surg Engl. 87 (6): 491–2. doi : 10.1308 / 003588405X71207. PMC 1964102. PMID 16263030.
Хантер Л; Коэн КБ (март 2006 г.). «Биомедицинская языковая обработка: что дальше PubMed?». Мол. Cell. 21 (5): 589–94. doi : 10.1016 / j.molcel.2006.02.012. PMC 1702322. PMID 16507357.
Ганесан N; Кальянасундарам Б; Velauthapillai M (март 2007 г.). «Инструменты профилирования данных биоинформатики: прелюдия к метаболическому профилированию». Pac. Symp. Биокомпьютер: 127–32. PMID 17990486.