Интегративная биоинформатика

редактировать

Интегративная биоинформатика - это дисциплина биоинформатики, которая фокусируется на проблемах интеграции данных для наук о жизни.

С развитием высокопроизводительных (HTP) технологий в науках о жизни, особенно в молекулярной биологии, объем собранных data растет экспоненциально. Кроме того, данные разбросаны по множеству как общедоступных, так и частных репозиториев и хранятся с использованием большого количества различных форматов. Эта ситуация затрудняет поиск этих данных и выполнение анализа, необходимого для извлечения новых знаний из полного набора имеющихся данных. Интегративная биоинформатика пытается решить эту проблему, обеспечивая единый доступ к данным науки о жизни.

Содержание

  • 1 Подходы
    • 1.1 Подходы семантической сети
    • 1.2 Подходы к хранилищу данных
    • 1.3 Другие подходы
  • 2 См. Также
  • 3 Ссылки
  • 4 Внешние ссылки

Подходы

Подходы семантической сети

В подходе семантической паутины поиск данных с нескольких веб-сайтов или баз данных осуществляется с помощью метаданных. Метаданные - это машиночитаемый код, который определяет содержимое страницы для программы, чтобы сравнение данных и условий поиска было более точным. Это помогает уменьшить количество нерелевантных или бесполезных результатов. Некоторые метаданные существуют в виде определений, называемых онтологиями, которые могут быть помечены как пользователями, так и программами; они служат для облегчения поиска за счет использования ключевых терминов или фраз для поиска и возврата данных. Преимущества этого подхода включают в себя общее повышенное качество данных, возвращаемых при поиске, и при правильной маркировке, онтологии находят записи, которые могут не указывать явно поисковый термин, но по-прежнему актуальны. Одним из недостатков этого подхода является то, что возвращаемые результаты приходят в формате базы данных их происхождения, и поэтому прямые сравнения могут быть трудными. Другая проблема заключается в том, что термины, используемые в тегах и поиске, иногда могут быть двусмысленными и могут вызвать путаницу в результатах. Кроме того, семантический веб-подход все еще считается новой технологией и в настоящее время не используется широко.

Одним из текущих приложений поиска на основе онтологий в биомедицинских науках является GoPubMed, который выполняет поиск в базе данных научной литературы PubMed. Другое использование онтологий - в таких базах данных, как SwissProt, Ensembl и TrEMBL, которые используют эту технологию для поиска тегов в хранилищах данных, связанных с протеомами человека. связанных с поисковым запросом.

Некоторые исследования в этой области были сосредоточены на создании новых и конкретных онтологий. Другие исследователи работали над проверкой результатов существующих онтологий. В конкретном примере цель Verschelde, et al. была интеграция нескольких различных библиотек онтологий в более крупную библиотеку, которая содержала больше определений различных узкоспециальных дисциплин (медицинских, молекулярно-биологических и т. д.) и могла различать неоднозначные теги; В результате получился эффект, подобный хранилищу данных, с легким доступом к нескольким базам данных с помощью онтологий. В отдельном проекте Бертенс и др. построил решетчатую работу трех онтологий (для анатомии и разработки модельных организмов) на новой онтологии каркаса общих органов. Например, результаты поиска «сердца» в этой онтологии вернут планы сердца для каждого из видов позвоночных, онтологии которых были включены. Заявленная цель проекта - способствовать сравнительным и эволюционным исследованиям.

Подходы к хранилищу данных

В стратегии хранилища данных данные из разных источников извлекаются и интегрируются в единой базе данных. Например, различные наборы данных 'omics' могут быть интегрированы для обеспечения биологической информации о биологических системах. Примеры включают данные из геномики, транскриптомики, протеомики, интерактомики, метаболомики. В идеале изменения в этих источниках регулярно синхронизируются с интегрированной базой данных. Данные предоставляются пользователям в едином формате. Многие программы, направленные на создание таких складов, разработаны так, чтобы быть чрезвычайно универсальными, чтобы их можно было реализовать в различных исследовательских проектах. Одним из преимуществ этого подхода является то, что данные доступны для анализа на одном сайте с использованием единой схемы. Некоторые недостатки заключаются в том, что наборы данных часто огромны, и их сложно поддерживать в актуальном состоянии. Другая проблема этого метода заключается в том, что создание такого хранилища обходится дорого.

Стандартизованные форматы для различных типов данных (например, данных о белках) в настоящее время появляются из-за влияния таких групп, как Proteomics Инициатива по стандартам (PSI). Некоторые проекты хранилищ данных даже требуют представления данных в одном из этих новых форматов.

Другие подходы

Интеллектуальный анализ данных использует статистические методы для поиска закономерностей в существующих данных. Этот метод обычно возвращает множество шаблонов, некоторые из которых являются ложными, а некоторые значимыми, но все шаблоны, которые обнаруживает программа, должны оцениваться индивидуально. В настоящее время некоторые исследования сосредоточены на объединении существующих методов интеллектуального анализа данных с новыми методами анализа шаблонов, которые сокращают необходимость тратить время на просмотр каждого шаблона, обнаруженного первоначальной программой, но вместо этого возвращают несколько результатов с высокой вероятностью релевантности. Одним из недостатков этого подхода является то, что он не интегрирует несколько баз данных, а это означает, что сравнение между базами данных невозможно. Главное преимущество этого подхода состоит в том, что он позволяет генерировать новые гипотезы для проверки.

См. Также

Ссылки

Внешние ссылки

Последняя правка сделана 2021-05-24 03:55:41
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте