Биоинформатика

редактировать
Вычислительный анализ больших и сложных наборов биологических данных

Ранняя биоинформатика - расчетное сопоставление экспериментально определенных последовательностей класса родственных белков; см. § Анализируйте для стабильной информации. Карта Х-хромосомы человека (с веб-сайта национального центра биотехнологической информации ).

Биоинформатика (О нас этот звук listen ) - это междисциплинарная область, которая разрабатывает методы и программные инструменты для понимания биологических данных, в частности, когда наборы данных большие и сложные. Как междисциплинарная область науки, биоинформатика объединяет биологию, информатику, информационную инженерию, математику и статистику анализировать и интерпретировать биологические данные. Биоинформатика использовалась для in silico анализа биологических запросов с математических и статистических методов.

Биоинформатика включает биологические исследования, которые используют компьютерное программирование как часть своей методологии, поскольку часто используются специфические «конвейеры» анализа, которые часто, особенно в области геномики. Обычно биоинформатика используется для идентификации генов-кандидатов и полиморфизмов с одним нуклеотидом (SNP ). Часто такая идентификация используется с целью лучшего генетической болезни, уникальных приспособлений, желаемых свойств (особенно у сельскохозяйственных видов) или различий между популяциями. Менее формально биоинформатика также пытается понять организационные принципы последовательностей нуклеиновых кислот и белка, называемые протеомикой.

Содержание

  • 1 Введение
    • 1.1 История
      • 1.1. 1 Последовательности
    • 1.2 Цели
    • 1.3 Связь с другими областями
  • 2 Последовательности
    • 2.1 Секвенирование ДНК
    • 2.2 Сборка последовательностей
    • 2.3 Аннотации генома
    • 2.4 Вычислительная эволюционная биология
    • 2.5 2,6 Пангеномика
    • 2,7 Генетика заболеваний
    • 2,8 Анализ мутаций при раке
  • 3 Экспрессия генов и сравнительных белков
    • 3,1 Анализ экспрессии генов
    • 3,2 Анализ экспрессии белка
    • 3.3 Анализ регуляции
  • 4 Анализ клеточной
    • 4.1 Микроскоп и анализ изображений
    • 4.2 Локализация белка
    • 4.3 Ядерная организация хроматина
  • 5 Структурная биоинформатика
  • 6 Сетевая и системная биология
    • 6.1 Сети молекулярного взаимодействия
  • 7 Прочее
    • 7.1 Анали з литературы
    • 7.2 Высокотемпературные высокопроизводительный анализ изображений
    • 7.3 Высокопроизводительный анализ отдельных ячеек
    • 7.4 Информатика биоразнообразия
    • 7.5 Онтологии и интеграция данных
  • 8 Базы данных
  • 9 Программное обеспечение и инструменты
    • 9.1 Программное обеспечение для биоинформатики с открытым исходным кодом
    • 9.2 Веб-сервисы в биоинформатике
    • 9.3 Системы управления рабочими процессами биоинформатики
    • 9.4 Объекты BioCompute и BioCompute
  • 10 Образовательные платформы
  • 11 Конференции
  • 12 См. Также
  • 13 Ссылки
  • 14 Следующее чтение
  • 15 Внешние ссылки

Введение

Биоинформатика стала частью многих биологии. В экспериментальной молекулярной биологии методы биоинформатики, такие как изображение и обработка сигналов, позволяют извлекать полезные результаты из больших объемов необработанных данных. В области генетики он помогает в секвенировании и аннотировании геномов и их наблюдаемых мутаций. Он играет в интеллектуальном анализе текста биологической литературы и разработке биологических и генных онтологий для организации и запроса биологических данных. Он также играет роль в анализе экспрессии и регуляции генов и белков. Инструменты биоинформатики позволяют в более общем плане анализа и интерпретации генетических и геномных данных, в более общем плане, в понимании эволюции молекулярной биологии. На более интегративном уровне он помогает анализировать и каталогизировать биологические пути и сети, которые служат пояснением системной биологии. В структурной биологии он помогает моделировать и моделировать ДНК, РНК, белки, а также биомолекулярные взаимодействия.

История

Исторически термин биоинформатика не означал что это значит сегодня. Паульен Хогевег и придумал его в 1970 году для обозначения информационных процессов в биотических системах. Это определение помещало биоинформатику как область, параллельную биохимии (изучение химических процессов в биологических системах).

Последовательности

Последовательности генетического материала часто используются в биоинформатике и их легче управлять с помощью компьютеров, чем вручную.

Компьютеры стали важными в молекулярной биологии, когда белковые следовать стали доступны после того, как Фредерик Сэнгер определил последовательность инсулина в начале 1950-х годов.. Сравнение нескольких последовательностей вручную нецелесообразным. Первопроходцем в этой области была Маргарет Окли Дейхофф. Она одна из первых из баз данных последовательностей белков, современных опубликованных в виде книг, и впервые применила выравнивание последовательностей и методов молекулярной эволюции. Еще одним ранним участником биоинформатики был Элвин А. Кабат, который в 1970 году ввел первый анализ биологической последовательности, предоставил обширные тома последовательности антител с помощью Tai Te Wu в период с 1980 по 1991 год. В 1970-х годах появились новые методы секвенирования ДНК. были применены бактериофагам MS2 и øX174, а затем расширенные нуклеотидные последовательности были проанализированы с помощью информационных и статистических алгоритмов. Эти исследования показывают, что используются хорошо известные особенности, как используются методы кодирования и триплетный код, выявляются в ходе прямого анализа и таким образом, являются доказательством концепции, согласно которой биоинформатика может быть полезной.

Цели

Чтобы изучить, как нормальная клеточная активность при различных болезненных состояниях, биологические данные должны быть объединены, чтобы сформировать полную картину этой активности. Таким образом, область биоинформатики развивалась так, что наиболее актуальной в настоящее время является анализ и интерпретация различных типов данных. Сюда входят нуклеотидные и аминокислотные последовательности, белковые домены и белковые структуры. Фактический процесс анализа и интерпретации данных называется вычислительной биологией. Важные субдисциплины в области биоинформатики и вычислительной биологии включают:

  • Разработка и внедрение компьютерных программ, обеспечивающих эффективный доступ, управление и использование различных типов информации
  • Разработка новых алгоритмов (математических формул) и статистические меры, которые оценивают отношения между большими наборами данных. Например, существуют методы для локализации гена в последовательностях, для прогнозирования структуры и / или функций белка и для кластеризации последовательностей белка в связанных последовательностях.

Основная цель биоинформатики - улучшение понимания биологических процессов. Однако, что отличает его от других подходов, так это его ориентация на приложение и применение вычислительно-ресурсоемких методов для достижения цели. Примеры включают: распознавание образов, интеллектуальный анализ данных, алгоритмы машинного обучения и визуализацию. Основные исследования в этой области включают выравнивание последовательностей, поиск генов, сборку генома, лекарств, открытие лекарств, выравнивание структуры белка, прогнозирование структуры белка, прогноз экспрессии гена и белок-белковых взаимодействий, по всему геному исследования ассоциаций, моделирование эволюции и деления / митоза клеток.

Биоинформатика в настоящее время влечет за собой создание и развитие базовых данных, алгоритмов, вычислительных и статистических методов и теории для решения формальных и практических проблем, выполняющих при управлении и аналитических биологических данных.

За последние несколько десятилетий быстрого развития технологий геномных и других молекулярных исследований и развития информационные технологии объединились, чтобы произвести огромное количество информации, изученной с молекулярной биологией. Биоинформатика - это название, данное этим математическим и вычислительным подходам, используемым для понимания биологических процессов.

Общие виды деятельности в биоинформатике включают картирование и анализ ДНК и последовательностей белков, выравнивание последовательностей ДНК и белков для их сравнения, а также создание и просмотр трехмерных моделей структур белков.

Связь с другими областями

Биоинформатика - это области науки, которая похожа на биологические вычисления, но отличается от нее, хотя ее часто считают синонимом вычислительной биологии. В биологических вычислениях используются биоинженерия и биология для создания биологических компьютеров, тогда как биоинформатика использует вычисления для лучшего понимания биологии. Биоинформатика и вычислительная биология включает анализ биологических данных, в последовательностях ДНК, РНК и белков. Сфера биоинформатики пережила бурный рост, начиная с середины 1990-х годов, в основном благодаря Проекту «Геном человека» и быстрому развитию технологии секвенирования ДНК.

Анализ биологических данных для получения значимой информации включает написание и запуск программ, которые используют алгоритмы из теории графов, искусственного интеллекта, интеллектуальный анализ данных, обработка изображений и компьютерное моделирование. Алгоритмы, в свою очередь, зависят от теоретических основ, таких дискретная математика, теория управления, теория систем, теория информации и . статистика.

Анализ последовательностей

Так фаг Φ-X174 был секвенирован в 1977 году, последовательность ДНК тысяч организмов были преобразованы и хранится в базах данных. Эта информация о последовательностях анализируется для определения генов, кодирующих белки, гены РНК. Сравнение генов внутри вида или разных видов может сходство между функциями или показать взаимосвязями между видами (использование молекулярной систематики для построения филогенетических деревьев ). С растущим объемом данных давно стало непрактичный анализировать ДНК вручную. Компьютерные программы, такие как BLAST, обычно используются для поиска последовательностей - по состоянию на 2008 год - из более чем 260 000 организмов, содержащих более 190 миллиардов нуклеотидов.

Секвенирование ДНК

Прежде чем можно будет проанализировать, они должны быть получены из банка данных, например Genbank. Секвенирование ДНК по-прежнему представляет собой нетривиальную проблему, поскольку исходные данные могут быть зашумленными или содержать слабые сигналы. Алгоритмы были разработаны для определения основ для различных экспериментальных подходов к секвенированию ДНК.

Сборка последовательности

Большинство методик секвенирования ДНК производят короткие фрагменты ДНК, которые необходимо собрать для получения полных генов или последовательностей генома. Так называемый метод секвенирования дробовиком (который использовался, например, Институтом геномных исследований (TIGR) для секвенирования первого бактериального генома, Haemophilus influenzae ) вызывает из многих тысяч небольших фрагментов ДНК (длиной от 35 до 900 нуклеотидов, в зависимости от технологии секвенирования). Концы этих фрагментов перекрываются и, при правильном выравнивании программы сборки генома, люди для реконструкции всего генома. Секвенирование дробовиком дает данные последовательности быстро, но задача сборки фрагментов может быть довольно сложной для больших геномов. Для такого большого генома, как геном человека, для сборки фрагментов может потребоваться много времени процесса времени на многопроцессорных компьютерах с большой памятью, и полученная сборка обычно множественные пробелы, которые необходимо заполнить позже.. Секвенирование методом дробовика - это метод выбора практически для всех секвенируемых сегодня геномов, а алгоритмы сборки являются генома используются областью исследования в области биоинформатики.

Аннотации генома

В контексте геномики, аннотация - это маркировки генов и других биологических признаков в последовательности ДНК. Этот процесс необходимо автоматизировать, поскольку большинство геномов слишком велики, чтобы их можно было аннотировать вручную, не говоря уже о желании аннотировать как можно больше геномов, поскольку скорость секвенирования перестала быть узким местом. Аннотация стала возможной благодаря тому факту, что гены распознаваемые области начала и остановки, хотя точная последовательность, обнаруженная в этих областях, может рассматриваться между генами.

Первое полное описание системы аннотации генома было опубликовано в 1995 году командой Института геномных исследований, которая выполнила первое полное секвенирование и анализ генома свободно живущего организма, бактерия Haemophilus influenzae. Оуэн Уайт спроектировал и построил систему обеспечения идентификации генов, кодирующих белки, переносящих РНК, рибосомных РНК (и других сайтов) и обеспечения обеспечения функционирования задания. Большинство современных систем аннотации генома работают аналогично, но доступны для постоянного анализа геномной ДНК, такие как программа GeneMark, обученная и используемая для поиска генов, кодирующих белок в Haemophilus influenzae, изменение и улучшение.

Следуя целям, оставшимся достичь в рамках проекта «Геном человека» после его закрытия в 2003 году, появился новый проект, Национальным исследовательским институтом генома человека в США. Так называемый проект ENCODE представляет совместный сбор данных функциональных элементов генома человека с использованием технологий секвенирования ДНК следующего поколения и массивов геномных листов, технологий, способных автоматически генерировать большие объемы данных в значительно сниженной стоимости базы, но с той же точностью (ошибка базы) и точностью (ошибка сборки).

Вычисая эволюционная биология

Эволюционная биология - это изучение происхождения и происхождения видов, а также их изменения во времени. Информатика помогла эволюционным биологам, позволив исследователям:

  • отслеживать эволюцию большого количества организмов, измеряя изменения в их ДНК, а не только с помощью физических систематики или физиологических наблюдений.,
  • сравнить полные геномы, что позволяет изучать более сложные эволюционные события, такие как дупликация гена, горизонтальный перенос генов и прогнозирование факторов, важных для бактериального видообразования,
  • создание сложных вычислительных моделей популяционной генетики для прогнозирования результатов системы с течением времени
  • отслеживание и обмен информацией о все большем количестве видов и организмы

Будущая работа направлена ​​на реконструкцию теперь более сложного древа жизни.

Область исследований в рамках информатики, в которой используются генетические алгоритмы, иногда путают с вычислительной эволюционной биологией, но эти две области не обязательно связаны.

Сравнительная геномика

Суть сравнительного анализа генома - это установление между генами (анализ ортологии ) или другими геномными особенностями в разных организмах. Именно эти межгеномные карты позволяют проследить эволюционные процессы, ответственные за расхождение двух геномов. Множество эволюционных событий, действие на различных организационных уровнях, формируют эволюцию генома. На самом низком уровне точечные мутации на отдельные нуклеотиды. На более высоком уровне большие хромосомные кампании подвергаются дупликации, латеральному переносу, инверсии, транспозиции, делеции и вставке. В конечном счете, целые геномы участвуют в процессах гибридизации, полиплоидизации и эндосимбиоза, что часто приводит к быстрому видообразованию. Сложность эволюции генома ставит множество интересных задач для разработчиков математических моделей и алгоритмов, которые прибегают к целому ряду алгоритмических, статистических и математических методов, от точных, эвристических, фиксированных параметров и аппроксимации. от алгоритмов для задач, основанных на моделях экономичности, до алгоритмов Монте-Карло с цепью Маркова для байесовского анализа задач, основанных на вероятностных моделях.

Многие из этих исследований основаны на обнаружении гомологии последовательностей для отнесения последовательностей к семействам белков.

Пангеномика

Пангеномика - это введенная концепция в 2005 году Теттелином и Медини, которые в конечном итоге пустили корни в биоинформатику. Пангеном - это полный репертуар генов определенной таксономической группы: хотя первоначально он применяется к близкородственным штаммам вида, он может применяться к более широкому контексту, например к роду, типу и т. Д. Он разделен на две части - Ядро генома: набор генов, общих для всех исследуемых геномов (часто это гены домашнего хозяйства, жизненно важные для выживания) и «Незаменимый / гибкий геном»: набор генов, присутствующих не во всех, кроме одного или нескольких исследуемых геномов. Инструмент биоинформатики BPGA может быть использован для характеристики пан-генома бактериальных видов.

Генетика болезней

С появлением секвенирования следующего поколения мы получаем достаточно данных о последовательностях для картирования генов комплексные заболевания бесплодие, рак груди или болезнь Альцгеймера. Полногеномные исследования ассоциации - полезный подход для точного определения мутаций, ответственных за такие сложные заболевания. В ходе этих исследований были идентифицированы тысячи вариантов ДНК, которые связаны со схожими заболеваниями и признаками. Кроме того, возможность использования генов для прогноза, диагностики или лечения является одним из наиболее важных приложений. Во многих исследованиях обсуждаются как многообещающие способы выбора используемых генов, так и проблемы и подводные камни использования генов для прогнозирования наличия или прогноза заболевания.

Анализ мутаций при раке

В рак, геномы пораженных клеток перестраиваются сложным или даже непредсказуемым образом. Для выявления ранее неизвестных точечных мутаций во множестве генов рака используются огромные усилия по секвенированию. Специалисты по биоинформатике продолжают создавать специализированные автоматизированные системы для управления огромным объемом производимых данных о последовательностях, и они создают новые алгоритмы и программное обеспечение для сравнения результатов секвенирования с растущей коллекцией последовательностей генома человека и зародышевой линии полиморфизмы. Используются новые технологии физического обнаружения, такие как олигонуклеотидные микроматрицы для идентификации хромосомных приростов и потерь (так называемая сравнительная геномная гибридизация ) и однонуклеотидный морфизм массивы для обнаружения известных точечных мутации. Эти обнаружения одновременно измеряют несколько сот тысяч тысяч сайтов по всему геному, и при использовании методов тестирования методов тестирования генерируют терабайт данных за эксперимент. И снова огромные объемы и новые типы данных открывают новые возможности для биоинформатиков. Часто обнаруживается, что данные содержат значительную изменчивость или шум, и поэтому Скрытая марковская модель и методы анализа точек изменения разрабатываются для определения реального количества копий изменений.

Два важных принципа могут быть использованы в биоинформатическом анализе геномов рака, относящихся к идентификации мутаций в экзоме. Во-первых, рак - это болезнь накопленных соматических мутаций в генах. Второй рак содержит мутации-драйверы, которые нужно отличать от пассажиров.

Благодаря этой технологии секвенирования следующего поколения обеспечивает в области биоинформатики, геномика рака может кардинально измениться. Эти новые методы и программное обеспечение обеспечивают биоинформатикам быстро и по доступной цене секвенирование многих геномы рака. Это могло бы создать более гибкий процесс типов путем анализа мутаций в геноме, вызванном раком. Кроме того, отслеживание пациентов по прогрессирующим заболеваниям может стать возможным в будущем с использованием образцов рака.

Еще одним типом данных, требующим разработки новой информации, является анализ поражений <143цид>, обнаруженных для быть рецидивирующим среди многих опухолей.

Экспрессия генов и белков

Анализ экспрессии генов

Экспрессия многих генов может быть определена путем измерения уровней мРНК с множеством методов, включая микроматрицы, экспрессирующую метку следовать кДНК, (EST) секвенирование, последовательный анализ экспрессии генов, (SAGE) секвенирование метки, массивно параллельное подпись секвенирование (MPSS), RNA-Seq, также известное как «дробовое секвенирование полного транскриптома» (WTSS) или различные применения мультиплексной гибридизации in situ. Все эти подвержены подвержены шуму и / или подвержены систематической ошибке в биологических измерениях, и основная область исследований в области вычислительной биологии включает статистические инструменты для отделения сигнала от шума в высокопроизводительные экспрессии генов. Такие часто используются для определения генов, вовлеченных в заболевание: можно сравнить данные микроматрицы, полученные от раковых эпителиальных клеток с данными, полученными от незлокачественных клеток, чтобы определить, какие транскрипты активируются и подавляют определенную популяцию раковых клеток.

Анализ экспрессии белка

Белковые микропипы и высокопроизводительная (HT) масс-спектрометрия (MS) могут предоставить моментальный снимок белков, присутствующих в биологическом образце. Биоинформатика очень активно участвует в осмыслении данных белковых микрочипов и ВТ-МС; Первый подход сталкивается с теми же проблемами, что и микроматрицы, нацеленные на мРНК, второй включает в себя проблему сопоставления больших объемов массовых данных с предсказанными из базовых массивов последовательностей белков, а также сложный статистический анализ образцов, в которых обнаруживаются несколько, но неполные пептиды из каждого белка. обнаружен. Локализация клеточного белка в тканевом контексте может быть достигнута с помощью аффинности протеомики, отображаемой в регуляторе пространственных данных иммуногистохимии и тканевых микрочипов.

анализа регуляции

генов представляет собой сложную оркестровку событий, посредством которой сигнал, такой внеклеточный сигнал, такой как гормон, в итоге приводит к увеличению или снижению активности одного или нескольких белков. Для изучения различных этапов этого процесса были применены методы биоинформатики.

Например, экспрессия гена может регулировать соседними элементами в геноме. Анализ промотора включает идентификацию и исследование мотивов следовать в ДНК, окружающую кодирующую область гена. Эти мотивы для степени транскрибирования области в мРНК. Энхансерные элементы, расположенные далеко от промотора, также могут регулировать экспрессию гена пространственных петлевых взаимодействий. Эти взаимодействия можно определить с помощью биоинформатического анализа экспериментов по захвату конформации хромосомы.

Данные экспрессии могут быть использованы для вывода о регуляции генов: можно сравнить данные микроматрицы из самых разных состояний организма, чтобы сформировать гипотезы о генах, участвующих в каждом состоянии. В одноклеточном организме можно сравнить этапы цикла с различными стрессовыми условиями (тепловой шок, голод и т. Д.). Затем можно применить алгоритмы кластеризации к этим данным экспрессии, чтобы определить, какие гены коэкспрессируются. Например, в вышестоящих областях (промоторах) коэкспрессируемых генов можно проводить поиск чрезмерно представленных регуляторных элементов. Примерами алгоритмов кластеризации, применяемых при кластеризации генов, являются кластеризация k-средних, самоорганизующиеся карты (SOM), иерархическая кластеризация и консенсусная кластеризация методы.

Анализ клеточной организации

Было разработано несколько подходов для анализа расположения органелл, генов, белков и других компонентов внутри клеток. Это важно, как расположение этих компонентов влияет на события в биологических системах, таким образом, помогает нам предсказать поведение биологических систем. генная онтология категория, клеточный компартмент, бюджет для фиксации субклеточной локализации во многих биологических базах данных.

Микроскопия и анализ изображений

Микроскопические изображения позволяют нам находить и то, и другое органеллы, а также молекулы. Это также может помочь нам различать нормальные и аномальные клетки, например, в раке.

Локализация белка

Локализация белков помогает нам оценить белку. Например, если белок обнаружен в ядре, он может участвовать в регуляции гена или сплайсинге. Напротив, если белок обнаружен в митохондриях, он может участвовать в дыхании или других метаболических процессах. Таким образом, локализация компонента является важным компонентом прогнозирования белка функции. Существуют хорошо разработанные ресурсы для прогнозирования субклеточной локализации, включая данные субклеточного языкаения и инструменты прогнозирования.

Ядерная организация хроматина

Данные с высокой пропускной способностью эксперименты по захвату конформации хромосомы, такие как Hi-C (эксперимент) и ChIA-PET, может предоставить информацию о пространственной локусов ДНК. Анализ этих экспериментов может определить среднюю структуру и ядерную организацию хроматина. Биоинформатические проблемы в этой области включают разделение генома на домены, такие как топологически ассоциированные домены (TAD), которые организованы вместе в трехмерном пространстве.

Структурная биоинформатика

3-размерные белковые структуры, эти структуры, часто используются при биоинформатическом анализе.

Прогнозирование структуры белков - еще одно важное приложение биоинформатики. Последовательность аминокислота белка, так называемая первичная структура, может быть легко определена по последовательности гена, который ее кодирует. В подавляющих случаях эта первичная структура однозначно определяет структуру в ее естественной среде. (Конечно, есть исключение, такие как губчатая энцефалопатия крупного рогатого скота (коровье бешенство) прион.) Знание этой структуры имеет жизненно важное значение для функций понимания белка. Структурная информация обычно подразделяется на вторичную, третичную и четвертичную структуру. Жизнеспособное общее решение таких прогнозов остается открытой проблемой. Большинство усилий до сих пор было направлено на эвристику, которая работает большую часть времени.

Одной из ключевых идей в биоинформатике является понятие гомологии. В геномной функции ветви биоинформатики гомология используется для предсказания гена: если последовательность гена A, функция которого известна, гомологична последовательность гена B, функция которого неизвестна, можно сделать вывод, что B может разделяют функцию А. В структурных частях ветви биоинформатики используется гомология для определения того, какие структуры важны для формирования и взаимодействия с другими белками. В методике, называемой моделированием гомологии, эта информация используется для прогнозирования структуры белка, если структура гомологичного белка известна. В настоящее время это единственный надежно предсказать изменение белка.

Одним из примеров этого является гемоглобин у людей и гемоглобин в бобовых (леггемоглобин ), которые являются дальними родственниками из одного и того же суперсемейства белков. Оба участка одной и той же цели - транспортировка кислорода в организме. Хотя оба эти белка имеют разные аминокислотные последовательности, их белковые молекулы идентичны.

Другие методы прогнозирования структуры белка включают в себя белковые нити и de novo (с нуля) физическое моделирование.

Другой аспект структурной биоинформатики включает использование белковых структур для моделей виртуального скрининга, таких как модели количественных структур и активности и протеохимометрические модели (PCM). Кроме того, структурную структуру белка можно использовать в модели, например, исследования связывания лиганда и исследования мутагенеза in silico.

Сетевая и системная биология

Сетевой анализ направлен на понимание взаимосвязей внутри биологических сетей, таких как метаболические или сети взаимодействия белок-белок. Биологические сети могут быть построены из одного типа молекулы или объекта (например, генов), сетевая биология может быть построена из различных типов, как белки, небольшие молекулы, данные экспрессии генов и другие, которые все связаны физически., функционально или и то, и другое.

Системная биология использование включает компьютерного моделирования клеточных подсистем (таких как сети метаболитов и ферментов, которые включают метаболизм, пути передачи сигнала и генные регуляторные сети ) для анализа и визуализации сложных связей этих клеточных процессов. Искусственная жизнь или виртуальная эволюция пытается понять эволюционные процессы с помощью компьютерного моделирования простых (искусственных) форм жизни.

Сети молекулярного взаимодействия

Взаимодействия между белками часто визуализируются и анализируются с помощью сетей. Эта сеть состоит из белок-белковых взаимодействий Treponema pallidum, возбудителя сифилиса и других заболеваний.

Были оценены десятки тысяч трехмерных белковых структур с помощью рентгеновской кристаллографии и ядерно-магнитно-резонансной спектроскопии белков (ЯМР белков), и центральный вопрос в структурной биоинформатике заключается в том, практично предсказывать возможные межбелковые взаимодействия только на основе этих Трехмерных форм без проведения экспериментов по взаимодействию белок-белок. Было разработано множество методов для решения проблемы стыковки белок-белок, хотя кажется, что в этой области еще предстоит проделать большую работу.

Другие взаимодействия, встречающиеся в этой области, включают белок-лиганд (включая лекарство) и. Молекулярно-динамическое моделирование движения атомов вокруг вращающихся связей является фундаментальным принципом, лежащим в основе вычислительных алгоритмов, называемых алгоритмами стыковки, для изучения молекулярных взаимодействий.

Другое

Анализ литературы

Рост количества опубликованной литературы делает практически невозможным читать каждую статью, что приводит к разрозненным разделам исследований. Литературный анализ направлен на использование вычислительной и статистической лингвистики для добычи этой растущей библиотеки текстовых ресурсов. Например:

  • Распознавание аббревиатуры - определение полной формы и сокращения биологических терминов
  • Распознавание именованных сущностей - распознавание биологических терминов, таких как названия генов
  • Взаимодействие белок-белок - определение белки взаимодействуют с белками текста

Область исследований основана на статистике и компьютерной лингвистике.

Высокопроизводительный анализ изображений

Вычислительные технологии используются для ускорения или полной автоматизации обработки, количественной оценки и анализа больших объемов высокоинформативных биомедицинских изображений. Современные системы анализа изображений расширяют способность наблюдателя производить измерения на основе большого или сложного набора изображений, улучшая точность, объективность или скорость. Полностью разработанная система анализа может полностью заменить наблюдателя. Хотя эти системы не являются уникальными для биомедицинских изображений, биомедицинские изображения становятся все более важными как для диагностики, так и для исследований. Вот некоторые примеры:

  • количественная оценка и субклеточная локализация с высокой пропускной способностью и высокой точностью (высокопроизводительный скрининг, цитогистопатология, информатика биоизображений )
  • морфометрия
  • анализ клинических изображений и визуализация
  • определение паттерны воздушного потока в дыхательных легких живых животных в реальном времени
  • количественная оценка размера окклюзии на изображениях в реальном времени развития и восстановления во время повреждения артерии
  • наблюдение за поведением на основе оценки расширенных просмотрисей лабораторные
  • инфракрасные определения метаболической активности
  • , предполагающие перекрытие клонов в картировании ДНК, например Сулстона

Высокопроизводительный анализ данных отдельных клеток

Вычислительные методы используются для анализа высокопроизводительных данных с низкими измерениями отдельных клеток, например, полученные с помощью проточной цитометр ии. Эти методы обычно включают поиск популяций клеток, которые соответствуют определенному состоянию или экспериментальному состоянию.

Информатика биоразнообразия

Информатика биоразнообразия занимается сбором и анализом данных биоразнообразия, таких как таксономические базы данных или микробиом данные. Примеры таких анализов включают филогенетику, моделирование ниши, картирование видового богатства, штрих-кодирование ДНК или определение видов. инструменты.

Онтологии и интеграция данных

Биологические онтологии - это направлено ациклические графы контролируемых словрей. Они предназначены для сбора биологических концепций и описаний таким образом, чтобы их было легко классифицировать и анализировать с помощью компьютеров. При такой классификации можно получить дополнительную ценность от целостного и комплексного анализа.

OBO Foundry была попытка стандартизировать онтологии. Одной из наиболее распространенных является Онтология генов, которая выполняет функцию генов. Существуют также онтологии, описывающие фенотипы.

Базы данных

Базы данных необходимы для исследований и приложений в области биоинформатики. Существует набор базовых данных, охватывающих различные типы информации: например, ДНК и ДНК, молекулярные структуры, фенотипы и биоразнообразие. Базы данных могут содержать эмпирические данные (полученные непосредственно из экспериментов), прогнозируемые данные (полученные в результате анализа) или чаще всего, и то и другое. Они могут быть специфичными для конкретного организма, представляющего интерес пути или молекулы. Кроме того, они могут входить, собранные из нескольких других баз данных. Эти базы данных различаются по своему формату, механизму доступа и тому подобное.

Некоторые из наиболее часто используемых баз данных ниже. Для более полного списка, пожалуйста, проверьте ссылку в начале подраздела.

  • Используется в аналитической биологической активности: Genbank, UniProt
  • Используется в структурном анализе: Protein Data Bank (PDB)
  • Используется для поиска Семейства белков и Motif Находка: InterPro, Pfam
  • Используется для секвенирования следующего поколения: Архив чтения показывает
  • Используется в сетевом анализе: базы данных метаболических путей (KEGG, BioCyc ), Базы данных анализа взаимодействия, функциональные сети
  • Используется при разработке синтетических генетических цепей: GenoCAD

Программное обеспечение и инструменты

Программные инструменты для биоинформатики существуют от простых инструментов системы до более сложных графических программ и автономных веб-сервисов, доступных от различных биоинформатических компаний или государственных учреждений.

Программное обеспечение для биоинформатики с открытым исходным кодом

Многие бесплатные программы с открытым исходным кодом продолжают расти с 1980-х годов. Сочетание постоянной потребности в новых алгоритмах для анализа появляющихся биологических считываний, новых инновационных in silico экспериментов и свободно доступного открытого кода Базы помогли создать возможности для всех поисковых групп свой вклад как в биоинформатику, так и в диапазоне доступного программного обеспечения с открытым исходным кодом, независимо от их механизмов финансирования. Инструменты с открытым исходным кодом выступают в качестве инкубаторов идей или поддерживаемых сообществом подключаемых модулей часто коммерческих приложений. Они могут также де-факто стандарты и модели общих объектов для помощи в решении проблем интеграции биоинформации.

Диапазон пакета программного обеспечения с открытым исходным кодом включает такие названия, как Bioconductor, BioPerl, Biopython, BioJava, BioJS, BioRuby, Bioclipse, EMBOSS, .NET Bio, Orange с надстройкой биоинформатики, Apache Taverna, UGENE и GenoCAD. Чтобы сохранить эту традицию и создать новые возможности, некоммерческий фонд Open Bioinformatics Foundation с 2000 года поддерживает ежегодную Конференцию по открытому исходному тексту (BOSC).

Альтернатива Метод построения общедоступных баз данных биоинформатики заключается в использовании движка MediaWiki с расширением WikiOpener. Эта система обеспечивает доступ к базе и ее обновление всем специалистам в данной области.

Веб-сервисы в биоинформатике

SOAP - и интерфейсы на основе REST были разработаны для широкого спектра приложений биоинформатики, позволяющий приложению, работающему на одном компьютере в одной части мира, использовать алгоритмы, данные и вычислительные ресурсы на серверах в других частях мира. Основные преимущества заключаются в том, что конечным пользователям приходится иметь дело с накладными расходами на программное обеспечение и обслуживание базовых данных.

Базовые биоинформатические услуги классифицируются по EBI на три категории: SSS (службы поиска последовательностей), MSA (выравнивание множественных последовательностей), и BSA (анализ биологической следовать). Доступность этих сервис-ориентированных ресурсов по биоинформатике примениметость сетевых биоинформатических решений и распространяется от набора автономных инструментов с общим форматом данных в едином, автономном или веб-интерфейсе до интегративных, распределенных и расширяемых системы управления рабочими процессами биоинформатики.

Системы управления рабочими процессами биоинформатики

A система управления рабочими процессами биоинформатики - это специализированная форма системы управления рабочими процессами, разработанная специально для составления и выполнения этапов вычислений или обработки данных или процесса в приложении биоинформатики. Такие системы разработаны, чтобы

  • использовать простую в использовании среду, позволяющую ученым-разработчикам создать свои собственные рабочие рабочие,
  • использовать ученые интерактивные инструменты, позволяющие им выполнять свои рабочие процессы и просматривать свои результаты в реальном времени времени,
  • упрощают процесс совместного использования и повторного использования рабочих процессов между учеными, а
  • позволяют ученым пропускать происхождение результатов выполнения рабочего процесса и создания рабочего процесса шагов.

Некоторые из платформ, предоставляющие эту услугу: Галактика, Кеплер, Таверна, УГЕНЕ, Андурил, HIVE.

Объекты BioCompute и BioCompute

В 2014 году Управление по санитарному надзору за качеством пищевых продуктов и медикаментов США спонсировало конференцию, проведенную в Национальныхтахтах здравоохранения Bethesda Campus для обсуждения воспроизводимости в биоинформатике. В течение следующих трех лет консорциум Сторон регулярно встречался, чтобы обсудить, что станет парадигмой BioCompute. Эти заинтересованные стороны включаются представителей правительства, промышленности и академических организаций. Руководители сессий представляют множество отделений институтов и центров FDA и NIH, некоммерческих организаций, включая Human Variome Project и Европейскую федерацию медицинской информатики, а также исследовательские институты, включая Стэнфорд, Нью-Йоркский центр генома и Университет Джорджа Вашингтона.

Было решено, что парадигма BioCompute будет представлена ​​в форме цифровых «лабораторных тетрадей», которые позволяют воспроизводимость, репликация, обзор и повторное использование протоколов биоинформатики. Это было предложено для обеспечения большей преемственности внутри исследовательской группы в рамках обычного потока персонала, способствующего обмену идеями между группами. Управление по санитарному надзору за пищевыми продуктами и медикаментов США, чтобы информация о трубопроводах была более прозрачной и доступной для их регулирующего персонала.

В 2016 году группа вновь собралась в NIH в Бетесде и обсудила потенциал объекта BioCompute, пример парадигмы BioCompute. Эта работа скопирована как документ для «стандартного пробного использования» и как препринт, загруженный в bioRxiv. Объект BioCompute позволяет использовать запись в формате JSON среди сотрудников, сотрудников и регулирующих органов.

Образовательные платформы

Программные платформы, предназначенные для обучения концепций и методам биоинформатики, включая Rosalind и онлайн-курсы, предлагаемые через Швейцарский институт биоинформатики Учебный портал. Канадские семинары по биоинформатике использовать видео и слайды с учебных семинаров на своем веб-сайте под лицензией Creative Commons. Проект 4273π или проект 4273pi также предлагает бесплатные образовательные материалы с открытым исходным кодом. Курс недорогих компьютеров Raspberry Pi и используется для обучения взрослых и школьников. 4273π активно используется консорциумом ученых и исследователей, которые занимаются исследовательским уровнем с использованием компьютеров Raspberry Pi и операционной системы 4273π.

Платформы MOOC также предоставляют онлайн-сертификаты по биоинформатике и другим дисциплинам, включая Специализация Coursera по биоинформатике (Калифорнийский университет в Сан-Диего ) и специализация по науке о геномных данных (Johns Hopkins ), а также EdX Анализ данных для жизни Sciences XSeries (Гарвард ). Университет Южной Калифорнии предлагает степень магистра трансляционной биоинформатики с упором на биомедицинские приложения.

Конференции

Есть несколько крупных конференций, посвященных биоинформатике. Некоторые из наиболее ярких примеров: Интеллектуальные системы для молекулярной биологии (ISMB), Европейская конференция по вычислительной биологии (ECCB) и Исследования в области вычислительной молекулярной биологии (РЕКОМБ).

См. Также

Ссылки

Дополнительная литература

Внешние ссылки

Слушайте эту статью Разговорный значок Википедии Этот аудиофайл был создан на основе редакции этой статьи от 09-20 2013 года, и не соответствующие последующие правки. ()
Последняя правка сделана 2021-05-12 06:47:12
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте