BioJava

редактировать

BioJava

Автор (ы)	Андреас Прлич
Разработчик (и)	Амр АЛХОССАРИ, Андреас Прлиц, Дмитрий Гузенко, Ханнес Брандштеттер-Мюллер, Томас Даун, Майкл Л. Хойер, Петер Трошин, Цзяньёнг Гао, Алейкс Лафита, Питер Роуз, Спенсер Бливен
Первый выпуск	2002; 18 лет назад (2002 г.)

Стабильный выпуск	5.2.1 / 5 февраля 2019 г.; 20 месяцев назад (05.02.2019)

Репозиторий	github.com / biojava
Написано на	Java
Platform	Веб-браузер с Java SE
Доступен на	английском языке
Тип	Биоинформатика
Лицензия	Lesser GPL 2.1
Веб-сайт	biojava. org

BioJava - это проект с открытым исходным кодом, посвященный предоставлению Java инструментов для обработки биологических данных. BioJava - это набор библиотечных функций, написанных на языке программирования Java для управления последовательностями, белковыми структурами, анализаторами файлов, совместимостью с общей архитектурой брокера запросов объектов (CORBA), (DAS), доступ к AceDB, динамическое программирование и простые статистические процедуры. BioJava поддерживает огромный диапазон данных, начиная от последовательностей ДНК и белков до уровня трехмерных белковых структур. Библиотеки BioJava полезны для автоматизации множества повседневных биоинформатических задач, таких как синтаксический анализ файла Protein Data Bank (PDB), взаимодействие с Jmol и многие другие. Этот интерфейс прикладного программирования (API) предоставляет различные анализаторы файлов, модели данных и алгоритмы для облегчения работы со стандартными форматами данных и обеспечивает быструю разработку и анализ приложений.

Дополнительные проекты от BioJava включают rcsb-sequenceviewer, biojava-http, biojava-spark и rcsb-viewers.

Содержание

1 Характеристики
2 История и публикации
3 Модуля
- 3.1 Основной модуль
- 3.2 Модули структуры белка
- 3.3 Модули генома и секвенирования
- 3.4 Модуль выравнивания
- 3.5 Модуль ModFinder
- 3.6 Модуль свойств аминокислот
- 3.7 Модуль нарушения белков
- 3.8 Модуль доступа к веб-сервисам
4 Сравнение с другими альтернативами
5 Проекты с использованием BioJava
6 См. Также
7 Ссылки
8 Внешние ссылки

Возможности

BioJava предоставляет программные модули для многих типичных задач программирования биоинформатики. К ним относятся:

Доступ к данным последовательностей нуклеотидов и пептидов из локальной и удаленной баз данных
Преобразование форматов записей базы данных / файла
Анализ структуры белка и манипуляции с ней
Управление отдельными последовательностями
Поиск похожих последовательностей
Создание и управление выравниванием последовательностей

История и публикации

Проект BioJava вырос из работы Томаса Дауна и Мэтью Покока по созданию API для упрощения разработки инструментов биоинформатики на основе Java. BioJava - это активный проект с открытым исходным кодом, который разрабатывался более 12 лет более чем 60 разработчиками. BioJava - один из многих проектов Bio *, направленных на уменьшение дублирования кода. Примеры таких проектов, которые подпадают под Bio * помимо BioJava: BioPython, BioPerl, BioRuby, EMBOSS и т. Д.

В октябре 2012 г. была опубликована первая статья по BioJava. В этом документе подробно описаны модули, функции и назначение BioJava.

По состоянию на ноябрь 2018 года Google Scholar насчитал более 130 цитирований.

Самая последняя статья по BioJava была написана в феврале 2017 года. В этой статье подробно описан новый инструмент под названием BioJava-ModFinder. Этот инструмент можно использовать для идентификации и последующего картирования модификаций белка в 3D в банке данных по белкам (PBD ). Пакет также был интегрирован с веб-приложением RCSB PDB и добавил аннотации модификации белка к диаграмме последовательности и отображению структуры. С помощью BioJava-ModFinder было идентифицировано более 30 000 структур с модификациями белков, которые можно найти на веб-сайте RCSB PDB.

В 2008 году было опубликовано первое примечание по применению BioJava. Он был перенесен из исходного репозитория CVS в Git hub в апреле 2013 года. Проект был перемещен в отдельный репозиторий, BioJava-legacy, и все еще поддерживается для незначительных изменений и исправлений ошибок.

Версия 3 была выпущена в декабре 2010 года. Это было серьезное обновление предыдущих версий. Целью этого выпуска было переписать BioJava так, чтобы его можно было разделить на небольшие, повторно используемые компоненты. Это позволило разработчикам легче вносить свой вклад и уменьшило зависимости. Новый подход, представленный в BioJava 3, был смоделирован после выпуска Apache Commons.

версии 4 в январе 2015 года. Эта версия принесла множество новых функций и улучшений в пакеты biojava-core, biojava-structure, biojava-structure- gui, biojava-phylo, а также другие. BioJava 4.2.0 был первым выпуском, который был доступен с использованием Maven из Maven Central.

Версия 5 была выпущена в марте 2018 года. Это является важной вехой для проекта. BioJava 5.0.0 - это первый выпуск, основанный на Java 8, который вводит использование лямбда-функций и потоковых вызовов API. Также произошли серьезные изменения в модуле структуры биоявы. Кроме того, предыдущие модели данных для макромолекулярных структур были адаптированы для более точного представления модели данных mmCIF. Это был первый релиз более чем за два года. Некоторые из других улучшений включают оптимизацию в модуле структуры биоявы для улучшения обнаружения симметрии и добавленную поддержку форматов MMTF. Другие общие улучшения включают обновления Javadoc, версии зависимостей и все тесты теперь Junit4. Релиз содержит 1170 коммитов от 19 участников.

Модули

В течение 2014-2015 гг. Были переписаны большие части исходной кодовой базы. BioJava 3 является явным отходом от серии версии 1. Теперь он состоит из нескольких независимых модулей, созданных с помощью инструмента автоматизации под названием Apache Maven. Эти модули предоставляют современные инструменты для сравнения структуры белков, попарного и множественного выравнивания последовательностей, работы с последовательностями ДНК и белков, анализа свойств аминокислот, обнаружения модификаций белков, прогнозирования неупорядоченных областей в белках и парсеров для общих файлов. форматы с использованием биологически значимой модели данных. Исходный код был перемещен в отдельный унаследованный проект BioJava, который все еще доступен для обратной совместимости.

BioJava 5 представила новые функции для двух модулей: biojava-alignment и biojava-structure.

В следующих разделах будут описаны несколько новых модулей и выделены некоторые новые функции, включенные в последнюю версию BioJava.

Базовый модуль

Этот модуль предоставляет классы Java для моделирования аминокислотных или нуклеотидных последовательностей. Классы были разработаны таким образом, чтобы имена были знакомы и имели смысл для биологов, а также обеспечивали конкретное представление этапов перехода от последовательности гена к последовательности белка для компьютерных ученых и программистов.

Основное изменение между унаследованным проектом BioJava и BioJava3 заключается в способе разработки фреймворка для использования новых на тот момент инноваций в Java. Последовательность определяется как общий интерфейс, позволяющий остальным модулям создавать любую утилиту, которая работает со всеми последовательностями. Определенные классы для общих последовательностей, таких как ДНК и белки, были определены с целью повышения удобства использования для биологов. Механизм трансляции действительно использует эту работу, позволяя преобразовывать последовательности ДНК, РНК и аминокислот. Этот механизм может обрабатывать такие детали, как выбор таблицы кодонов, преобразование стартовых кодонов в метионин, обрезка стоп-кодонов, определение рамки считывания и обработка неоднозначных последовательностей.

Особое внимание было уделено разработке хранилища последовательностей, чтобы минимизировать потребность в пространстве. Специальные шаблоны проектирования, такие как шаблон прокси, позволили разработчикам создать структуру так, что последовательности могут храниться в памяти, извлекаться по запросу из веб-службы, такой как UniProt, или считываться из файла FASTA по мере необходимости. Последние два подхода экономят память, не загружая данные последовательности до тех пор, пока на них нет ссылки в приложении. Эту концепцию можно расширить для обработки очень больших наборов геномных данных, таких как NCBI GenBank или собственная база данных.

Модули структуры белка

В этом окне показаны два белка с идентификаторами «4hhb.A» и «4hhb.B», выровненные друг относительно друга. Код указан слева. Это создается с использованием библиотек BioJava, которая, в свою очередь, использует программу просмотра Jmol. Для выравнивания здесь используется жесткий алгоритм FATCAT.

Модули структуры белка предоставляют инструменты для представления и управления трехмерными биомолекулярными структурами. Они сосредоточены на сравнении структуры белков.

Следующие алгоритмы были реализованы и включены в BioJava.

Алгоритм FATCAT для выравнивания гибких и твердых тел.
Стандартный алгоритм комбинаторного расширения (CE).
Новая версия CE, которая может обнаруживать кольцевые перестановки в белках.

Эти алгоритмы используются для обеспечения инструмента сравнения белков банка данных белка RCSB (PDB), а также для систематического сравнения всех белков в PDB на еженедельной основе.

Парсеры для файловых форматов PDB и mmCIF позволяют загружать структуру данные в модель данных многократного использования. Эта функция используется проектом SIFTS для сопоставления последовательностей UniProt и структур PDB. Информация из RCSB PDB может быть получена динамически без необходимости вручную загружать данные. Для визуализации предоставляется интерфейс для средства трехмерного просмотра Jmol.

Модули генома и секвенирования

Этот модуль ориентирован на создание объектов последовательности генов из основного модуля. Это реализуется за счет поддержки анализа следующих популярных стандартных форматов файлов, созданных приложениями для прогнозирования генов с открытым исходным кодом:

файлы GTF, созданные GeneMark
файлы GFF2, созданные GeneID
файлы GFF3, созданные by Glimmer

Затем объекты последовательности генов записываются в формате GFF3 и импортируются в GMOD. Эти форматы файлов четко определены, но то, что записывается в файл, очень гибкое.

Для обеспечения поддержки ввода-вывода для нескольких распространенных вариантов формата файла FASTQ из секвенсоров следующего поколения предоставляется отдельный модуль секвенирования. Примеры использования этого модуля см. По этой ссылке.

Модуль выравнивания

Этот модуль содержит несколько классов и методов, которые позволяют пользователям выполнять парное и множественное выравнивание последовательностей. Последовательности можно выравнивать как в однопоточном, так и в многопоточном режиме. BioJava реализует алгоритм Нидлмана-Вунша для оптимального глобального выравнивания и алгоритм Смита и Уотермана для локального выравнивания. Результаты локальных и глобальных выравниваний доступны в стандартных форматах. В дополнение к этим двум алгоритмам существует реализация алгоритма Гуана-Убербахера, который очень эффективно выполняет глобальное выравнивание последовательностей, поскольку использует только линейную память.

Для выравнивания множественных последовательностей любой из описанных выше способов может использоваться для постепенного выполнения множественного выравнивания последовательностей.

Модуль ModFinder

Пример приложения, использующего модуль ModFinder и модуль структуры белка. Модификации белков картируются на последовательность и структуру ферредоксина I (PDB ID 1GAO). Два возможных кластера железо-сера показаны на последовательности белка (3Fe – 4S (F3S): оранжевые треугольники / линии; 4Fe – 4S (SF4): фиолетовые ромбы / линии). Кластер 4Fe – 4S отображается в окне структуры Jmol над дисплеем последовательностей

Модуль ModFinder предоставляет новые методы для идентификации и классификации модификаций белка в трехмерных структурах белка. Более 400 различных типов модификаций белков, таких как фосфорилирование, гликозилирование, хелатирование дисульфидных связей с металлами и т. Д. были собраны и обработаны на основе аннотаций в PSI-MOD, RESID и RCSB PDB. Модуль также предоставляет API для обнаружения пре-, ко- и посттрансляционных модификаций белка в белковых структурах. Этот модуль также может идентифицировать фосфорилирование и распечатывать все предварительно загруженные модификации структуры.

Модуль свойств аминокислот

Этот модуль пытается предоставить точные физико-химические свойства белков. С помощью этого модуля можно рассчитать следующие свойства:

Молекулярная масса
Коэффициент экстинкции
Индекс нестабильности
Алифатический индекс
Среднее значение гидропатии
Изоэлектрическая точка
Аминокислотный состав

В этот модуль включены точные молекулярные массы распространенных изотопно меченных аминокислот. Также существует гибкость для определения новых молекул аминокислот с их молекулярными массами с использованием простых файлов конфигурации XML. Это может быть полезно, когда точная масса имеет большое значение, например, в экспериментах по масс-спектрометрии.

Модуль нарушения белков

Цель этого модуля - предоставить пользователям способы поиска нарушений в молекулах белка. BioJava включает Java-реализацию предсказателя RONN. BioJava 3.0.5 использует поддержку многопоточности Java для повышения производительности до 3,2 раза на современной четырехъядерной машине по сравнению с унаследованной реализацией C.

Есть два способа использования этого модуля:

Использование вызовов библиотечных функций
Использование командной строки

Некоторые функции этого модуля включают:

Расчет вероятности беспорядка для каждый остаток в последовательности
Расчет вероятности нарушения для каждого остатка в последовательности для всех белков из входного файла FASTA
Получить неупорядоченные области белка для одной последовательности белка или для все белки из входного файла FASTA

Модуль доступа к веб-службам

В соответствии с текущими тенденциями в биоинформатике, веб-инструменты становятся все более популярными. Модуль веб-сервисов обеспечивает доступ к биоинформатическим сервисам с использованием протоколов REST. В настоящее время реализованы две службы: NCBI Blast через Blast URLAPI (ранее известный как QBlast) и веб-служба HMMER.

Сравнение с другими альтернативами

Потребность в специализированном программном обеспечении в области биоинформатикой занимались несколько групп и отдельных лиц. Подобно BioJava, проекты программного обеспечения с открытым исходным кодом, такие как BioPerl, BioPython и BioRuby, предоставляют наборы инструментов с множеством функций, которые упростить создание настраиваемых конвейеров или анализа.

Судя по названиям, в упомянутых выше проектах используются разные языки программирования. Все эти API-интерфейсы предлагают аналогичные инструменты, поэтому на каких критериях следует основывать свой выбор? Для программистов, знающих только один из этих языков, выбор очевиден. Однако для разностороннего биоинформатика, знающего все эти языки и желающего выбрать лучший язык для работы, выбор может быть сделан на основе следующих рекомендаций, представленных в обзоре программного обеспечения, сделанном с помощью наборов инструментов Bio *.

В общем, для небольших программ (<500 lines) that will be used by only an individual or small group, it is hard to beat Perl и BioPerl. Эти ограничения, вероятно, покрывают потребности 90% личного программирования биоинформатики.

Для для начинающих, а также для написания более крупных программ в области биологии, особенно тех, которые будут совместно использоваться и поддерживаться другими, ясность и краткость Python делают его очень привлекательным.

Для тех, кто может склоняться к сделав карьеру в области биоинформатики и желающие выучить только один язык, Java имеет самую широкую поддержку общего программирования, очень хорошую поддержку в области Bio с помощью BioJava, и теперь она де-факто является языком бизнеса (новый COBOL, к лучшему или к худшему).

Помимо этих проектов Bio *, существует еще один проект под названием STRAP, который использует Java и d преследует аналогичные цели. Набор инструментов STRAP, аналогичный BioJava, также представляет собой набор инструментов Java для разработки программ и сценариев биоинформатики. Сходства и различия между BioJava и STRAP заключаются в следующем:

Сходства

Оба предоставляют исчерпывающий набор методов для белковых последовательностей.
Оба используются Java-программистами для кодирования алгоритмов биоинформатики.
Как отдельные реализации, так и определения с использованием интерфейсов java.
Оба являются проектами с открытым исходным кодом.
Оба могут читать и записывать множество форматов файлов последовательностей.

Различия

Применима BioJava к нуклеотидным и пептидным последовательностям и может применяться для целых геномов. STRAP не может справиться с отдельными последовательностями, пока вся хромосома. Вместо этого STRAP манипулирует пептидными последовательностями и трехмерными структурами размером с отдельные белки. Тем не менее, он может хранить в памяти большое количество последовательностей и структур. STRAP разработан для белковых последовательностей, но может считывать файлы кодирующих нуклеотидов, которые затем транслируются в пептидные последовательности.
STRAP работает очень быстро, поскольку графический интерфейс пользователя должен быть высокочувствительным. BioJava используется там, где скорость менее важна.
BioJava хорошо спроектирована с точки зрения безопасности типов, онтологии и дизайна объектов. BioJava использует объекты для последовательностей, аннотаций и позиций последовательностей. Даже отдельные аминокислоты или нуклеотиды являются объектными ссылками. Для повышения скорости STRAP избегает частых экземпляров объектов и вызова неокончательных объектных методов.
- В BioJava пептидные последовательности и нуклеотидные последовательности представляют собой списки символов. Символы могут быть получены один за другим с помощью итератора или могут быть получены подпоследовательности. Преимущества состоят в том, что вся последовательность не обязательно находится в памяти и программы менее подвержены ошибкам программирования. Объекты-символы - это неизменные элементы алфавита. Однако в STRAP для последовательностей используются простые байтовые массивы, а для координат - массивы с плавающей запятой. Помимо скорости важным преимуществом базовых типов данных является низкое потребление памяти. Классы в Strap предоставляют внутренние данные. Следовательно, программисты могут совершать ошибки программирования, например, манипулировать массивами байтов напрямую, вместо использования методов установки. Другой недостаток заключается в том, что в STRAP не выполняется проверка того, являются ли символы в последовательностях действительными по отношению к нижележащему алфавиту.
- В BioJava позиции последовательностей реализуются классом Location. Непрерывные объекты Location состоят из нескольких смежных объектов RangeLocation или PointLocation. Однако для класса StrapProtein позиции одиночных остатков указываются целыми числами от 0 до countResidues () - 1. Несколько позиций задаются логическими массивами. Истина для данного индекса означает, что выбрано, тогда как ложь означает, что не выбрано.
BioJava выдает исключения, когда методы вызываются с недопустимыми параметрами. STRAP позволяет избежать трудоемкого создания Throwable объектов. Вместо этого ошибки в методах обозначаются возвращаемыми значениями NaN, -1 или null. Однако с точки зрения разработки программы Throwable объекты лучше.
В BioJava объект Sequence представляет собой либо пептидную, либо нуклеотидную последовательность. StrapProtein может содержать и то, и другое одновременно, если кодирующая нуклеотидная последовательность была считана и переведена в белок. И нуклеотидная последовательность, и пептидная последовательность содержатся в одном объекте StrapProtein. Кодирующие или некодирующие области могут быть изменены, и соответственно изменяется пептидная последовательность.

Проекты с использованием BioJava

В следующих проектах используется BioJava.

Metabolic Pathway Builder: программный пакет, предназначенный для исследования связей между генами, белками, реакциями и метаболическими путями
DengueInfo: информационный портал о геноме денге, который использует BioJava в качестве промежуточного программного обеспечения и обращается к базе данных biosql.
Dazzle: сервер DAS на базе BioJava.
BioSense: плагин для InforSense Suite, аналитической программной платформы IDBS, объединяющей BioJava.
Bioclipse: бесплатная рабочая среда с открытым исходным кодом для химио- и биоинформатики с мощными возможностями редактирования и визуализации молекул, последовательностей, белков, спектров и т. Д.
PROMPT: бесплатная среда и приложение с открытым исходным кодом для сравнения и картирования наборов белков. Использует BioJava для обработки большинства форматов входных данных.
Cytoscape: программная платформа биоинформатики с открытым исходным кодом для визуализации сетей молекулярного взаимодействия.
BioWeka: приложение для сбора биологических данных с открытым исходным кодом.
Geneious: набор инструментов для молекулярной биологии.
MassSieve: приложение с открытым исходным кодом для анализа данных протеомики масс-спектрометрии.
Ремешок: инструмент для множественного выравнивания последовательностей и выравнивания структур на основе последовательностей.
Jstacs: структура Java для статистического анализа и классификации биологических последовательностей
jLSTM «Долгосрочная краткосрочная память» для классификации белков
LaJolla Структурное выравнивание РНК и белков с использованием индекса конструкция для быстрого выравнивания тысяч конструкций. Включая простой в использовании интерфейс командной строки. Открытый исходный код на Sourceforge.
GenBeans: многофункциональная клиентская платформа для биоинформатики, в первую очередь ориентированная на молекулярную биологию и анализ последовательностей.
JEnsembl: Java API с поддержкой версий для систем данных Ensembl.
MUSI: интегрированная система для определения множественной специфичности из очень больших наборов данных пептидов или нуклеиновых кислот.
Bioshell: служебная библиотека для структурной биоинформатики

См. Также

Ссылки

Внешние ссылки

Официальный сайт