Биодокументация

редактировать
Статьи о биодокументации в PubMed за год до сентября 2020 года

Биодокументация - это область наук о жизни исследование, посвященное переводу и интеграции биомедицинских знаний из научных статей в совместимые базы данных. Биологическое документирование биомедицинских знаний стало возможным благодаря совместной работе биокураторов, разработчиков программного обеспечения и биоинформатиков.

Содержание
  • 1 Биодокументация как профессия
  • 2 Кураторство и аннотации
    • 2.1 Онтологии, контролируемые словари и стандартные имена
    • 2.2 Аннотация сущности
    • 2.3 Текстовая аннотация
  • 3 Международное общество биодокументации (ISB)
  • 4 Wikimedia
    • 4.1 Wikipedia
    • 4.2 Wikidata
  • 5 Курирование сообществом
    • 5.1 Биологические базы данных
    • 5.2 Ресурсы в стиле Wiki
    • 5.3 Игровые ресурсы
  • 6 Вычислительный анализ текста для курирования
    • 6.1 Биокреативные проблемы
  • 7 См. Также
  • 8 Ссылки
  • 9 Внешние ссылки
Биокуратор как профессия

A биокуратор - профессиональный ученый, курирует, собирает, аннотирует и проверяет информацию, распространяемую биологические и базы данных модельных организмов. Это новая профессия, впервые упоминаемая в научной литературе с 2006 года. Роль биокуратора включает контроль качества первичных данных биологических исследований, предназначенных для публикации, извлечение и систематизацию данных из оригинальной научной литературы, а также описание данных с помощью стандартных аннотации, протоколы и словари, обеспечивающие мощные запросы и возможность взаимодействия биологической базы данных. Биокураторы общаются с исследователями, чтобы гарантировать точность кураторской информации и способствовать обмену данными с исследовательскими лабораториями.

Университет Камбриджджа и EMBL-EBI совместно предлагают Сертификат последипломного образования по биодокументации, рассматриваемый как шаг к признанию биодокументации как самостоятельной дисциплины.

Кураторство и аннотации

Биодокументация - это интеграция биологической информации в онлайн-базы данных в семантически стандартизированной форме. таким образом, используя соответствующие уникальные отслеживаемые идентификаторы и предоставляя необходимые метаданные, включая источник и происхождение.

Онтологии, контролируемые словари и стандартные названия

Биокураторы обычно используют и принимают участие в создании и развитии общих биомедицинских онтологий : структурированных, контролируемых словарей, которые охватывают многие области биологических и медицинских знаний, такие как Открытые биомедицинские онтологии. Эти домены включают геномику и протеомику, анатомию, животные и растения развитие, биохимию, метаболизм. пути, таксономическая классификация и мутантные фенотипы. Учитывая разнообразие существующих онтологий, существуют рекомендации, которые ориентируют исследователей на то, как выбрать подходящую.

Unified Medical Language System - одна из таких систем, которая объединяет и распределяет миллионы используемых терминов. в области наук о жизни.

Биокураторы обеспечивают последовательное использование рекомендаций по номенклатуре генов и участвуют в комитетах по генетической номенклатуре различных модельных организмов, часто в сотрудничестве с HUGO Комитет по номенклатуре генов (HGNC ). Они также обеспечивают соблюдение других рекомендаций по номенклатуре, таких как те, которые предоставлены Номенклатурным комитетом Международного союза биохимии и молекулярной биологии (IUBMB), одним из примеров которых является Комиссия по ферментам номер ЕС.

В более общем плане, использование постоянных идентификаторов приветствуется сообществом, поэтому для повышения ясности и облегчения знаний

Аннотация объекта

Например, в аннотации генома, идентификаторы, определенные онтологами и консорциумами, используются для описания частей генома. Например, онтология гена (GO) курирует термины для биологических процессов, которые используются для описания того, что мы знаем о конкретных генах.

Аннотации биомедицинского текста в Europe PMC Платформа SciLite

Текстовая аннотация

Помимо аннотации биологических последовательностей, биокураторы также аннотируют тексты, связывая слова с уникальными идентификаторами. Это помогает устранить неоднозначность, прояснить предполагаемый смысл и сделать тексты доступными для обработки на компьютере. Одним из применений текстовых аннотаций является указание точного гена, о котором говорит ученый.

Общедоступные текстовые аннотации позволяют биологам использовать дополнительные преимущества биомедицинского текста. Europe PMC имеет интерфейс прикладного программирования, который централизует текстовые аннотации из различных источников и делает их доступными в графическом пользовательском интерфейсе под названием SciLite. PubTator Central также предоставляет аннотации, но полностью основан на компьютеризированном интеллектуальном анализе текста и не предоставляет пользовательского интерфейса.

Существуют также программы, которые позволяют пользователям вручную комментировать биомедицинские тексты, которые им интересны, такие как система ezTag.

Международное общество биодокументации (ISB)

Международное общество биодокументации (ISB) является некоммерческой организацией «продвигает область биодокументации и предоставляет форум для обмен информацией посредством встреч и семинаров ». Он вырос из международных конференций по биодокументации и основан в начале 2009 года.

ISB предлагает биокураторам в сообществе: премию за карьеру биокуратора (вручается ежегодно) и премию ISB за выдающийся вклад в биодокументацию (вручается раз в два года)).

Викимедиа

Википедия

Есть некоторое совпадение между работой биокураторов и Википедией, с границами между научными базами данных и Википедия становится все более размытой. Такие базы данных, как Rfam и Protein Data Bank, например, активно используют Википедию и ее редакторы для сбора информации. Однако большинство баз данных предлагают хорошо структурированные данные, которые можно искать в сложных комбинациях, что обычно невозможно в Википедии, хотя Викиданные нацелены на решение этой проблемы до некоторой степени.

В рамках проекта Gene Wiki Википедия использовалась для совместного изучения тысяч генов и генных продуктов, таких как тайтин и инсулин.

Wikidata

База знаний Викимедиа Викиданные все чаще используется сообществом биодокументации в качестве интегрированного хранилища наук о жизни. Например, он использовался в проекте Gene Wiki для сбора информации о генах.

Курирование сообщества

Традиционно биокументация проводилась специализированными экспертами, которые объединяли данные в базы данных. Курирование на уровне сообщества стало многообещающим подходом к улучшению распространения знаний из опубликованных данных и предоставлению экономичного способа повышения масштабируемости биодокументации.

Биологические базы данных

Портал сообщества сообщества WormBase Портал сообщества WormBase

Некоторые биологические базы данных в некоторой степени включают вклад авторов в их функциональную стратегию курирования, которая может варьироваться от связывания идентификаторов генов с публикациями или произвольным текстом, для более структурированной и подробной аннотации последовательностей и функциональных данных, выводя кураторство по тем же стандартам, что и профессиональные биокураторы. Большая часть курирования сообществом Базы данных модельного организма включает аннотации оригинальных авторов опубликованных исследований (аннотации первого прохода) для эффективного получения точных идентификаторов для объектов, подлежащих кураторству, или определения типов данных для детального изучения. Например:

  • WormBase успешно запрашивает аннотации первого прохода от пользователей и интегрировал авторское управление с процессом микропубликации. WormBase также интегрирует анализ текста в свою платформу, предоставляя предложения кураторам сообщества.
  • FlyBase отправляет запросы по электронной почте авторам новых публикаций, предлагая им перечислить гены и типы данных, описанные через онлайн-инструмент, а также мобилизовать сообществу, чтобы написать параграфы с кратким описанием генов.

Другие базы данных, такие как PomBase, полагаются на авторов публикаций, которые представляют подробные аннотации на основе онтологий для своих публикаций и метаданные, связанные с общегеномным наборы данных с использованием контролируемых словарей. Веб-инструмент Canto ; был разработан для облегчения подачи заявок сообществом. Поскольку Canto является общедоступным, универсальным и легко настраиваемым, он был принят в других проектах. Кураторство подвергается проверке профессиональными кураторами, что приводит к высококачественному углубленному изучению всех типов молекулярных данных.

Ресурсы в стиле вики

Биовики полагаются на свои сообщества в предоставлении контента. AuthorReward, например, является расширением MediaWiki, которое позволяет количественно оценить вклад исследователей в биовики. RiceWiki была примером базы данных на основе вики для общественного курирования генов риса, снабженной AuthorReward.

Одним из ярких примеров является WikiProteins / WikiProfessional, проект по семантической организации биологических данных, возглавляемый Баренд Монс. В проекте 2007 года непосредственный вклад внес Джимми Уэйлс, соучредитель Википедии, и он взял за основу Викиданные. Другой - WikiPathways, который собирает информацию о биологических путях.

геймифицированных ресурсах

Подход к вовлечению толпы в биодокументацию основан на геймифицированных платформах, использующих игровой дизайн. принципы повышения вовлеченности. Вот несколько примеров:

  • Mark2Cure, игровая платформа для сообщества, курирующая биомедицинские рефераты
  • Cochrane Crowd, платформа Cochrane для проведения клинических испытаний и для классификации и обобщения биомедицинской литературы.
Вычислительный анализ текста для кураторства

Обработка естественного языка и интеллектуальный анализ текста технологии могут помочь биокураторам извлекать информацию для ручного кураторства. Интеллектуальный анализ текста может масштабировать усилия по курированию, поддерживая, например, идентификацию имен генов, а также для частичного вывода онтологий.

. Популярный пакет NLP python SpaCy имеет модификация для биомедицинских текстов, SciSpaCy, которая поддерживается Институтом ИИ Аллена.

Среди проблем, связанных с интеллектуальным анализом текста, применяемым к биокументированию, является сложность доступа к полным текстам биомедицинских статей из-за платной стены, связывающей проблемы биодокументации к тем из движения за открытый доступ.

Биокреативные проблемы

Интерфейс между интеллектуальным анализом текста и биокументацией был улучшен с помощью BioCreAtIvE (Критическая оценка информации Системы извлечения в биологии), серия конкурсов по интеллектуальному анализу текста, которые впервые были проведены в 2004 году.

См. Также
Ссылки
Внешние ссылки
Последняя правка сделана 2021-05-12 06:43:14
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте