Обозначение нуклеиновой кислоты

редактировать

Используемая в настоящее время нотация нуклеиновых кислот была впервые формализована Международным союзом теоретической и прикладной химии (IUPAC) в 1970 году. В этой общепринятой нотации используются латинские буквы G, C, A и T для обозначения четырех нуклеотидов, обычно встречающихся в дезоксирибонуклеиновые кислоты (ДНК). Учитывая быстро растущую роль генетического секвенирования, синтеза и анализа в биологии, исследователи были вынуждены разработать альтернативные обозначения для дальнейшей поддержки анализа и обработки генетических данных. Эти обозначения обычно используют размер, форму и симметрию для достижения этих целей.

СОДЕРЖАНИЕ

  • 1 нотация ИЮПАК
  • 2 Альтернативные визуально улучшенные обозначения
    • 2.1 Проекция посоха
    • 2.2 Геометрические символы
    • 2.3 Горизонт ДНК
    • 2.4 Амбиграфические обозначения
  • 3 См. Также
  • 4 ссылки

Обозначение ИЮПАК

Вырожденные базовые символы ИЮПАК
Описание Условное обозначение Представленные базы Дополнительные базы
Нет. А C грамм Т
Аденин А 1 А Т
Цитозин C C грамм
Гуанин грамм грамм C
Тимин Т Т А
Урацил U U А
Слабый W 2 А Т W
Сильный S C грамм S
М ино M А C K
Кето K грамм Т M
Pu г ине р А грамм Y
P у -пиримидина Y C Т р
Не А B 3 C грамм Т V
Не C D А грамм Т ЧАС
Не G ЧАС А C Т D
Не Т V А C грамм B
П у одной базовой N 4 А C грамм Т N
Нуль Z 0 Z

Символы основания BBC в биохимии представляют собой представление IUPAC для положения в последовательности ДНК, которое может иметь несколько возможных альтернатив. Их не следует путать с неканоническими основами, потому что каждая конкретная последовательность фактически будет иметь одну из обычных основ. Они используются для кодирования согласованной последовательности популяции выровненных последовательностей и используются, например, в филогенетическом анализе для суммирования в одну множественную последовательность или для поиска BLAST, даже если вырожденные символы IUPAC замаскированы (поскольку они не кодируются).

В широко используемой системе IUPAC азотистые основания представлены первыми буквами их химических названий: гуанин, цитозин, аденин и тимин. Это сокращение также включает одиннадцать "неоднозначных" символов, связанных со всеми возможными комбинациями четырех оснований ДНК. Знаки неоднозначности были разработаны для кодирования позиционных вариаций, чтобы сообщить об ошибках секвенирования ДНК, согласованных последовательностях или однонуклеотидных полиморфизмах. Обозначения IUPAC, включая символы неоднозначности и предлагаемую мнемонику, показаны в таблице 1.

Несмотря на широкое и почти всеобщее признание, система ИЮПАК имеет ряд ограничений, которые проистекают из ее зависимости от латинского алфавита. Плохая разборчивость латинских букв верхнего регистра, которые обычно используются при отображении генетических данных, может быть главным среди этих ограничений. Значение внешних выступов для различения букв хорошо задокументировано. Однако в этих проекциях отсутствуют прописные буквы, которые в некоторых случаях можно различить только по тонким внутренним подсказкам. Возьмем, к примеру, заглавные буквы C и G, используемые для обозначения цитозина и гуанина. Эти символы обычно составляют половину символов в генетической последовательности, но отличаются небольшой внутренней галочкой (в зависимости от гарнитуры). Тем не менее, эти латинские символы доступны в наборе символов ASCII, наиболее часто используемом в текстовых сообщениях, что усиливает повсеместность этой системы.

Другой недостаток нотации IUPAC проистекает из того факта, что ее одиннадцать знаков неоднозначности были выбраны из оставшихся знаков латинского алфавита. Авторы нотации постарались выделить символы неоднозначности с помощью логической мнемоники. Например, S используется для обозначения возможности обнаружения цитозина или гуанина в генетических локусах, оба из которых образуют сильные межцепочечные связывающие взаимодействия. И наоборот, взаимодействия тимина и аденина BBC представлены буквой W. Однако удобная мнемоника не так легко доступна для других символов неоднозначности, показанных в таблице 1. Это затрудняет использование символов неоднозначности и может объяснить их ограниченное применение.

Альтернативные визуально улучшенные обозначения

Проблемы разборчивости, связанные с кодированными IUPAC генетическими данными, побудили биологов рассмотреть альтернативные стратегии отображения генетических данных. Эти творческие подходы к визуализации последовательностей ДНК обычно основывались на использовании пространственно распределенных символов и / или визуально различных форм для кодирования длинных последовательностей нуклеиновых кислот. Были предприняты попытки альтернативного обозначения нуклеотидных последовательностей, однако общее поглощение было низким. Некоторые из этих подходов кратко описаны ниже.

Проекция посоха

Stave Projection использует пространственно распределенные точки, чтобы улучшить читаемость последовательностей ДНК.

В 1986 году Cowin et al. описал новый метод визуализации последовательности ДНК, известный как Проекция Посоха. Их стратегия заключалась в кодировании нуклеотидов в виде кругов на горизонтальных полосах, похожих на ноты на нотном стане. Как показано на Рисунке 1, каждый пробел на пятистрочной рейке соответствовал одному из четырех оснований ДНК. Пространственное распределение кругов значительно облегчило различение отдельных оснований и сравнение генетических последовательностей, чем данные, закодированные IUPAC.

Порядок оснований (сверху вниз, G, A, T, C) выбирается таким образом, чтобы можно было прочитать дополнительную нить, перевернув выступ вверх дном.

Геометрические символы

Циммерман и др. применили другой подход к визуализации генетических данных. Вместо того, чтобы полагаться на пространственно распределенные круги для выделения генетических особенностей, они использовали четыре геометрически различных символа, найденных в стандартном компьютерном шрифте, чтобы различить четыре основания. Авторы разработали простой макрос WordPerfect для перевода символов IUPAC в более визуально отличимые символы.

Горизонт ДНК

С ростом доступности редакторов шрифтов Ярвиус и Ландегрен разработали новый набор генетических символов, известный как шрифт DNA Skyline, в котором используются все более высокие блоки для представления различных основ ДНК. Несмотря на то, что он напоминает пространственно распределенную Stave Projection Ковина и др., Шрифт DNA Skyline легко загружается и позволяет переводить в нотацию IUPAC и обратно, просто изменяя шрифт в большинстве стандартных приложений для обработки текстов.

Амбиграфические обозначения

AmbiScript использует амбиграммы для отражения симметрии ДНК и поддержки обработки и анализа генетических данных.

Амбиграммы (символы, которые передают другое значение при просмотре в другой ориентации) были разработаны для отражения структурной симметрии двойной спирали ДНК. Присваивая амбиграфические символы дополнительным основаниям (например, гуанин: b, цитозин: q, аденин: n и тимин: u), можно дополнить последовательности ДНК, просто повернув текст на 180 градусов. Амбиграфическая нотация нуклеиновых кислот также позволяет легко идентифицировать генетические палиндромы, такие как сайты рестрикции эндонуклеаз, как участки текста, которые можно повернуть на 180 градусов без изменения последовательности.

Одним из примеров амбиграфической нотации нуклеиновых кислот является AmbiScript, рационально разработанная нотация нуклеиновых кислот, сочетающая в себе многие визуальные и функциональные особенности своих предшественников. В нотации также используются символы с пространственным смещением, чтобы облегчить визуальный обзор и анализ генетических данных. AmbiScript также был разработан для обозначения неоднозначных положений нуклеотидов с помощью составных символов. Эта стратегия была направлена ​​на то, чтобы предложить более интуитивное решение для использования символов неоднозначности, впервые предложенное IUPAC. Как и шрифты Jarvius и Landegren's DNA Skyline, шрифты AmbiScript можно загружать и применять к данным последовательностей, закодированных IUPAC.

Смотрите также

использованная литература

  1. ^ a b Комиссия IUPAC-IUB по биохимической номенклатуре (1970). «Аббревиатуры и символы нуклеиновых кислот, полинуклеотидов и их составляющих». Биохимия. 9 (20): 4022–4027. DOI : 10.1021 / bi00822a023.
  2. ^ a b Номенклатурный комитет Международного союза биохимиков (NC-IUB) (1984). «Номенклатура не полностью определенных оснований в последовательностях нуклеиновых кислот». Исследования нуклеиновых кислот. 13 (9): 3021–3030. DOI : 10.1093 / NAR / 13.9.3021. PMC   341218. PMID   2582368.
  3. ^ a b Номенклатурный комитет Международного союза биохимиков (NC-IUB) (1986). «Номенклатура не полностью определенных оснований в последовательностях нуклеиновых кислот. Рекомендации 1984». Proc. Natl. Акад. Sci. США. 83 (1): 4–8. Полномочный код : 1986PNAS... 83.... 4O. DOI : 10.1073 / pnas.83.1.4. PMC   322779. PMID   2417239.
  4. ^ Тинкер, Массачусетс, 1963. Разборчивость печати. Издательство государственного университета Айовы, Эймс, Айова.
  5. ^ Cowin, JE; Джеллис, Швейцария; Риквуд, Д. (1986). «Новый метод представления последовательностей ДНК, сочетающий простоту визуального анализа с машиночитаемостью». Исследования нуклеиновых кислот. 14 (1): 509–15. DOI : 10.1093 / NAR / 14.1.509. PMC   339435. PMID   3003680.
  6. ^ Циммерман, Пенсильвания; Spell, ML; Rawls, J.; Unnasch, TR (1991). «Преобразование данных последовательности ДНК в геометрические символы». Биотехнологии. 11 (1): 50–52. PMID   1954017.
  7. ^ Jarvius, J.; Ландегрен, У. (2006). «DNA Skyline: шрифты для облегчения визуального контроля последовательностей нуклеиновых кислот». Биотехнологии. 40 (6): 740. DOI : 10,2144 / 000112180. PMID   16774117.
  8. Перейти ↑ Hofstadter, Douglas R. (1985). Метамагические темы: вопрошание сущности разума и образца. Нью-Йорк: Основные книги. ISBN   978-0465045662.
  9. ^ Rozak, DA (2006). «Практические и педагогические преимущества амбиграфической записи нуклеиновых кислот». Нуклеозиды, нуклеотиды и нуклеиновые кислоты. 25 (7): 807–813. DOI : 10.1080 / 15257770600726109. PMID   16898419. S2CID   23600737.
  10. ^ Розак, Дэвид А.; Розак, Энтони Дж. (2008). «Простота, функциональность и удобочитаемость в улучшенной амбиграфической нотации нуклеиновых кислот». Биотехнологии. 44 (6): 811–813. DOI : 10.2144 / 000112727. PMID   18476835.
Последняя правка сделана 2023-03-27 05:01:52
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте