Место связывания ДНК

редактировать

сайты связывания ДНК представляют собой тип сайтов связывания, обнаруженных в ДНК, где могут связываться другие молекулы. Сайты связывания ДНК отличаются от других сайтов связывания тем, что (1) они являются частью последовательности ДНК (например, генома) и (2) они связаны ДНК-связывающими белками. Сайты связывания ДНК часто связаны со специализированными белками, известными как факторы транскрипции, и, таким образом, связаны с регуляцией транскрипции. Сумма сайтов связывания ДНК конкретного фактора транскрипции обозначается как его цистром. Сайты связывания ДНК также охватывают мишени других белков, таких как рестрикционные ферменты, сайт-специфические рекомбиназы (см. сайт-специфическая рекомбинация ) и метилтрансферазы.

Сайты связывания ДНК могут Таким образом, можно определить короткие последовательности ДНК (обычно длиной от 4 до 30 пар оснований, но до 200 п.н. для сайтов рекомбинации), которые специфически связываются одним или несколькими ДНК-связывающими белками или белковыми комплексами. Сообщалось, что некоторые сайты связывания потенциально могут претерпевать быстрые эволюционные изменения.

Содержание

1 Типы сайтов связывания ДНК
2 История и основные экспериментальные методы
3 Базы данных
4 Представление ДНК сайты связывания
5 Компьютерный поиск и открытие сайтов связывания
6 См. также
7 Ссылки
8 Внешние ссылки

Типы сайтов связывания ДНК

Сайты связывания ДНК можно разделить на категории в соответствии с их биологической функцией. Таким образом, мы можем различать сайты связывания факторов транскрипции, сайты рестрикции и сайты рекомбинации. Некоторые авторы предложили, чтобы сайты связывания также можно было классифицировать в соответствии с их наиболее удобным способом представления. С одной стороны, сайты рестрикции обычно могут быть представлены консенсусными последовательностями. Это потому, что они нацелены в основном на идентичные последовательности, а эффективность рестрикции резко снижается для менее похожих последовательностей. С другой стороны, сайты связывания ДНК для данного фактора транскрипции обычно все разные, с разной степенью сродства фактора транскрипции к различным сайтам связывания. Это затрудняет точное представление сайтов связывания факторов транскрипции с использованием консенсусных последовательностей, и они обычно представляются с использованием частотных матриц, специфичных для положения (PSFM), которые часто графически изображаются с использованием логотипов последовательностей. Однако этот аргумент отчасти произвольный. Ферменты рестрикции, такие как факторы транскрипции, дают постепенный, хотя и резкий, диапазон аффинностей для разных сайтов и, таким образом, также лучше всего представлены PSFM. Аналогичным образом, сайт-специфические рекомбиназы также демонстрируют различный диапазон аффинности к различным сайтам-мишеням.

История и основные экспериментальные методы

Существование чего-то похожего на сайты связывания ДНК предполагалось в ходе экспериментов биология бактериофага лямбда и регуляция lac-оперона Escherichia coli lac. Сайты связывания ДНК были окончательно подтверждены в обеих системах с появлением методов секвенирования ДНК. С тех пор сайты связывания ДНК для многих факторов транскрипции, рестрикционных ферментов и сайт-специфических рекомбиназ были открыты с использованием множества экспериментальных методов. Исторически предпочтительными экспериментальными методами для обнаружения и анализа сайтов связывания ДНК были анализ следа ДНКазы и анализ сдвига электрофоретической подвижности (EMSA). Однако развитие ДНК-микрочипов и методов быстрого секвенирования привело к новым, массово параллельным методам идентификации сайтов связывания in vivo, таким как ChIP-chip и ChIP -Seq. Для количественной оценки аффинности связывания белков и других молекул со специфическими участками связывания ДНК используется биофизический метод микромасштабный термофорез.

Базы данных

Из-за разнообразия экспериментальных методов, используемых для определения сайтов связывания, а также из-за неоднородного покрытия большинства организмов и факторов транскрипции, не существует центральной базы данных (по аналогии с GenBank в Национальном центре биотехнологической информации ) для сайтов связывания ДНК. Несмотря на то, что NCBI предполагает аннотацию сайта связывания ДНК в своих контрольных последовательностях (RefSeq ), в большинстве представленных материалов эта информация отсутствует. Более того, из-за ограниченного успеха биоинформатики в создании эффективных инструментов прогнозирования сайтов связывания ДНК (большие ложноположительные показатели часто связаны с методами обнаружения мотивов in-silico / поиска сайтов), систематических усилий по компьютерно аннотировать эти особенности в секвенированных геномах.

Однако существует несколько частных и общедоступных баз данных, посвященных компиляции экспериментально зарегистрированных, а иногда и предсказанных с помощью вычислений сайтов связывания для различных факторов транскрипции у разных организмов. Ниже представлена неполная таблица доступных баз данных:

Имя	Организмы	Источник	Доступ	URL
PlantRegMap	165 видов растений (например, Arabidopsis thaliana, Oryza sativa, Zea mays и т. Д.)	Экспертное наблюдение и прогноз	Общественное	[1]
JASPAR	Позвоночные, растения, грибы, мухи и черви	Экспертное руководство с литературной поддержкой	Общественное	[2]
	Все эукариоты	Мотивы, полученные экспериментально и прогнозы	Public	[3]
CollecTF	Prokaryotes	Литературное руководство	Public	[4]
	Prokaryotes	Экспертное руководство	Общественное	[5]
RegTransBase	Прокариоты	Экспертное / литературное руководство	Общественное	[6]
RegulonDB	Escherichia coli	Экспертное лечение	Общественное	[7]
PRODORIC	Прокариоты	Экспертное лечение	Public	[8]
TRANSFAC	Mammals	Эксперт / подборка литературы	Public / Частный	[9]
TRED	Человек, Мышь, Крыса	Компьютерные предсказания, ручное управление	Общедоступный	[10]
DBSD	Виды Drosophila	Литература / Экспертное руководство	Общественное	[11]
HOCOMOCO	Человек, Мышь	Литература / Экспертная помощь	Общественная	[12], [13]
MethMotif	Человек, Мышь	Экспертная помощь	Общедоступный	[14]

Представление сайтов связывания ДНК

Набор сайтов связывания ДНК, обычно называемых мотивом связывания ДНК, может быть представлен консенсусом последовательность. Это представление имеет то преимущество, что оно компактно, но за счет игнорирования значительного объема информации. Более точный способ представления сайтов привязки - использование матриц частот, зависящих от положения (PSFM). Эти матрицы дают информацию о частоте каждого основания в каждом положении ДНК-связывающего мотива. PSFM обычно предполагают неявное предположение о позиционной независимости (разные позиции в сайте связывания ДНК вносят независимый вклад в функцию сайта), хотя это предположение оспаривается для некоторых сайтов связывания ДНК. Информацию о частоте в PSFM можно формально интерпретировать в рамках теории информации, что приводит к ее графическому представлению в виде логотипа последовательности.

	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16
A	1	0	1	5	32	5	35	23	34	14	43	13	34	4	52	3
C	50	1	0	1	5	6	0	4	4	13	3	8	17	51	2	0
G	0	0	54	15	5	5	12	2	7	1	1	3	1	0	1	52
T	5	55	1	35	14	40	9	27	11	28	9	32	4	1	1	1
Сумма	56	56	56	56	56	56	56	56	56	56	56	56	56	56	56	56

PSFM для репрессора транскрипции LexA, полученный из 56 LexA-связывающих сайтов хранятся в Prodoric. Относительные частоты получаются делением количества в каждой ячейке на общее количество (56)

Вычислительный поиск и обнаружение сайтов связывания

В биоинформатике можно различать две отдельные проблемы в отношении сайтов связывания ДНК: поиск дополнительных членов известного ДНК-связывающего мотива (проблема поиска сайта) и обнаружение новых ДНК-связывающих мотивов в коллекциях функционально связанных последовательностей (проблема обнаружения мотива последовательности ). Было предложено много разных методов поиска сайтов привязки. Большинство из них полагаются на принципы теории информации и имеют доступные веб-серверы (Yellaboina) (Munch), в то время как другие авторы прибегают к методам машинного обучения, таким как искусственные нейронные сети. Также доступно множество алгоритмов для обнаружения мотива последовательности. Эти методы основаны на гипотезе о том, что набор последовательностей имеет общий связывающий мотив по функциональным причинам. Методы обнаружения мотивов привязки можно условно разделить на перечислительные, детерминированные и стохастические. цМем и консенсус являются классическими примерами детерминированной оптимизации, в то время как сэмплер Гиббса представляет собой обычную реализацию чисто стохастического метода. для открытия ДНК-связывающих мотивов. Другой пример этого класса методов - SeSiMCMC, ориентированный на слабые сайты TFBS с симметрией. В то время как перечислительные методы часто прибегают к регулярному выражению представления сайтов привязки, PSFM и их формальная обработка в рамках методов теории информации являются предпочтительным представлением как для детерминированных, так и для стохастических методов. Гибридные методы, например ChIPMunk, сочетающий жадную оптимизацию с подвыборкой, также использует PSFM. Недавние успехи в секвенировании привели к внедрению подходов сравнительной геномики к открытию мотивов связывания ДНК, как это продемонстрировал PhyloGibbs.

Более сложные методы поиска сайтов связывания и открытия мотивов основаны на укладке оснований и других взаимодействиях между ДНК. оснований, но из-за небольших размеров образцов, обычно доступных для сайтов связывания в ДНК, их эффективность до сих пор не используется полностью. Примером такого инструмента является ULPB

См. Также

Ссылки

Внешние ссылки

ENCODE Thread Explorer Мотивы факторов транскрипции в Nature
Собранные вручную мотивы связывания TF для 157 видов растений