Последовательный анализ экспрессии гена (SAGE ) - это транскриптомный метод, используемый молекулярными биологами для создания моментального снимка популяции информационной РНК в интересующей выборке в виде небольших тегов, которые соответствуют фрагментам этих транскриптов. С тех пор было разработано несколько вариантов, в первую очередь более надежная версия, LongSAGE, RL-SAGE и самая последняя версия SuperSAGE. Многие из них улучшили технику за счет захвата более длинных меток, что позволяет более уверенно идентифицировать исходный ген.
Вкратце, эксперименты SAGE продолжаются следующим образом:
Результатом SAGE является список тегов короткой последовательности с указанием количества наблюдений. Используя базы данных последовательностей, исследователь обычно может с некоторой уверенностью определить, из какой исходной мРНК (и, следовательно, из какого гена ) был извлечен тег.
Статистические методы могут применяться к спискам тегов и подсчетов из разных образцов, чтобы определить, какие гены экспрессируются более высоко. Например, образец нормальной ткани можно сравнить с соответствующей опухолью, чтобы определить, какие гены имеют тенденцию быть более (или менее) активными.
В 1979 году команды из Гарварда и Калифорнийского технологического института расширили основную идею создания ДНК-копий мРНК in vitro на амплификацию их библиотеки в бактериальных плазмидах. В 1982–1983 годах идея выбора случайных или полуслучайных клонов из такой библиотеки кДНК для секвенирования была исследована Грегом Сатклиффом и его сотрудниками. и Putney et al. кто секвенировал 178 клонов из библиотеки кДНК мышц кролика. В 1991 году Адамс и его сотрудники ввели термин экспрессирующий тег последовательности (EST) и инициировали более систематическое секвенирование кДНК в качестве проекта (начиная с 600 кДНК мозга). Идентификация EST прошла быстро, миллионы EST теперь доступны в общедоступных базах данных (например, GenBank ).
В 1995 году идея сокращения длины тега со 100 до 800 п.н. до длины тега с 10 до 22 п.н. помогла снизить стоимость исследований мРНК. В этом году оригинальный протокол SAGE был опубликован Виктором Велкулеску в Онкологическом центре Университета Джона Хопкинса. Хотя SAGE изначально был задуман для использования в исследованиях рака, он был успешно использован для описания транскриптома других заболеваний и у самых разных организмов.
Общая цель метода аналогична ДНК-микрочипам. Однако отбор образцов SAGE основан на секвенировании выхода мРНК, а не на гибридизации выхода мРНК с зондами, поэтому уровни транскрипции измеряются более количественно, чем с помощью микроматрицы. Кроме того, последовательности мРНК не обязательно должны быть известны априори, поэтому гены или варианты генов, которые неизвестны, могут быть обнаружены. Эксперименты с микрочипами намного дешевле проводить, поэтому в крупномасштабных исследованиях SAGE обычно не используется. Количественная оценка экспрессии генов более точна в SAGE, потому что она включает прямой подсчет количества транскриптов, тогда как интенсивность пятен в микроматрицах падает с недискретными градиентами и подвержена фоновому шуму.
MicroRNAs, или сокращенно miRNA, представляют собой небольшие (~ 22nt) сегменты РНК, которые, как было обнаружено, играют решающую роль в регуляции генов. Один из наиболее часто используемых методов клонирования и идентификации miRNA в клетке или ткани был разработан в Bartel Lab и опубликован в статье Lau et al. (2001). С тех пор появилось несколько вариантов протоколов, но большинство из них имеют один и тот же базовый формат. Процедура очень похожа на SAGE: малая РНК выделяется, затем к каждой добавляются линкеры, и РНК превращается в кДНК с помощью RT-PCR. После этого линкеры, содержащие внутренние сайты рестрикции, перевариваются соответствующим рестрикционным ферментом, и липкие концы лигируются вместе в конкатамеры. После конкатенации фрагменты лигируют в плазмиды и используют для трансформации бактерий для создания множества копий плазмиды, содержащей вставки. Затем их можно секвенировать для идентификации присутствующей miRNA, а также для анализа уровней экспрессии данной miRNA путем подсчета количества ее присутствий, аналогично SAGE.
LongSAGE был более надежной версией оригинального SAGE, разработанного в 2002 году, который имел более высокую пропускную способность, используя 20 мкг мРНК для создания библиотеки кДНК из тысяч тегов.. Robust LongSage (RL-SAGE) Дальнейшее усовершенствование протокола LongSAGE с возможностью создания библиотеки с размером вставки 50 нг мРНК, что намного меньше, чем предыдущий размер вставки LongSAGE, равный 2 мкг мРНК, и с использованием меньшего размера. количество цепных реакций ditag-полимеразы (ПЦР ) для получения полной библиотеки кДНК.
SuperSAGE является производным SAGE, который использует тип III- эндонуклеаза EcoP15I фага P1, чтобы вырезать теги последовательности длиной 26 п.н. из кДНК каждого транскрипта, увеличивая размер метки по крайней мере на 6 п.н. по сравнению с предшествующими технологиями SAGE и LongSAGE. Более длинный размер тега позволяет более точно отнести тег к соответствующему транскрипту, поскольку каждая дополнительная база значительно увеличивает точность аннотации.
Как и в исходном протоколе SAGE, так называемые теги формируются с использованием тегов с тупым концом. Однако SuperSAGE позволяет избежать систематической ошибки, наблюдаемой во время менее случайного лигирования длинных последовательностей длиной 20 п.н. Посредством прямого секвенирования с использованием высокопроизводительных методов секвенирования (секвенирование следующего поколения, то есть пиросеквенирование ) сотни тысяч или миллионы тегов могут быть проанализированы одновременно, что дает очень точные и количественные результаты профили экспрессии генов. Следовательно, профилирование экспрессии генов на основе тегов, также называемое «цифровым профилированием экспрессии генов» (DGE), сегодня может обеспечить наиболее точные профили транскрипции, которые преодолевают ограничения микрочипов.
В середине 2010-х годов было разработано несколько методов в сочетании с секвенированием следующего поколения, в которых используется принцип «тегов» для «цифрового профилирования экспрессии генов», но без использования фермента-тега. Подход «MACE» (= массивный анализ концов кДНК) генерирует теги где-то в последних 1500 п.о. транскрипта. Этот метод больше не зависит от рестрикционных ферментов и, таким образом, позволяет избежать систематической ошибки, связанной с отсутствием или расположением сайта рестрикции в кДНК. Вместо этого кДНК фрагментируется случайным образом, а 3'-концы секвенируются от 5'-конца молекулы кДНК, которая несет поли-A-хвост. Длина последовательности тегов может быть выбрана произвольно. Благодаря этому теги могут быть собраны в контиги, и аннотация тегов может быть значительно улучшена. Таким образом, MACE также используется для анализа немодельных организмов. Кроме того, более длинные контиги могут быть проверены на полиморфизм. Поскольку UTR демонстрируют большое количество полиморфизмов между индивидуумами, подход MACE может применяться для определения аллелей, профилирования аллель-специфической экспрессии генов и поиска молекулярных маркеров для разведения. Кроме того, подход позволяет определять альтернативное полиаденилирование транскриптов. Поскольку MACE требует только 3 ’концов транскриптов, даже частично деградировавшая РНК может быть проанализирована с меньшим искажением, зависящим от деградации. Подход MACE использует уникальные молекулярные идентификаторы, позволяющие идентифицировать систематическую ошибку ПЦР.