Одноклеточная транскриптомика

редактировать

Одноклеточная транскриптомика исследует уровень экспрессии гена отдельных клеток в данной популяции путем одновременного измерения концентрации информационной РНК (мРНК) от сотен до тысяч генов. Распознавание гетерогенных клеточных популяций, реконструкция клеточных траекторий развития и моделирование динамики транскрипции - все это ранее замаскировалось массовыми измерениями транскриптома - стало возможным благодаря анализу этих транскриптомных данных. 186>Содержание

Предпосылки

Анализ экспрессии генов стал рутинным благодаря развитию высокой пропускной способности секвенирование РНК (RNA-seq) и микрочипы. Анализ РНК, который ранее ограничивался отслеживанием отдельных транскриптов с помощью Нозерн-блоттинга или количественной ПЦР, теперь часто используется для характеристики профилей экспрессии популяций тысяч клеток. Данные, полученные в результате массовых анализов, привели к идентификации генов, которые по-разному экспрессируются в разных популяциях клеток, и открытию биомаркеров.

Эти геномные исследования ограничены поскольку они обеспечивают измерения для целых тканей и в результате показывают средний профиль экспрессии для всех составляющих клеток. В многоклеточных организмах разные типы клеток в одной и той же популяции могут играть разные роли и формировать субпопуляции с разными транскрипционными профилями. Корреляции в экспрессии генов субпопуляций часто могут быть упущены из-за отсутствия идентификации субпопуляций. Более того, массовые анализы не могут определить, связано ли изменение профиля экспрессии с изменением регуляции или состава, в котором один тип клеток становится доминирующим в популяции. Наконец, при изучении клеточной прогрессии через дифференцировку, средние профили экспрессии могут упорядочить клетки только по времени, а не по стадии их развития, и, следовательно, не могут показать тенденции в уровнях экспрессии генов, специфичные для определенных стадий.

Последние достижения в области биотехнологии позволяют одновременно измерять экспрессию генов в сотнях и тысячах отдельных клеток. Хотя эти прорывы в технологиях транскриптомики позволили генерировать транскриптомные данные для отдельных клеток, полученные данные создают новые вычислительные и аналитические проблемы. Методы, используемые для анализа данных РНК-seq из основных популяций клеток, могут использоваться для данных по отдельным клеткам, но для этого типа данных было разработано много новых вычислительных подходов, чтобы облегчить полное и подробное изучение профилей экспрессии отдельных клеток.

Экспериментальные этапы

В настоящее время не существует стандартизированной техники для получения данных по отдельным клеткам, все методы должны включать выделение клеток из популяции, формирование лизата, амплификацию посредством обратной транскрипции и количественная оценка уровней экспрессии. Обычными методами измерения экспрессии являются количественная ПЦР или последовательность РНК.

Выделение одиночных клеток

Рабочий процесс сортировки клеток с помощью флуоресценции (FACS)

Существует несколько методов выделения и амплификации клеток для одноклеточных анализ. Методы с низкой пропускной способностью позволяют изолировать сотни ячеек, они медленны и позволяют проводить отбор. Эти методы включают:

Высокопроизводительные методы позволяют быстро изолировать от сотен до десятков тысяч клеток. Общие методы включают:

Количественная ПЦР (qPCR)

Для измерения уровня экспрессии каждого транскрипта, который может применяться. Специфичные для гена праймеры используются для амплификации соответствующего гена, как и в случае обычной ПЦР, и в результате данные обычно получают только для размеров выборки менее 100 генов. Включение генов домашнего хозяйства, экспрессия которых должна быть постоянной в определенных условиях, используется для нормализации. Наиболее часто используемые гены домашнего хозяйства включают GAPDH и α- актин, хотя надежность нормализации с помощью этого процесса сомнительна, поскольку есть доказательства того, что уровень экспрессии может значительно различаться. 34>Флуоресцентные красители используются в качестве репортерных молекул для обнаружения продукта ПЦР и отслеживания хода амплификации - увеличение интенсивности флуоресценции пропорционально концентрации ампликона. Строится график зависимости флуоресценции от числа циклов, и пороговый уровень флуоресценции используется для определения номера цикла, при котором график достигает этого значения. Номер цикла в этот момент известен как пороговый цикл (C t) и измеряется для каждого гена.

Single-cell RNA-seq

RNA Seq Experiment

Метод Single-cell RNA-seq преобразует популяцию РНК в библиотеку фрагментов кДНК. Эти фрагменты секвенируются с помощью высокопроизводительных методов секвенирования следующего поколения, и считанные данные отображаются обратно в эталонный геном, обеспечивая подсчет количества считываний, связанных с каждым геном.

Нормализация Данные RNA-seq учитывают вариацию от клетки к клетке в эффективности формирования библиотеки кДНК и секвенирования. Один метод основан на использовании внешних всплесков РНК (последовательностей РНК с известной последовательностью и количеством), которые добавляются в равных количествах к каждой ячейке лизат и используются для нормализации количества считываний с помощью количество считываний, сопоставленных со спайк-входом мРНК.

Другой контроль использует уникальные молекулярные идентификаторы (UMI) - короткие последовательности ДНК (6–10nt), которые добавляются к каждой кДНК перед амплификацией и действуют в виде штрих-кода для каждой молекулы кДНК. Нормализация достигается за счет использования подсчета количества уникальных UMI, связанных с каждым геном, для учета различий в эффективности амплификации.

Комбинация обоих подходов, UMI и других подходов была объединена для более точной нормализации.

Соображения

Проблема, связанная с данными по отдельной клетке, возникает в форме нулевого завышенного распределения экспрессии генов, известного как технические выпадения, которые часто возникают из-за низких концентраций мРНК менее экспрессируемых генов. которые не захватываются в процессе обратной транскрипции. Процент обнаруживаемых молекул мРНК в клеточном лизате часто составляет всего 10-20%.

При использовании всплесков РНК для нормализации делается предположение, что эффективность амплификации и секвенирования для эндогенных и остающаяся РНК одинаковы. Имеющиеся данные свидетельствуют о том, что это не так, учитывая фундаментальные различия в размере и характеристиках, такие как отсутствие полиаденилированного хвоста в шипах и, следовательно, более короткой длины. Кроме того, нормализация с использованием UMI предполагает, что библиотека кДНК секвенирована до насыщения, что не всегда так.

Анализ данных

Аналитические данные, основанные на анализе данных отдельных ячеек, предполагают, что входные данные представляют собой матрицу нормализованных подсчетов экспрессии генов, сгенерированных описанными выше подходами, и может предоставить возможности, недоступные в массовом порядке.

Были предоставлены три основных вывода:

  1. Идентификация и характеристика типов клеток и их пространственная организация во времени
  2. Вывод сетей регуляции генов и их силы в отдельных клетках
  3. Классификация стохастического компонента транскрипции

Описанные методы были разработаны, чтобы помочь визуализировать и исследовать закономерности в данных, чтобы облегчить выявление этих трех характеристик.

Кластеризация

K-средние-гауссовские данные Дендрограмма радужки, полученная с использованием алгоритма иерархической кластеризации

Кластеризация позволяет формировать подгруппы в популяции клеток. Клетки можно сгруппировать по их транскриптомному профилю, чтобы проанализировать структуру субпопуляции и идентифицировать редкие типы или подтипы клеток. Альтернативно, гены могут быть сгруппированы по состояниям их экспрессии, чтобы идентифицировать гены коваринга. Комбинация обоих подходов к кластеризации, известная как бикластеризация, использовалась для одновременной кластеризации по генам и клеткам для поиска генов, которые ведут себя одинаково в кластерах клеток.

Применяемые методы кластеризации могут быть K-означает кластеризацию, формирование непересекающихся групп или иерархическую кластеризацию, формирование вложенных разделов.

Бикластеризация

Бикластеризация дает несколько преимуществ за счет улучшения разрешения кластеризации. Гены, которые информативны только для подмножества клеток и, следовательно, экспрессируются только там, могут быть идентифицированы посредством бикластеризации. Более того, с помощью этого метода можно идентифицировать гены с аналогичным поведением, которые дифференцируют один кластер клеток от другого.

Снижение размерности

Пример PCA гвинейской и других африканских популяций Частоты гаплогруппы Y-хромосомы

Снижение размерности такие алгоритмы, как анализ главных компонентов (PCA) и t-SNE, могут использоваться для упрощения данных для визуализации и обнаружения паттернов путем преобразования ячеек из высокого в более низкое размерное пространство. Результатом этого метода являются графики с каждой ячейкой в ​​виде точки в 2-D или 3-D пространстве. Уменьшение размерности часто используется перед кластеризацией, поскольку ячейки в больших измерениях могут ошибочно казаться близкими из-за неинтуитивного поведения показателей расстояния.

Анализ главных компонентов

Наиболее часто используемым методом является PCA, который определяет направления наибольшей дисперсии главных компонентов и преобразует данные так, чтобы первый главный компонент имел наибольшую возможную дисперсию, а последующие основные компоненты, в свою очередь, имели наибольшую возможную дисперсию, в то время как остающийся ортогональным предыдущим компонентам. Вклад каждого гена в каждый компонент используется для определения того, какие гены вносят наибольший вклад в дисперсию в популяции и участвуют в дифференциации различных субпопуляций.

Дифференциальная экспрессия

Выявление различий в экспрессии генов Уровень между двумя популяциями используется как для одноклеточных, так и для массивных транскриптомных данных. Для данных по отдельной ячейке были разработаны специальные методы, которые учитывают особенности отдельных ячеек, такие как технические исключения и форма распределения, например Бимодальный vs. унимодальный.

Обогащение генной онтологии

Термины генной онтологии описывают функции генов и отношения между этими функциями в трех классах:

  1. Молекулярная функция
  2. Клеточный компонент
  3. Биологический процесс

- это метод, используемый для определения того, какие термины GO чрезмерно или недостаточно представлены в данном наборе генов. При одноклеточном анализе входной список интересующих генов может быть выбран на основе дифференциально экспрессируемых генов или групп генов, созданных в результате бикластеризации. Количество генов, аннотированных к термину GO во входном списке, нормализуется по отношению к количеству генов, аннотированных к термину GO в фоновом наборе всех генов в геноме, чтобы определить статистическую значимость.

Псевдо-временное упорядочение

График с минимальным остовным деревом

Псевдо-временное упорядочение (или вывод траектории) - это метод, нацеленный на вывод динамики экспрессии генов на основе данных моментальных снимков отдельных ячеек. Метод пытается упорядочить ячейки таким образом, чтобы похожие ячейки располагались близко друг к другу. Эта траектория ячеек может быть линейной, но также может раздваиваться или следовать более сложным структурам графа. Таким образом, траектория позволяет сделать вывод о динамике экспрессии генов и упорядочении клеток по их прогрессии через дифференциацию или реакцию на внешние стимулы. Метод основан на предположении, что клетки следуют одним и тем же путем в интересующем процессе и что их состояние транскрипции коррелирует с их прогрессированием. Алгоритм может применяться как к смешанным популяциям, так и к временным выборкам.

Разработано более 50 методов псевдовременного упорядочения, и каждый имеет свои собственные требования к априорной информации (такой как начальные ячейки или данные временного курса), обнаруживаемым топологиям и методологии. Примером алгоритма является алгоритм Monocle, который выполняет уменьшение размерности данных, строит минимальное остовное дерево с использованием преобразованных данных, упорядочивает ячейки в псевдовремени, следуя самому длинному связному пути дерева и, следовательно, маркирует ячейки по типу. Другой пример - DPT, который использует карту распространения и процесс распространения.

Вывод сети

Вывод регуляторной сети генов - это метод, который направлен на построение сети, представленной в виде графика, в котором узлы представляют гены, а края указывают совместимость. -регулирующие взаимодействия. Этот метод основан на предположении, что сильная статистическая взаимосвязь между экспрессией генов является показателем потенциальной функциональной взаимосвязи. Наиболее часто используемый метод измерения силы статистической взаимосвязи - это корреляция. Однако корреляция не может идентифицировать нелинейные отношения, и в качестве альтернативы используется взаимная информация. Кластеры генов, связанные в сеть, означают гены, которые претерпевают согласованные изменения в экспрессии.

Интеграция

Наборы данных транскриптомики отдельных клеток, созданные с использованием разных экспериментальных протоколов и в разных экспериментальных условиях, часто отличаются наличием или силой технические эффекты и типы наблюдаемых ячеек, среди прочего. Это приводит к сильным пакетным эффектам, которые могут искажать результаты статистических методов, применяемых к пакетам, особенно при наличии искажающего. В результате вышеупомянутых свойств транскриптомных данных отдельной клетки, методы пакетной коррекции, разработанные для данных массового секвенирования, показали, что они работают плохо. Это привело к разработке статистических методов для корректировки пакетных эффектов, устойчивых к свойствам транскриптомных данных отдельных клеток, с целью интеграции данных из разных источников или экспериментальных партий. Основополагающая работа в этом отношении была выполнена Лале Хагверди, сформулировав использование взаимных ближайших соседей между каждой партией для определения векторов пакетной коррекции. Эти векторы можно использовать для объединения наборов данных, каждый из которых включает хотя бы один общий тип ячеек. Ортогональный подход предполагает проекцию каждого набора данных на общее низкоразмерное пространство с использованием канонического корреляционного анализа. Взаимные ближайшие соседи и анализ канонической корреляции также были объединены для определения «якорей» интеграции, содержащих ссылочные ячейки в одном наборе данных, к которым нормализованы ячейки запроса в другом наборе данных.

См. Также
Ссылки
Внешние ссылки
Последняя правка сделана 2021-06-08 02:37:57
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте