Методы анализа микрочипов

редактировать

Пример микроматрицы олигоматрицы с пятнами приблизительно 40 000 зондов с увеличенной вставкой для отображения деталей.

Методы анализа микроматриц представлены используется при интерпретации данных, полученных в результате экспериментов с ДНК (Анализ генных чипов ), РНК и белков микрочипов, которые позволяют исследователям исследовать состояние экспрессии большого количества генов - в во многих случаях весь геном организма - в одном эксперименте. Такие эксперименты могут генерировать очень большие объемы данных, позволяя исследователям оценить общее состояние клетки или организма. Данные в таких больших объемах трудно - если вообще возможно - анализировать без помощи компьютерных программ.

Содержание

1 Введение
2 Методы
- 2.1 Агрегация и нормализация
- 2.2 Идентификация значимого дифференциального выражения
- 2.3 Кластеризация
  - 2.3.1 Иерархическая кластеризация
  - 2.3.2 K -средства кластеризации
- 2.4 Распознавание образов
3 Анализ значимости микрочипов (SAM)
- 3.1 Базовый протокол
- 3.2 Запуск SAM
  - 3.2.1 Форматы ответов
- 3.3 Алгоритм
  - 3.3. 1 Выход
- 3.4 Возможности SAM
4 Коррекция ошибок и контроль качества
- 4.1 Контроль качества
- 4.2 Коррекция фона
- 4.3 Точечная фильтрация
5 См. Также
6 Ссылки
7 Внешние ссылки

Введение

Анализ данных микроматрицы - последний шаг в чтении и обработке данных, производимых микрочипом. Образцы подвергаются различным процессам, включая очистку и сканирование с помощью микрочипа, который затем производит большой объем данных, требующих обработки с помощью компьютерного программного обеспечения. Он включает в себя несколько отдельных шагов, как показано на изображении ниже. Изменение любого из шагов приведет к изменению результата анализа, поэтому проект MAQC был создан для определения набора стандартных стратегий. Существуют компании, которые используют протоколы MAQC для выполнения полного анализа.

Шаги, необходимые для эксперимента с микрочипами

Методы

Национальный центр токсикологических исследований ученый просматривает данные микрочипов

Большинство производителей микрочипов, например as Affymetrix и Agilent, вместе со своими продуктами на основе микрочипов предоставляют коммерческое программное обеспечение для анализа данных. Существуют также варианты с открытым исходным кодом, в которых используются различные методы анализа данных микрочипов.

Агрегация и нормализация

Сравнение двух разных массивов или двух разных образцов, гибридизированных с одним и тем же массивом, обычно включает внесение поправок на систематические ошибки, вызванные различиями в процедурах и эффектами интенсивности красителя. Нормализация красителя для двух цветовых массивов часто достигается с помощью локальной регрессии. LIMMA предоставляет набор инструментов для коррекции фона и масштабирования, а также возможность усреднять повторяющиеся пятна на слайде. Распространенный метод оценки того, насколько хорошо нормализован массив, - это построить график скользящей средней данных. Графики MA могут быть созданы с использованием таких программ и языков, как R, MATLAB и Excel.

Необработанные данные Affy содержат около двадцати зондов для одной и той же РНК-мишени. Половина из них - это «пятна несоответствия», которые не точно соответствуют целевой последовательности. Теоретически они могут измерить количество неспецифического связывания для данной мишени. Устойчивое среднее значение по нескольким массивам (RMA) - это подход к нормализации, который не использует преимущества этих точек несоответствия, но все же должен суммировать идеальные совпадения с помощью медианной полировки. Алгоритм медианной полировки, хотя и надежен, ведет себя по-разному в зависимости от количества проанализированных образцов. Квантильная нормализация, также являющаяся частью RMA, является одним из разумных подходов к нормализации пакета массивов, чтобы сделать дальнейшие сравнения значимыми.

Текущий алгоритм Affymetrix MAS5, в котором используются как датчики идеального совпадения, так и датчики несовпадения, по-прежнему пользуется популярностью и демонстрирует хорошие результаты в тестах лицом к лицу.

Блок-схема, показывающая, как работает алгоритм MAS5 от Agilent. Факторный анализ для надежного суммирования микрочипов (FARMS) - это основанный на модели метод суммирования данных массива на уровне зонда с идеальным совпадением. Он основан на модели факторного анализа, для которой апостериорный метод байесовского максимума оптимизирует параметры модели в предположении гауссовского шума измерения. Согласно эталонному тесту Affycomp, FARMS превзошла все другие методы обобщения в отношении чувствительности и специфичности.

Идентификация значительной дифференциальной экспрессии

Существует множество стратегий для идентификации массивных зондов, которые показывают необычный уровень избыточной экспрессии или недостаточной экспрессии. Самый простой - назвать «значимым» любой зонд, который отличается в среднем как минимум в два раза между группами лечения. Более сложные подходы часто связаны с t-тестами или другими механизмами, которые учитывают как размер эффекта, так и изменчивость. Любопытно, что p-значения, связанные с конкретными генами, плохо воспроизводятся между повторными экспериментами, и списки, созданные прямым кратным изменением, работают намного лучше. Это чрезвычайно важное наблюдение, поскольку цель проведения экспериментов связана с предсказанием общего поведения. Группа MAQC рекомендует использовать оценку кратности изменения плюс нестрогую отсечку p-значения, дополнительно указывая на то, что изменения в фоновой коррекции и процессе масштабирования оказывают лишь минимальное влияние на порядок ранжирования различий в кратности изменения, но существенно влияют на p-значения.

Кластеризация

Кластеризация - это метод интеллектуального анализа данных, используемый для группировки генов, имеющих сходные паттерны экспрессии. Иерархическая кластеризация и кластеризация k-средних являются широко используемыми методами в анализе микрочипов.

Иерархическая кластеризация

Иерархическая кластеризация - это статистический метод поиска относительно однородных кластеров. Иерархическая кластеризация состоит из двух отдельных фаз. Первоначально вычисляется матрица расстояний , содержащая все попарные расстояния между генами. Корреляция Пирсона и Корреляция Спирмена часто используются в качестве оценок несходства, но другие методы, такие как Манхэттенское расстояние или Евклидово расстояние, также могут быть применяется. Учитывая количество доступных мер расстояния и их влияние на результаты алгоритма кластеризации, в нескольких исследованиях сравнивались и оценивались различные меры расстояния для кластеризации данных микрочипа с учетом их внутренних свойств и устойчивости к шуму. После вычисления исходной матрицы расстояний алгоритм иерархической кластеризации либо (A) итеративно объединяет два ближайших кластера, начиная с отдельных точек данных (агломерационный, восходящий подход, который довольно часто используется), либо (B) итеративно разделяет кластеры. начиная с комплектации (спорный, нисходящий подход). После каждого шага новая матрица расстояний между вновь сформированными кластерами и другими кластерами пересчитывается. К методам иерархического кластерного анализа относятся:

одиночная связь (метод минимума, ближайший сосед)
Средняя связь (UPGMA ).
Полная связь (метод максимума, самый дальний сосед)

Различные исследования уже есть эмпирически показано, что алгоритм кластеризации с единичным сцеплением дает плохие результаты при использовании для данных микрочипов экспрессии генов, и поэтому его следует избегать.

Кластеризация K-средних

Кластеризация K-средних является алгоритмом группировки генов или выборок на основе шаблона в группы K. Группировка выполняется путем минимизации суммы квадратов расстояний между данными и соответствующим кластером центроид. Таким образом, цель кластеризации K-средних - классифицировать данные на основе аналогичное выражение. Алгоритм кластеризации K-средних и некоторые из его вариантов (включая k-medoids ) показали хорошие результаты для данных экспрессии генов (по крайней мере, лучше, чем методы иерархической кластеризации). Эмпирические сравнения k-означает, k-medoids, иерархические методы и различные меры расстояния можно найти в литературе.

Распознавание образов

Коммерческие системы для анализа генных сетей, такие как Ingenuity и Pathway studio, создают визуальные эффекты. представления дифференциально экспрессируемых генов на основе современной научной литературы. Некоммерческие инструменты, такие как FunRich, GenMAPP и Moksiskaan, также помогают в организации и визуализации данных генной сети, полученных в результате одного или нескольких экспериментов с микрочипами. Широкий спектр инструментов анализа микрочипов доступен через Bioconductor, написанный на языке программирования R. Часто цитируемый модуль SAM и другие инструменты микроматрицы доступны в Стэнфордском университете. Другой набор можно получить в Гарварде и Массачусетском технологическом институте.

Пример вывода инструмента FunRich. На изображении показан результат сравнения 4 разных генов.

Для помощи в идентификации были также разработаны специализированные программные инструменты для статистического анализа, позволяющие определить степень избыточной или недостаточной экспрессии гена в эксперименте с микрочипом относительно эталонного состояния. гены или наборы генов, связанные с конкретными фенотипами. Один из таких методов анализа, известный как анализ обогащения генов (GSEA), использует статистику в стиле Колмогорова-Смирнова для идентификации групп генов, которые регулируются вместе. Этот сторонний статистический пакет предлагает пользователю информацию об интересующих генах или наборах генов, включая ссылки на записи в базах данных, таких как NCBI GenBank, и тщательно подобранные базы данных, такие как Biocarta и Gene Ontology. Инструмент анализа обогащения белковых комплексов (COMPLEAT) обеспечивает аналогичный анализ обогащения на уровне белковых комплексов. Инструмент может идентифицировать динамическую регуляцию белкового комплекса в различных условиях или временных точках. Связанная система PAINT и SCOPE выполняет статистический анализ промоторных областей генов, выявляя избыточное и недостаточное представление ранее идентифицированных элементов ответа фактора транскрипции. Другой инструмент статистического анализа - это статистика сумм рангов для коллекций наборов генов (RssGsc), которая использует функции распределения вероятностей суммы рангов для поиска наборов генов, объясняющих экспериментальные данные. Еще один подход - контекстный метаанализ, то есть выяснение того, как кластер генов реагирует на различные экспериментальные контексты. Genevestigator - это общедоступный инструмент для выполнения контекстного метаанализа по таким контекстам, как анатомические части, стадии развития и реакция на заболевания, химические вещества, стрессы и новообразования.

Анализ значимости микроматриц ( SAM)

Анализ значимости микроматриц (SAM) - это статистический метод, разработанный в 2001 году Вирджинией Тушер, Робертом Тибширани и Гилбертом Чу для определения, являются ли изменения в экспрессии гена статистически значимыми. С появлением ДНК-микрочипов теперь можно измерить экспрессию тысяч генов в одном эксперименте по гибридизации. Сгенерировано много данных, и метод сортировки того, что важно, а что нет, очень важен. SAM распространяется Стэнфордским университетом в R-пакете.

SAM идентифицирует статистически значимые гены путем выполнения специфичных для генов t-тестов и вычисляет статистику d j для каждого гена j, который измеряет силу взаимосвязи между экспрессией гена и переменной ответа. В этом анализе используется непараметрическая статистика, поскольку данные могут не соответствовать нормальному распределению. Переменная ответа описывает и группирует данные на основе экспериментальных условий. В этом методе повторяющиеся перестановки данных используются для определения того, является ли экспрессия какого-либо гена значимой для ответа. Использование анализа на основе перестановок учитывает корреляции в генах и позволяет избежать параметрических предположений о распределении отдельных генов. Это преимущество перед другими методами (например, ANOVA и Бонферрони ), которые предполагают одинаковую дисперсию и / или независимость генов.

Базовый протокол

Выполнить микроматрицы эксперименты - ДНК-микрочипы с праймерами олиго и кДНК, массивы SNP, массивы белков и т. Д.
Входной анализ экспрессии в Microsoft Excel - см. Ниже
Запуск SAM как Надстройки Microsoft Excel
Настройте параметр настройки «Дельта», чтобы получить значительное количество генов вместе с приемлемой частотой ложного обнаружения (FDR), и оцените размер выборки, вычислив среднюю разницу в выражении в контроллере графика SAM
Список дифференциально экспрессируемых генов (положительно и отрицательно экспрессируемых генов)

Запуск SAM

SAM доступен для загрузки в Интернете по адресу http://www-stat.stanford.edu/~tibs/ SAM / для академических и неакадемических пользователей после завершения шага регистрации.
SAM запускается как надстройка Excel, а SAM Plot Controller позволяет настраивать e Частота обнаружения ложных данных и дельта, в то время как функция SAM Plot и SAM Output генерирует список значимых генов, дельта-таблицу и оценку размеров выборки
Перестановки рассчитываются на основе количества выборок
Перестановки блоков
- Блоки - это партии микрочипов; например, для восьми выборок, разделенных на две группы (контрольная и затронутая), существует 4! = 24 перестановки для каждого блока, а общее количество перестановок составляет (24) (24) = 576. Рекомендуется минимум 1000 перестановок;

количество перестановок задается пользователем при подстановке правильных значений для набора данных для запуска SAM

Форматы ответов

Типы:

Количественный - с действительным знаком (например, как частота сердечных сокращений)
Один класс - проверяет, отличается ли средняя экспрессия гена от нуля
Два класса - два набора измерений
- Непарный - единицы измерения в двух разных группы; например контрольная и лечебная группы с образцами от разных пациентов
- Парные - одинаковые экспериментальные единицы измеряются в двух группах; например образцы до и после лечения от одних и тех же пациентов
Multiclass - более двух групп, каждая из которых содержит разные экспериментальные единицы; обобщение двухклассного непарного типа
Выживание - данные за время до события (например, смерти или рецидива)
Временной ход - каждая экспериментальная единица измеряется более чем в одной временной точке; экспериментальные блоки делятся на один или два класса
Обнаружение паттернов - явный параметр ответа не указан; пользователь указывает собственный ген (главный компонент) данных экспрессии и рассматривает его как количественный ответ

Алгоритм

SAM вычисляет тестовую статистику для относительной разницы в экспрессии генов на основе анализа перестановок данных экспрессии и вычисляет коэффициент ложного обнаружения. Основные вычисления программы проиллюстрированы ниже.

Константа s o выбрана так, чтобы минимизировать коэффициент вариации d i. r i равно уровням экспрессии (x) гена i в y экспериментальных условиях.

$F alsediscoveryrate (FDR) = M edian (или 90 thpercentile) # offalselycalledgenes N umberofgenescalledsig nificant {\ displaystyle \ mathrm {False \ discovery \ rate \ (FDR) = {\ frac {Median \ (или \ 90 ^ { th} \ percentile) \ of \ \ # \ of \ false \ named \ genes} {Number \ of \ genes \ called \ important}}}}$ ${\ displaystyle \ mathrm {False \ discovery \ rate \ (FDR) = {\ frac {Median \ (или \ 90 ^ { th} \ percentile) \ of \ \ # \ of \ falsel y \ named \ genes} {Число \ генов \ named \ important}}}}$

Изменения складывания (t) указаны для гарантии того, что гены будут вызваны существенное изменение хотя бы на заранее оговоренную сумму. Это означает, что абсолютное значение средних уровней экспрессии гена при каждом из двух условий должно быть больше кратного изменения (t), чтобы называться положительным, и меньше, чем обратное кратное изменение (t), чтобы называться отрицательным.

Алгоритм SAM может быть сформулирован как:

Упорядочить статистику теста в соответствии с величиной
Для каждой перестановки вычислить упорядоченные нулевые (незатронутые) оценки
Постройте упорядоченный тест статистика против ожидаемых нулевых оценок
Назовите каждый ген значимым, если абсолютное значение тестовой статистики для этого гена минус среднее значение тестовой статистики для этого гена больше установленного порога
Оценить ложное коэффициент обнаружения на основе ожидаемых и наблюдаемых значений

Результат

Значимые наборы генов
- Положительный набор генов - более высокая экспрессия большинства генов в наборе генов коррелирует с более высокими значениями фенотипа y
- Отрицательный набор генов - более низкая экспрессия большинства генов в наборе генов коррелирует с более высокими значениями фенотипа y

Характеристики SAM

Данные из Oligo или массивов кДНК, массива SNP, массивов белков и т. Д. может использоваться в SAM
Сопоставляет данные экспрессии с клиническими параметрами
Коррелирует данные экспрессии со временем
Использует перестановку данных для оценки уровня ложного обнаружения для множественного тестирования
Сообщает о локальной частоте ложного обнаружения (FDR для генов, имеющих такой же d i, что и у этого гена) и частоте пропусков
Может работать с заблокированным дизайном, когда лечение применяется в разных пакетах массивов
Может регулировать пороговое значение, определяющее количество гена, называемого значимым

Коррекция ошибок и контроль качества

Контроль качества

Целые массивы могут иметь очевидные недостатки, обнаруживаемые визуальным осмотром, попарными сравнениями к массивам в той же экспериментальной группе или путем анализа деградации РНК. Результаты можно улучшить, полностью исключив эти массивы из анализа.

Коррекция фона

В зависимости от типа массива сигнал, связанный с неспецифическим связыванием флуорофора, может быть вычтен для достижения лучших результатов. Один из подходов заключается в вычитании средней интенсивности сигнала в области между пятнами. Различные инструменты для коррекции фона и дальнейшего анализа доступны от TIGR, Agilent () и (Genowiz).

Точечная фильтрация

Визуальная идентификация локальных артефактов, таких как дефекты печати или стирки, может также предложить удаление отдельных пятен. Это может занять значительное время в зависимости от качества изготовления массива. Кроме того, некоторые процедуры требуют удаления всех пятен со значением экспрессии ниже определенного порога интенсивности.

См. Также

Ссылки

Внешние ссылки

ArrayExplorer - сравнение микрочипов бок о бок чтобы найти тот, который лучше всего соответствует вашим исследовательским потребностям
FARMS - Факторный анализ для надежного суммирования микрочипов, пакет R - программное обеспечение
StatsArray - Online Microarray Analysis Services - программное обеспечение
ArrayMining.net - веб-приложение для онлайн-анализа данных микрочипов - программное обеспечение
FunRich - Выполнение анализа обогащения набора генов - программное обеспечение
Сравнительный анализ транскриптомики в Справочном модуле наук о жизни
Инструкции по загрузке SAM
Основы анализа данных и экспрессии GeneChip® (от Affymetrix)
Duke data_analysis_fundamentals_manual