Методы анализа микроматриц представлены используется при интерпретации данных, полученных в результате экспериментов с ДНК (Анализ генных чипов ), РНК и белков микрочипов, которые позволяют исследователям исследовать состояние экспрессии большого количества генов - в во многих случаях весь геном организма - в одном эксперименте. Такие эксперименты могут генерировать очень большие объемы данных, позволяя исследователям оценить общее состояние клетки или организма. Данные в таких больших объемах трудно - если вообще возможно - анализировать без помощи компьютерных программ.
Анализ данных микроматрицы - последний шаг в чтении и обработке данных, производимых микрочипом. Образцы подвергаются различным процессам, включая очистку и сканирование с помощью микрочипа, который затем производит большой объем данных, требующих обработки с помощью компьютерного программного обеспечения. Он включает в себя несколько отдельных шагов, как показано на изображении ниже. Изменение любого из шагов приведет к изменению результата анализа, поэтому проект MAQC был создан для определения набора стандартных стратегий. Существуют компании, которые используют протоколы MAQC для выполнения полного анализа.
Шаги, необходимые для эксперимента с микрочипамиБольшинство производителей микрочипов, например as Affymetrix и Agilent, вместе со своими продуктами на основе микрочипов предоставляют коммерческое программное обеспечение для анализа данных. Существуют также варианты с открытым исходным кодом, в которых используются различные методы анализа данных микрочипов.
Сравнение двух разных массивов или двух разных образцов, гибридизированных с одним и тем же массивом, обычно включает внесение поправок на систематические ошибки, вызванные различиями в процедурах и эффектами интенсивности красителя. Нормализация красителя для двух цветовых массивов часто достигается с помощью локальной регрессии. LIMMA предоставляет набор инструментов для коррекции фона и масштабирования, а также возможность усреднять повторяющиеся пятна на слайде. Распространенный метод оценки того, насколько хорошо нормализован массив, - это построить график скользящей средней данных. Графики MA могут быть созданы с использованием таких программ и языков, как R, MATLAB и Excel.
Необработанные данные Affy содержат около двадцати зондов для одной и той же РНК-мишени. Половина из них - это «пятна несоответствия», которые не точно соответствуют целевой последовательности. Теоретически они могут измерить количество неспецифического связывания для данной мишени. Устойчивое среднее значение по нескольким массивам (RMA) - это подход к нормализации, который не использует преимущества этих точек несоответствия, но все же должен суммировать идеальные совпадения с помощью медианной полировки. Алгоритм медианной полировки, хотя и надежен, ведет себя по-разному в зависимости от количества проанализированных образцов. Квантильная нормализация, также являющаяся частью RMA, является одним из разумных подходов к нормализации пакета массивов, чтобы сделать дальнейшие сравнения значимыми.
Текущий алгоритм Affymetrix MAS5, в котором используются как датчики идеального совпадения, так и датчики несовпадения, по-прежнему пользуется популярностью и демонстрирует хорошие результаты в тестах лицом к лицу.
Блок-схема, показывающая, как работает алгоритм MAS5 от Agilent. Факторный анализ для надежного суммирования микрочипов (FARMS) - это основанный на модели метод суммирования данных массива на уровне зонда с идеальным совпадением. Он основан на модели факторного анализа, для которой апостериорный метод байесовского максимума оптимизирует параметры модели в предположении гауссовского шума измерения. Согласно эталонному тесту Affycomp, FARMS превзошла все другие методы обобщения в отношении чувствительности и специфичности.Существует множество стратегий для идентификации массивных зондов, которые показывают необычный уровень избыточной экспрессии или недостаточной экспрессии. Самый простой - назвать «значимым» любой зонд, который отличается в среднем как минимум в два раза между группами лечения. Более сложные подходы часто связаны с t-тестами или другими механизмами, которые учитывают как размер эффекта, так и изменчивость. Любопытно, что p-значения, связанные с конкретными генами, плохо воспроизводятся между повторными экспериментами, и списки, созданные прямым кратным изменением, работают намного лучше. Это чрезвычайно важное наблюдение, поскольку цель проведения экспериментов связана с предсказанием общего поведения. Группа MAQC рекомендует использовать оценку кратности изменения плюс нестрогую отсечку p-значения, дополнительно указывая на то, что изменения в фоновой коррекции и процессе масштабирования оказывают лишь минимальное влияние на порядок ранжирования различий в кратности изменения, но существенно влияют на p-значения.
Кластеризация - это метод интеллектуального анализа данных, используемый для группировки генов, имеющих сходные паттерны экспрессии. Иерархическая кластеризация и кластеризация k-средних являются широко используемыми методами в анализе микрочипов.
Иерархическая кластеризация - это статистический метод поиска относительно однородных кластеров. Иерархическая кластеризация состоит из двух отдельных фаз. Первоначально вычисляется матрица расстояний , содержащая все попарные расстояния между генами. Корреляция Пирсона и Корреляция Спирмена часто используются в качестве оценок несходства, но другие методы, такие как Манхэттенское расстояние или Евклидово расстояние, также могут быть применяется. Учитывая количество доступных мер расстояния и их влияние на результаты алгоритма кластеризации, в нескольких исследованиях сравнивались и оценивались различные меры расстояния для кластеризации данных микрочипа с учетом их внутренних свойств и устойчивости к шуму. После вычисления исходной матрицы расстояний алгоритм иерархической кластеризации либо (A) итеративно объединяет два ближайших кластера, начиная с отдельных точек данных (агломерационный, восходящий подход, который довольно часто используется), либо (B) итеративно разделяет кластеры. начиная с комплектации (спорный, нисходящий подход). После каждого шага новая матрица расстояний между вновь сформированными кластерами и другими кластерами пересчитывается. К методам иерархического кластерного анализа относятся:
Различные исследования уже есть эмпирически показано, что алгоритм кластеризации с единичным сцеплением дает плохие результаты при использовании для данных микрочипов экспрессии генов, и поэтому его следует избегать.
Кластеризация K-средних является алгоритмом группировки генов или выборок на основе шаблона в группы K. Группировка выполняется путем минимизации суммы квадратов расстояний между данными и соответствующим кластером центроид. Таким образом, цель кластеризации K-средних - классифицировать данные на основе аналогичное выражение. Алгоритм кластеризации K-средних и некоторые из его вариантов (включая k-medoids ) показали хорошие результаты для данных экспрессии генов (по крайней мере, лучше, чем методы иерархической кластеризации). Эмпирические сравнения k-означает, k-medoids, иерархические методы и различные меры расстояния можно найти в литературе.
Коммерческие системы для анализа генных сетей, такие как Ingenuity и Pathway studio, создают визуальные эффекты. представления дифференциально экспрессируемых генов на основе современной научной литературы. Некоммерческие инструменты, такие как FunRich, GenMAPP и Moksiskaan, также помогают в организации и визуализации данных генной сети, полученных в результате одного или нескольких экспериментов с микрочипами. Широкий спектр инструментов анализа микрочипов доступен через Bioconductor, написанный на языке программирования R. Часто цитируемый модуль SAM и другие инструменты микроматрицы доступны в Стэнфордском университете. Другой набор можно получить в Гарварде и Массачусетском технологическом институте.
Пример вывода инструмента FunRich. На изображении показан результат сравнения 4 разных генов.Для помощи в идентификации были также разработаны специализированные программные инструменты для статистического анализа, позволяющие определить степень избыточной или недостаточной экспрессии гена в эксперименте с микрочипом относительно эталонного состояния. гены или наборы генов, связанные с конкретными фенотипами. Один из таких методов анализа, известный как анализ обогащения генов (GSEA), использует статистику в стиле Колмогорова-Смирнова для идентификации групп генов, которые регулируются вместе. Этот сторонний статистический пакет предлагает пользователю информацию об интересующих генах или наборах генов, включая ссылки на записи в базах данных, таких как NCBI GenBank, и тщательно подобранные базы данных, такие как Biocarta и Gene Ontology. Инструмент анализа обогащения белковых комплексов (COMPLEAT) обеспечивает аналогичный анализ обогащения на уровне белковых комплексов. Инструмент может идентифицировать динамическую регуляцию белкового комплекса в различных условиях или временных точках. Связанная система PAINT и SCOPE выполняет статистический анализ промоторных областей генов, выявляя избыточное и недостаточное представление ранее идентифицированных элементов ответа фактора транскрипции. Другой инструмент статистического анализа - это статистика сумм рангов для коллекций наборов генов (RssGsc), которая использует функции распределения вероятностей суммы рангов для поиска наборов генов, объясняющих экспериментальные данные. Еще один подход - контекстный метаанализ, то есть выяснение того, как кластер генов реагирует на различные экспериментальные контексты. Genevestigator - это общедоступный инструмент для выполнения контекстного метаанализа по таким контекстам, как анатомические части, стадии развития и реакция на заболевания, химические вещества, стрессы и новообразования.
Анализ значимости микроматриц (SAM) - это статистический метод, разработанный в 2001 году Вирджинией Тушер, Робертом Тибширани и Гилбертом Чу для определения, являются ли изменения в экспрессии гена статистически значимыми. С появлением ДНК-микрочипов теперь можно измерить экспрессию тысяч генов в одном эксперименте по гибридизации. Сгенерировано много данных, и метод сортировки того, что важно, а что нет, очень важен. SAM распространяется Стэнфордским университетом в R-пакете.
SAM идентифицирует статистически значимые гены путем выполнения специфичных для генов t-тестов и вычисляет статистику d j для каждого гена j, который измеряет силу взаимосвязи между экспрессией гена и переменной ответа. В этом анализе используется непараметрическая статистика, поскольку данные могут не соответствовать нормальному распределению. Переменная ответа описывает и группирует данные на основе экспериментальных условий. В этом методе повторяющиеся перестановки данных используются для определения того, является ли экспрессия какого-либо гена значимой для ответа. Использование анализа на основе перестановок учитывает корреляции в генах и позволяет избежать параметрических предположений о распределении отдельных генов. Это преимущество перед другими методами (например, ANOVA и Бонферрони ), которые предполагают одинаковую дисперсию и / или независимость генов.
количество перестановок задается пользователем при подстановке правильных значений для набора данных для запуска SAM
Типы:
SAM вычисляет тестовую статистику для относительной разницы в экспрессии генов на основе анализа перестановок данных экспрессии и вычисляет коэффициент ложного обнаружения. Основные вычисления программы проиллюстрированы ниже.
Константа s o выбрана так, чтобы минимизировать коэффициент вариации d i. r i равно уровням экспрессии (x) гена i в y экспериментальных условиях.
Изменения складывания (t) указаны для гарантии того, что гены будут вызваны существенное изменение хотя бы на заранее оговоренную сумму. Это означает, что абсолютное значение средних уровней экспрессии гена при каждом из двух условий должно быть больше кратного изменения (t), чтобы называться положительным, и меньше, чем обратное кратное изменение (t), чтобы называться отрицательным.
Алгоритм SAM может быть сформулирован как:
Целые массивы могут иметь очевидные недостатки, обнаруживаемые визуальным осмотром, попарными сравнениями к массивам в той же экспериментальной группе или путем анализа деградации РНК. Результаты можно улучшить, полностью исключив эти массивы из анализа.
В зависимости от типа массива сигнал, связанный с неспецифическим связыванием флуорофора, может быть вычтен для достижения лучших результатов. Один из подходов заключается в вычитании средней интенсивности сигнала в области между пятнами. Различные инструменты для коррекции фона и дальнейшего анализа доступны от TIGR, Agilent () и (Genowiz).
Визуальная идентификация локальных артефактов, таких как дефекты печати или стирки, может также предложить удаление отдельных пятен. Это может занять значительное время в зависимости от качества изготовления массива. Кроме того, некоторые процедуры требуют удаления всех пятен со значением экспрессии ниже определенного порога интенсивности.