Взвешенный анализ корреляционной сети

редактировать

Взвешенный анализ корреляционной сети, также известный как взвешенная коэкспрессия генов сетевой анализ (WGCNA), является широко используемым методом интеллектуального анализа данных, особенно для изучения биологических сетей на основе парных корреляций между переменными. Хотя его можно применять к большинству высокомерных наборов данных, он наиболее широко используется в приложениях геномных. Это позволяет определять модули (кластеры), внутримодульные концентраторы и сетевые узлы с учетом членства в модулях, изучать отношения между модулями совместного выражения и сравнивать топологию сети различных сетей (дифференциальный сетевой анализ). WGCNA может использоваться как метод сокращения данных (связанный с наклонным факторным анализом ), как метод кластеризации (нечеткая кластеризация), как функция метод отбора (например, метод скрининга генов), как основу для интеграции дополнительных (геномных) данных (на основе взвешенных корреляций между количественными переменными) и как метод исследования данных. Хотя WGCNA включает в себя традиционные методы исследования данных, ее интуитивно понятный сетевой язык и структура анализа превосходят любые стандартные методы анализа. Поскольку он использует сетевую методологию и хорошо подходит для интеграции дополнительных наборов геномных данных, его можно интерпретировать как системный биологический или системно-генетический метод анализа данных. Выбирая внутримодульные концентраторы в консенсусных модулях, WGCNA также дает начало сетевым методам метаанализа.

Содержание
  • 1 История
  • 2 Сравнение взвешенных и невзвешенных корреляционных сетей
  • 3 Метод
  • 4 Приложения
  • 5 Программный пакет R
  • 6 Ссылки
История

Метод WGCNA был разработан Стивом Хорватом, профессором генетики человека в Медицинской школе Дэвида Геффена в UCLA и биостатистики в UCLA Школе общественного здравоохранения Филдинга и его коллегах в UCLA, и (бывшая) сотрудники лаборатории (в частности, Питер Лангфельдер, Бин Чжан, Цзюнь Донг). Большая часть работы возникла в результате сотрудничества с прикладными исследователями. В частности, сети взвешенной корреляции были разработаны в совместных обсуждениях с исследователями рака Полом Мишелем, Стэнли Ф. Нельсоном и неврологами Дэниелом Х. Гешвиндом, Майклом К. Олдхэмом (согласно признанию раздел в). Существует обширная литература по сетям зависимости, сетям без масштабирования и сетям коэкспрессии.

Сравнение взвешенных и невзвешенных корреляционных сетей

Взвешенная корреляционная сеть может быть интерпретирована как частный случай взвешенная сеть, сеть зависимостей или корреляционная сеть. Сетевой анализ с взвешенной корреляцией может быть привлекательным по следующим причинам:

  • Построение сети (на основе мягкого определения порога коэффициента корреляции ) сохраняет непрерывный характер лежащей в основе корреляционной информации. Например, сети взвешенной корреляции, построенные на основе корреляций между числовыми переменными, не требуют выбора жесткого порога. Дихотомия информации и (жесткое) определение порога могут привести к потере информации.
  • Построение сети дает очень устойчивые результаты в отношении различных вариантов мягкого порога. Напротив, результаты, основанные на невзвешенных сетях, построенных путем определения порогового значения для меры попарной ассоциации, часто сильно зависят от порогового значения.
  • Взвешенные сети корреляции облегчают геометрическую интерпретацию, основанную на угловой интерпретации корреляции, глава 6 в.
  • Полученная сетевая статистика может использоваться для улучшения стандартных методов интеллектуального анализа данных, таких как кластерный анализ, поскольку показатели (несходства) часто можно преобразовать во взвешенные сети; см. главу 6 в.
  • WGCNA предоставляет мощную статистику сохранения модулей, которую можно использовать для количественной оценки того, можно ли найти в другом состоянии. Также статистика сохранения модулей позволяет изучать различия между модульной структурой сетей.
  • Взвешенные сети и сети корреляции часто могут быть аппроксимированы "факторизуемыми" сетями. Такие приближения часто трудно достичь для разреженных невзвешенных сетей. Следовательно, взвешенные (корреляционные) сети допускают скупую параметризацию (с точки зрения модулей и членства в модулях) (главы 2, 6 в) и.
Метод

Во-первых, определяется коэкспрессия гена мера сходства, которая используется для определения сети. Мы обозначаем меру сходства коэкспрессии генов пары генов i и j как s i j {\ displaystyle s_ {ij}}s_ {ij} . Многие исследования совместного выражения используют абсолютное значение корреляции в качестве меры сходства беззнакового совместного выражения,

s i j u n s i g n e d = | c o r (x i, x j) | {\ displaystyle s_ {ij} ^ {unsigned} = | cor (x_ {i}, x_ {j}) |}s _ {{ij}} ^ {{unsigned}} = | cor (x_ {i}, x_ {j}) |

где профили экспрессии генов xi {\ displaystyle x_ {i}}x_ {i} и xj {\ displaystyle x_ {j}}x_ { {j}} состоят из экспрессии генов i и j в нескольких образцах. Однако использование абсолютного значения корреляции может скрыть биологически значимую информацию, поскольку не делается различия между репрессией и активацией генов. Напротив, в подписанных сетях сходство между генами отражает знак корреляции их профилей экспрессии. Для определения подписанной меры коэкспрессии между профилями экспрессии генов xi {\ displaystyle x_ {i}}x_ {i} и xj {\ displaystyle x_ {j}}x_ { {j}} , можно использовать простое преобразование корреляции:

sijsigned = 0,5 + 0,5 cor (xi, xj) {\ displaystyle s_ {ij} ^ {signed} = 0,5 + 0,5cor (x_ {i}, x_ {j})}s _ {{ij}} ^ {{signed}} = 0,5 + 0,5cor (x_ {i}, x_ {j})

В качестве меры без знака sijunsigned {\ displaystyle s_ {ij} ^ {unsigned}}s _ {{ij}} ^ {{unsigned}} сходство со знаком sijsigned {\ displaystyle s_ {ij} ^ {signed} }s _ {{ij}} ^ {{подписано}} принимает значение от 0 до 1. Обратите внимание, что беззнаковое сходство между двумя противоположно выраженными генами (cor (xi, xj) = - 1 {\ displaystyle cor (x_ {i}, x_ {j}) = - 1}cor (x_ {i }, x_ {j}) = - 1 ) равно 1, в то время как он равен 0 для сходства со знаком. Точно так же, в то время как мера совместной экспрессии без знака двух генов с нулевой корреляцией остается нулевой, сходство со знаком равно 0,5.

Затем матрица смежности (сеть), A = [aij] {\ displaystyle A = [a_ {ij}]}A = [a _ {{ij}}] , используется для количественной оценки того, насколько сильно гены связаны друг с другом. A {\ displaystyle A}A определяется пороговым значением матрицы сходства ко-выражений S = [sij] {\ displaystyle S = [s_ {ij}]}S = [s _ {{ij} }] . «Жесткое» пороговое определение (дихотомия) показателя сходства S {\ displaystyle S}S приводит к невзвешенной сети коэкспрессии генов. В частности, невзвешенная сетевая смежность определяется как 1, если sij>τ {\ displaystyle s_ {ij}>\ tau}s_{{ij}}>\ tau в противном случае. пороговое значение и приводит к потере информации о совместном выражении. Непрерывный характер информации о совместном выражении может быть сохранен с помощью мягкого определения порога, что приводит к взвешенной сети. В частности, WGCNA использует следующую степенную функцию для оценки силы их соединения:

aij = (sij) β {\ textstyle a_ {ij} = (s_ {ij}) ^ {\ beta}}{\ textstyle a _ {{ij}} = (s _ {{ij}}) ^ {\ beta}} ,

где степень β {\ displaystyle \ beta}\ beta - параметр мягкого порога. Значения по умолчанию: β = 6 {\ displaystyle \ beta = 6}\ beta = 6 и β = 12 {\ displaystyle \ beta = 12}<69.>используются для беззнаковых и подписанных сетей rks соответственно. В качестве альтернативы β {\ displaystyle \ beta}\ beta можно выбрать с использованием критерия безмасштабной топологии, который сводится к выбору наименьшего значения β {\ displaystyle \ beta}\ beta так, что достигается приблизительная топология без масштабирования.

Поскольку log (aij) = β log (sij) {\ displaystyle log (a_ {ij}) = \ beta log (s_ {ij})}журнал (a _ {{ij }}) = \ beta log (s _ {{ij}}) , взвешенная сетевая смежность линейно связана со сходством ко-выражений в логарифмической шкале. Обратите внимание, что высокая степень β {\ displaystyle \ beta}\ beta преобразует высокие сходства в высокие смежности, в то время как низкие сходства подталкивают к нулю, поскольку эта процедура мягкой пороговой обработки, применяемая к матрице парной корреляции, приводит к взвешенным матрица смежности, последующий анализ называется сетевым анализом взвешенной коэкспрессии генов.

Важным шагом в модульно-ориентированном анализе является объединение генов в сетевые модули с использованием меры сетевой близости. Грубо говоря, пара генов имеет высокую степень близости, если они тесно связаны между собой. По соглашению, максимальная близость между двумя генами равна 1, а минимальная близость равна 0. Обычно WGCNA использует меру топологического перекрытия (TOM) как близость. который также может быть определен для взвешенных сетей. TOM сочетает в себе соседство двух генов и силу связи, которую эти два гена разделяют с другими генами «третьей стороны». TOM - это очень надежный показатель взаимосвязанности (близости) сети. Эта близость используется в качестве входных данных для иерархической кластеризации средней связи. Модули определяются как ветви результирующего дерева кластеров с использованием подхода динамического разделения ветвей. Затем гены внутри данного модуля суммируются с помощью модуля eigengene, который можно рассматривать как лучшее обобщение данных стандартизованной экспрессии модуля. Собственный ген модуля данного модуля определяется как первый главный компонент стандартизованных профилей выражений. Собственные гены определяют надежные биомаркеры и могут использоваться в качестве функций в сложных моделях машинного обучения, таких как байесовские сети. Чтобы найти модули, которые относятся к интересующему клиническому признаку, собственные гены модулей коррелируют с представляющим интерес клиническим признаком, что приводит к измерению значимости собственных генов. Собственные гены могут использоваться в качестве функций в более сложных прогнозных моделях, включая деревья решений и байесовские сети. Можно также построить сети коэкспрессии между собственными генами модулей (сетями собственных генов), то есть сетями, узлы которых являются модулями. Чтобы идентифицировать внутримодульные гены-концентраторы внутри данного модуля, можно использовать два типа мер связности. Первый, обозначаемый как k ME i = cor (xi, ME) {\ displaystyle kME_ {i} = cor (x_ {i}, ME)}kME_ {i} = cor (x_ {i}, ME) , определяется на основе корреляции каждого ген с соответствующим модулем собственным геном. Второй, называемый kIN, определяется как сумма смежностей по отношению к генам модуля. На практике эти две меры эквивалентны. Чтобы проверить, сохраняется ли модуль в другом наборе данных, можно использовать различную сетевую статистику, например Z s u m m a r y {\ displaystyle Zsummary}Zsummary .

Приложения

WGCNA широко используется для анализа данных экспрессии генов (т. Е. Данных транскрипции), например найти внутримодульные хаб-гены. Например, исследование WGCNA показывает, что новые факторы транскрипции связаны с бисфенолом A (BPA) доза-ответ.

Он часто используется в качестве этапа сокращения данных в системных генетических приложениях, где модули представлены "собственные гены модуля", например Собственные гены модулей можно использовать для корреляции модулей с клиническими признаками. Сети собственных генов - это сети коэкспрессии между собственными генами модулей (то есть сетями, узлы которых являются модулями). WGCNA широко используется в нейробиологических приложениях, например и для анализа геномных данных, включая данные микроматрицы, данные одиночной клетки RNA-Seq данные данные метилирования ДНК, данные miRNA, количество пептидов и микробиоту данные (секвенирование гена 16S рРНК). Другие приложения включают данные изображений мозга, например функциональные данные МРТ.

программный пакет R

Программный пакет WGCNA R предоставляет функции для выполнения всех аспектов взвешенного сетевого анализа (конструкция модуля, выбор гена хаба, статистика сохранения модулей, дифференциальный сетевой анализ, сетевая статистика). Пакет WGCNA доступен в Comprehensive R Archive Network (CRAN), стандартном репозитории для дополнительных пакетов R.

Ссылки
Последняя правка сделана 2021-06-20 10:51:08
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте