В многомерной количественной генетике, генетическая корреляция (обозначается или ) - это доля дисперсии, которую разделяют две характеристики из-за генетические причины, корреляция между генетическим влиянием на признак и генетическим влиянием на другой признак, оценивая степень плейотропии или причинного перекрытия. Генетическая корреляция 0 означает, что генетические воздействия на один признак не зависят от другого, тогда как корреляция 1 подразумевает, что все генетические влияния на два признака идентичны. Двумерная генетическая корреляция может быть обобщена для вывода генетических скрытых переменных факторов по>2 признакам с использованием факторного анализа. Модели генетической корреляции были введены в поведенческую генетику в 1970–1980-х годах.
Генетические корреляции применяются для подтверждения результатов общегеномного исследования ассоциации (GWAS), селекции, прогнозирования признаков и выявления этиологии признаков и заболеваний.
Их можно оценить, используя данные на индивидуальном уровне из исследований близнецов и молекулярной генетики, или даже с помощью сводной статистики GWAS. Было обнаружено, что генетические корреляции являются обычным явлением в нечеловеческой генетике и в целом подобны их соответствующим фенотипическим корреляциям, а также широко обнаруживаются в человеческих чертах, получивших название «феномен».
Это открытие широко распространенной плейотропии имеет последствия для искусственного отбора в сельском хозяйстве, интерпретация фенотипических корреляций, социальное неравенство, попытки использовать менделевскую рандомизацию в причинно-следственных выводах, понимание биологического происхождения сложных признаков и дизайн GWAS.
Следует противопоставить генетическую корреляцию корреляции окружающей среды между средой, влияющей на две характеристики (например, если плохое питание в семье вызвало как снижение IQ, так и рост); генетическая корреляция между двумя признаками может способствовать наблюдаемой (фенотипической ) корреляции между двумя признаками, но генетические корреляции также могут быть противоположными наблюдаемым фенотипическим корреляциям, если корреляция среды достаточно сильна в другом направлении, возможно, из-за компромиссы или специализация. Наблюдение, что генетические корреляции обычно отражают фенотипические корреляции, известно как «Гипотеза Чеверуда », было подтверждено на животных и людях и показало, что они имеют схожие размеры; например, в UK Biobank из 118 непрерывных человеческих черт только 29% их взаимосвязей имеют противоположные знаки, а более поздний анализ 17 качественных черт UKBB показал, что корреляция близка к единице.
Генетические корреляции не то же самое, что наследуемость, поскольку речь идет о перекрытии между два набора влияний, а не их абсолютная величина; два признака могут быть оба в высокой степени наследуемыми, но не иметь генетической корреляции или иметь небольшую наследуемость и быть полностью коррелированными (пока наследуемость не равна нулю).
Например, рассмотрим две черты - смуглую кожу и черные волосы. Эти два признака могут по отдельности иметь очень высокую наследуемость (большая часть вариаций признака на уровне популяции из-за генетических различий или, проще говоря, генетика вносит значительный вклад в эти два признака), однако они могут все еще иметь очень низкий генетический уровень. корреляция, если, например, эти два признака контролировались разными, неперекрывающимися, несвязанными генетическими локусами.
Генетическая корреляция между двумя признаками будет иметь тенденцию вызывать фенотипические корреляции - например, генетическая корреляция между интеллектом и SES или образованием и семейной SES подразумевает, что интеллект / SES также будут коррелировать фенотипически. Фенотипическая корреляция будет ограничена степенью генетической корреляции, а также наследуемостью каждого признака. Ожидаемая фенотипическая корреляция - это двумерная наследуемость », и ее можно рассчитать как квадратный корень из наследуемости, умноженный на генетическую корреляцию. (Используя пример Пломина, для двух признаков с наследуемостью 0,60 и 0,23, и фенотипической корреляцией r = 0,45 двумерная наследуемость будет быть , поэтому наблюдаемая фенотипическая корреляция 0,28 / 0,45 = 62% из-за генетики.)
Генетические корреляции могут возникать из-за:
Генетические корреляции полезны с научной точки зрения, потому что генетические корреляции могут быть проанализированы с течением времени в пределах индивидуума продольно (например, интеллект остается стабильным на протяжении всей жизни из-за одних и тех же генетических влияний - детство генетически коррелирует со старостью), или между исследованиями или популяциями, или этнические группы / расы или разные диагнозы, что позволяет выяснить, влияют ли разные гены на признак на протяжении всей жизни (как правило, они не влияют), влияют ли разные гены на признак в разных популяциях из-за разной местной среды, есть ли неоднородность заболевания по время, место или пол (особенно в психиатрических диагнозах, есть неуверенность, совпадают ли «аутизм» или «шизофрения» в одной стране с другими, или же со временем / местом изменились диагностические категории, что привело к разным уровням систематической ошибки установления ), и в какой степени такие черты, как аутоиммунные или психические расстройства или когнитивное функционирование, значимо группируются из-за общей биологической основы и генетической архитектуры (например, чтение и математическая инвалидность генетически коррелируют в соответствии с гипотезой универсальных генов, и эти генетические корреляции объясняют наблюдаемые фенотипические корреляции или «сопутствующие заболевания»; IQ и конкретные показатели когнитивной деятельности, такие как вербальный, пространственный и задачи памяти, время реакции, долговременная память, исполнительная функция и т. Д. все они показывают высокие генетические корреляции, как и нейроанатомические измерения, и корреляции могут увеличиваться с возрастом, что влияет на этиологию и природу интеллекта). Это может быть важным ограничением для концептуализации двух признаков: черт, которые кажутся разными фенотипически, но которые имеют общую генетическую основу, требуют объяснения того, как эти гены могут влиять на оба признака.
Генетические корреляции могут использоваться в GWAS, используя полигенные оценки или совпадения по всему геному для одного (часто более легко измерить) признак для увеличения априорной вероятности вариантов для второго признака; например, поскольку интеллект и годы образования сильно генетически коррелированы, GWAS для образования по своей сути также будет GWAS для интеллекта, а также будет в состоянии предсказать дисперсию интеллекта, а наиболее сильные кандидаты SNP могут быть использованы для увеличения статистическая мощность меньшего GWAS, комбинированный анализ скрытого признака, проведенный, когда каждый измеренный генетически коррелированный признак помогает уменьшить ошибку измерения и значительно увеличивает мощность GWAS (например, Krapohl et al. 2017, используя эластичную сеть и множественные полигенные оценки, улучшая прогнозирование интеллекта с 3,6% дисперсии до 4,8%; Hill et al. 2017b использует MTAG для объединения 3-х граммовых характеристик образования, дохода семьи и оценки когнитивного теста, чтобы найти 107 совпадений и двойников предсказательная сила интеллекта), или можно было бы провести GWAS для нескольких признаков совместно.
Генетические корреляции также могут количественно оценить вклад корреляций <1 across datasets which might create a false "отсутствующей наследуемости ", оценивая степень nt, по отношению к которому различные методы измерения, наследственные влияния или окружающая среда создают лишь частично перекрывающиеся наборы соответствующих генетических вариантов.
У голых собак несовершенные зубы; у длинношерстных и жесткошерстных животных, как утверждается, могут быть длинные или много рогов; у голубей с оперенными лапами кожа между пальцами ног; у голубей с короткими клювами лапы маленькие, а у голубей с длинными клювами - большие. Следовательно, если человек будет продолжать выбирать и тем самым увеличивать какую-либо особенность, он почти наверняка непреднамеренно изменит другие части структуры из-за таинственных законов корреляции.
— Чарльз Дарвин, Происхождение видов, 1859Генетические корреляции также полезны в прикладных контекстах, таких как растение / селекция животных, позволяя заменять более легко измеряемые, но сильно генетически коррелированные характеристики (особенно в случае сцепленных с полом или бинарных признаков в рамках модели порога ответственности, где различия в фенотипе наблюдаются редко, но другой высококоррелированный показатель, возможно, эндофенотип, доступен для всех людей), компенсируя условия, отличные от условий, в которых проводилось разведение, делая более точные прогнозы племенной ценности с использованием многомерного уравнения селекционера по сравнению с прогнозами, основанными на одномерном уравнении селекционера, использующем только для каждого признака heri и предполагая независимость признаков и избегая неожиданных последствий, принимая во внимание, что искусственный отбор для / против признака X также увеличит / уменьшит все признаки, которые положительно / отрицательно коррелируют с X. Пределы отбора, установленные взаимная корреляция признаков и возможность изменения генетических корреляций в течение долгосрочных программ разведения приводят к дилемме Холдейна, ограничивающей интенсивность отбора и, таким образом, прогресс.
Селекционные эксперименты по генетически коррелированным признакам могут измерить степень, в которой коррелированные признаки по своей природе связаны с развитием, а реакция ограничена и которые могут быть диссоциированы. Некоторые черты, такие как размер глазных пятен на бабочке Bicyclus anynana, могут быть отделены при разведении, но другие пары, такие как цвет глазных пятен, сопротивлялись усилиям.
Учитывая генетическую ковариационную матрицу, генетическая корреляция вычисляется посредством стандартизации этого, т. Е. Путем преобразования ковариационной матрицы в корреляционную матрицу. Как правило, если является матрицей генетической ковариации и , тогда матрица корреляции будет . Для данной генетической ковариации между двумя признаками, один с генетической дисперсией и другой с генетической дисперсией , генетическая корреляция вычисляется так же, как и коэффициент корреляции .
Для генетических корреляций требуется генетически информативный образец. Их можно оценить в селекционных экспериментах по двум признакам с известной наследуемостью и выбору одного признака для измерения изменения другого признака (что позволяет сделать вывод о генетической корреляции), в исследованиях семьи / усыновления / близнецов (проанализировано с использованием SEM или анализ крайностей ДеФриза – Фулкера ), молекулярная оценка родства, такая как GCTA, методы, использующие полигенные оценки, такие как HDL (High-Definition Likelihood), регрессия оценки LD, BOLT-REML, CPBayes или HESS, сравнение совпадений SNP по всему геному в GWAS (как свободная нижняя граница) и фенотипические корреляции популяций по крайней мере с некоторыми родственными особями.
То же, что и с оценкой наследуемости SNP. и генетическая корреляция, лучшее вычислительное масштабирование и возможность оценивать, используя только установленную сводную статистику ассоциации, являются особым преимуществом для регрессии оценок HDL и LD по сравнению с конкурирующими методами. В сочетании с растущей доступностью сводной статистики GWAS или полигенных оценок из наборов данных, таких как UK Biobank, такие методы сводного уровня привели к взрывному росту исследований генетической корреляции с 2015 года.
Эти методы связаны с регрессией Хасемана – Элстона и регрессией PCGC. Такие методы, как правило, охватывают весь геном, но также можно оценить генетические корреляции для конкретных вариантов или участков генома.
Один из способов рассмотреть это - использовать признак X у близнеца 1 для прогнозирования признака Y у близнеца 2 для монозиготные и дизиготные близнецы (т.е. использование IQ близнеца 1 для прогнозирования объема мозга близнеца 2); если эта взаимная корреляция больше для более генетически похожих монозиготных близнецов, чем для дизиготных близнецов, сходство указывает на то, что признаки не являются генетически независимыми и существует некоторая общая генетика, влияющая как на IQ, так и на объем мозга. (Статистические возможности также можно повысить, используя братьев и сестер.)
На генетические корреляции влияют методологические проблемы; недооценка наследственности, например, из-за ассортативного спаривания, приведет к переоценке продольной генетической корреляции, а умеренные уровни ошибочных диагнозов могут создать псевдокорреляции.
Поскольку на них влияет наследственность обоих признаков, генетические корреляции имеют низкую статистическую мощность, особенно при наличии ошибок измерения, снижающих наследственность, потому что «оценки генетических корреляций обычно подвержены довольно большим ошибкам выборки и поэтому редко бывают очень точными»: стандартная ошибка оценки равно . (Большие генетические корреляции и наследственность будут оценены более точно.) Однако включение генетических корреляций в анализ плейотропного признака может повысить эффективность по той же причине, по которой многомерные регрессии более эффективны, чем отдельные одномерные регрессии.
Преимущество двойных методов заключается в том, что их можно использовать без подробных биологических данных, с генетическими корреляциями человека, рассчитанными еще в 1970-х годах, и генетическими корреляциями между животными и растениями, рассчитанными в 1930-х годах, и для их эффективности требуется размер выборки в сотни единиц, но они имеют недостаток, заключающийся в том, что они делают предположения, которые подвергались критике, и в случае редких признаков, таких как нервная анорексия, может быть трудно найти достаточно близнецов с диагнозом, чтобы провести значимые сравнения между близнецами, и их можно оценить только при наличии доступа к близнецу данные; Молекулярно-генетические методы, такие как регрессия по шкале GCTA или LD, имеют то преимущество, что не требуют определенной степени родства и поэтому могут легко изучать редкие признаки, используя схемы случай-контроль, что также снижает количество предположений, на которые они полагаются, но эти методы не могли применяться до недавнего времени, требуют больших размеров выборки в тысячи или сотни тысяч (для получения точных оценок наследуемости SNP см. формулу стандартной ошибки), могут потребоваться генетические данные на индивидуальном уровне (в случае GCTA, но не Регрессия оценки LD).
Более конкретно, если два признака, скажем рост и вес, имеют следующую аддитивную матрицу генетической ковариации:
Рост | Вес | |
Рост | 36 | 36 |
Вес | 36 | 117 |
Тогда генетическая корреляция будет 0,55, как видно из стандартной матрицы ниже:
Рост | Вес | |
Высота | 1 | |
Вес | .55 | 1 |
На практике моделирование структурными уравнениями приложения, такие как Mx или OpenMx (и ранее что исторически LISREL ) используются для вычисления как генетической ковариационной матрицы, так и ее стандартизированной формы. В R cov2cor () стандартизирует матрицу.
Как правило, в опубликованных отчетах представлены компоненты генетической дисперсии, которые были стандартизированы как доля от общей дисперсии (например, в модели ACE двойного исследования, стандартизированной как пропорция V-total = A + C + E). В этом случае метрика для вычисления генетической ковариации (дисперсия в матрице генетической ковариации) теряется (из-за процесса стандартизации), поэтому вы не можете легко оценить генетическую корреляцию двух признаков из таких опубликованных моделей. Многовариантные модели (такие как разложение Холецкого ), однако, позволят зрителю увидеть общие генетические эффекты (в отличие от генетической корреляции), следуя правилам пути. Поэтому важно указывать нестандартные коэффициенты траектории в публикациях.