Структура популяции (генетика)

редактировать

Структура популяции (или стратификация населения ) - это наличие систематических различий в аллели частоты между субпопуляциями в популяции, возможно, из-за различного происхождения, особенно в контексте ассоциативных исследований.

Содержание

1 Причины
2 Исследования ассоциации
3 Геномный контроль
4 Демографические выводы
5 Ссылки

Причины

Основная причина структуры населения не- случайное спаривание между группами: если все особи в популяции спариваются случайным образом, то частоты аллелей между группами должны быть одинаковыми. Структура населения обычно возникает из-за физического разделения на расстояние или препятствия, такие как горы и реки, за которым следует генетический дрейф. Другие причины включают поток генов в результате миграций, узкие места населения и расширение, эффекты основателя и (у людей) культурные факторы.

Исследования ассоциаций

Структура популяции может быть проблемой для ассоциативных исследований, таких как исследования случай-контроль, где ассоциация может быть обнаружена из-за основной структуры популяции, а не из-за ассоциированного заболевания локус. По аналогии можно представить себе сценарий, в котором определенные маленькие бусинки сделаны из определенного типа уникальной пены, и дети, как правило, подавляются этими бусинками; можно было бы ошибочно заключить, что пеноматериал вызывает удушье, хотя на самом деле это небольшой размер бусинок. Кроме того, в исследовании может не быть обнаружен реальный локус, вызывающий заболевание, если этот локус менее распространен в популяции, из которой выбираются пациенты. По этой причине в 1990-х годах было обычным делом использовать семейные данные, где влияние структуры популяции можно было легко контролировать с помощью таких методов, как тест на неравновесие передачи (TDT). Но если структура известна или предполагаемая структура найдена, существует ряд возможных способов реализовать эту структуру в исследованиях ассоциаций и, таким образом, компенсировать любые смещения населения. Большинство современных полногеномных исследований ассоциаций придерживаются точки зрения, что проблема структуры популяции управляема и что логистические преимущества использования несвязанных случаев и средств контроля делают эти исследования предпочтительнее, чем исследования ассоциаций на основе семьи.

Два наиболее широко используемых подхода к этой проблеме включают геномный контроль, который является относительно непараметрическим методом контроля наддува тестовой статистики и методы структурированной ассоциации, которые используют генетическую информацию для оценки и контроля структуры популяции. Анализ главных компонентов показал свою эффективность Алксом Прайсом и его коллегами. Также возможно скорректировать структуру и смешение из-за загадочного родства путем получения матрицы родства и включения ее в линейную смешанную модель.

Геномный контроль

Предположение об однородности популяции в исследованиях ассоциаций, особенно Исследования методом случай-контроль, могут быть легко нарушены и могут привести к ошибкам как типа I, так и типа II. Поэтому важно, чтобы модели, использованные в исследовании, компенсировали структуру населения. Проблема в исследованиях «случай-контроль» состоит в том, что если есть генетическая причастность к заболеванию, то популяция заболевших, скорее всего, будет родственной, чем люди в контрольной популяции. Это означает, что нарушается предположение о независимости наблюдений. Часто это приводит к переоценке значимости ассоциации, но это зависит от того, как была выбрана выборка. Если, по совпадению, частота аллелей выше в субпопуляции случаев, вы обнаружите связь с любым признаком, более распространенным в данной популяции. Этот вид ложной ассоциации увеличивается по мере роста выборки, поэтому проблема должна вызывать особую озабоченность в крупномасштабных исследованиях ассоциаций, когда локусы оказывают только относительно небольшое влияние на признак. Метод, который в некоторых случаях может компенсировать описанные выше проблемы, был разработан Девлином и Родером (1999). В нем используются как частотный, так и байесовский подход (последний подходит при работе с большим количеством генов-кандидатов ).

Частотный способ корректировки структуры населения работает с использованием маркеров, которые не связаны с рассматриваемым признаком, для корректировки любого завышения статистики, вызванного структурой населения. Метод был впервые разработан для бинарных признаков, но с тех пор был обобщен для количественных. Для бинарного метода, который применяется для выявления генетических различий между случайной и контрольной популяциями, Девлин и Родер (1999) используют критерий тренда Армитиджа

Y 2 = N (N (r 1 + 2 r 2) - R (n 1 + 2 n 2)) 2 р (N - R) (N (n 1 + 4 n 2) - (n 1 + 2 n 2) 2) {\ displaystyle Y ^ {2} = {\ frac { N (N (r_ {1} + 2r_ {2}) - R (n_ {1} + 2n_ {2})) ^ {2}} {R (NR) (N (n_ {1} + 4n_ {2})) - (n_ {1} + 2n_ {2}) ^ {2})}}}

Y ^ 2 = \ frac {N (N (r_1 + 2r_2) -R (n_1 + 2n_2)) ^ 2} {R ( NR) (N (n_1 + 4n_2) - (n_1 + 2n_2) ^ 2)}

и $χ 2 {\ displaystyle \ chi ^ {2}}$ $\ chi ^ {2}$ тест для аллельных частот

χ 2 ∼ XA 2 = 2 N (2 N (r 1 + 2 r 2) - R (n 1 + 2 n 2)) 2 4 R (N - R) (2 N (n 1 + 2 n 2) - (n 1 + 2 n 2) 2) {\ displaystyle \ chi ^ {2} \ sim X_ {A} ^ {2} = {\ frac {2N (2N (r_ { 1} + 2r_ {2}) - R (n_ {1} + 2n_ {2})) ^ {2}} {4R (NR) (2N (n_ {1} + 2n_ {2}) - (n_ {1 } + 2n_ {2}) ^ {2})}}}

\ chi ^ 2 \ sim X_A ^ 2 = \ frac {2N (2N (r_1 + 2r_2) - R (n_1 + 2n_2)) ^ 2} {4R (N - R) (2N (n_1 + 2n_2) - (n_1 + 2n_2) ^ 2)}

Аллели	aa	Aa	AA	всего
Случай	r0	r1	r2	R
Контроль	s0	s1	s2	S
всего	n0	n1	n2	N

Если популяция находится в равновесии Харди – Вайнберга, две статистики примерно равны. При нулевой гипотезе об отсутствии стратификации населения тест тренда является асимптотическим распределением $χ 2 {\ displaystyle \ chi ^ {2}}$ $\ chi ^ {2}$ с одной степенью свободы. Идея состоит в том, что статистика завышается на коэффициент $λ {\ displaystyle \ lambda}$ $\ lambda$ , так что $Y 2 ∼ λ χ 1 2 {\ displaystyle Y ^ {2} \ sim \ лямбда \ chi _ {1} ^ {2}}$ $Y^2\sim\lambda\chi_1^2$ где $λ {\ displaystyle \ lambda}$ $\ lambda$ зависит от эффекта стратификации. Вышеупомянутый метод основан на предположении, что коэффициент инфляции $λ {\ displaystyle \ lambda}$ $\ lambda$ является постоянным, что означает, что локусы должны иметь примерно одинаковую частоту мутаций и не должны находиться под разным отбором в две популяции, и степень неравновесия Харди-Вайнберга, измеренная с помощью коэффициента инбридинга Райта F, не должна различаться между разными локусами. Последний из них вызывает наибольшее беспокойство. Если эффект стратификации схож по разным локусам $λ {\ displaystyle \ lambda}$ $\ lambda$ можно оценить по несвязанным маркерам

λ ^ = median ⁡ (Y 1 2, Y 2 2,…, YL 2) 0,456 {\ displaystyle {\ widehat {\ lambda}} = {\ frac {\ operatorname {median} (Y_ {1} ^ {2}, Y_ {2} ^ {2}, \ ldots, Y_ {L} ^ {2})} {0.456}}}

{\ displaystyle {\ widehat {\ lambda}} = {\ frac {\ operatorname {median} (Y_ {1} ^ {2}, Y_ {2} ^ {2}, \ ldots, Y_ {L} ^ {2}) } {0.456}}}

где L - количество несвязанных маркеров. Знаменатель получается из гамма-распределения как надежная оценка $λ {\ displaystyle \ lambda}$ $\ lambda$ . Предлагались и другие методы оценки, например, Райх и Гольдштейн предложили вместо этого использовать среднее значение статистики. Это не единственный способ оценить $λ {\ displaystyle \ lambda}$ $\ lambda$ , но согласно Bacanu et al. это подходящая оценка, даже если некоторые из несвязанных маркеров фактически находятся в неравновесном состоянии с локусом, вызывающим заболевание, или сами связаны с заболеванием. При нулевой гипотезе и при корректировке стратификации с использованием L несвязанных генов $Y 2 {\ displaystyle Y ^ {2}}$ $Y ^ 2$ приблизительно равно $χ 1 2 {\ displaystyle \ chi _ {1 } ^ {2}}$ $\ chi _ {1} ^ {2}$ распределено. С этой поправкой общий коэффициент ошибок типа I должен быть приблизительно равен $α {\ displaystyle \ alpha}$ $\ alpha$ , даже если совокупность стратифицирована. Девлин и Родер (1999) в основном рассматривали ситуацию, когда $α = 0,05 {\ displaystyle \ alpha = 0,05}$ $\ alpha = 0,05$ дает уровень достоверности 95%, а не меньшие p-значения. Marchini et al. (2004) с помощью моделирования демонстрируют, что геномный контроль может привести к антиконсервативному значению p, если это значение очень мало и две популяции (случай и контроль) чрезвычайно различны. Это было особенно проблемой, если количество несвязанных маркеров составляло порядка 50-100. Это может привести к ложным срабатываниям (на этом уровне значимости).

Демографический вывод

Популяционная структура - важный аспект эволюционной и популяционной генетики. Такие события, как миграции и взаимодействия между группами, оставляют генетический отпечаток на популяциях. Смешанные популяции будут иметь фрагменты гаплотипа из их предковых групп, которые со временем постепенно сокращаются из-за рекомбинации. Используя этот факт и сопоставляя общие гаплотипы отдельных людей в наборе генетических данных, исследователи могут отслеживать и датировать происхождение популяции и реконструировать исторические события, такие как взлет и падение империй, работорговля, колониализм и рост населения.

Структура популяции может быть выведена в пределах данных с помощью различных методов, таких как уменьшение размерности и кластерный анализ, или допущение статистической модели для данных и оценка ее параметров с использованием оценки максимального правдоподобия.

Многие статистические методы основываются на простых моделях населения, чтобы сделать выводы об исторических демографических изменениях, таких как наличие узких мест в населении, события смешения или время расхождения населения. Часто эти методы основываются на предположении panmictia, или однородности в наследственной популяции. Неправильная спецификация таких моделей, например, из-за того, что не принимается во внимание наличие структуры в наследственной популяции, может привести к сильно смещенным оценкам параметров. Исследования с использованием моделирования показывают, что историческая структура популяции может даже иметь генетические эффекты, которые легко можно неверно истолковать как исторические изменения в размере популяции или существование событий примеси, даже если таких событий не было.

Ссылки