Структура популяции (генетика)

редактировать

Структура популяции (или стратификация населения ) - это наличие систематических различий в аллели частоты между субпопуляциями в популяции, возможно, из-за различного происхождения, особенно в контексте ассоциативных исследований.

Содержание
  • 1 Причины
  • 2 Исследования ассоциации
  • 3 Геномный контроль
  • 4 Демографические выводы
  • 5 Ссылки
Причины

Основная причина структуры населения не- случайное спаривание между группами: если все особи в популяции спариваются случайным образом, то частоты аллелей между группами должны быть одинаковыми. Структура населения обычно возникает из-за физического разделения на расстояние или препятствия, такие как горы и реки, за которым следует генетический дрейф. Другие причины включают поток генов в результате миграций, узкие места населения и расширение, эффекты основателя и (у людей) культурные факторы.

Исследования ассоциаций

Структура популяции может быть проблемой для ассоциативных исследований, таких как исследования случай-контроль, где ассоциация может быть обнаружена из-за основной структуры популяции, а не из-за ассоциированного заболевания локус. По аналогии можно представить себе сценарий, в котором определенные маленькие бусинки сделаны из определенного типа уникальной пены, и дети, как правило, подавляются этими бусинками; можно было бы ошибочно заключить, что пеноматериал вызывает удушье, хотя на самом деле это небольшой размер бусинок. Кроме того, в исследовании может не быть обнаружен реальный локус, вызывающий заболевание, если этот локус менее распространен в популяции, из которой выбираются пациенты. По этой причине в 1990-х годах было обычным делом использовать семейные данные, где влияние структуры популяции можно было легко контролировать с помощью таких методов, как тест на неравновесие передачи (TDT). Но если структура известна или предполагаемая структура найдена, существует ряд возможных способов реализовать эту структуру в исследованиях ассоциаций и, таким образом, компенсировать любые смещения населения. Большинство современных полногеномных исследований ассоциаций придерживаются точки зрения, что проблема структуры популяции управляема и что логистические преимущества использования несвязанных случаев и средств контроля делают эти исследования предпочтительнее, чем исследования ассоциаций на основе семьи.

Два наиболее широко используемых подхода к этой проблеме включают геномный контроль, который является относительно непараметрическим методом контроля наддува тестовой статистики и методы структурированной ассоциации, которые используют генетическую информацию для оценки и контроля структуры популяции. Анализ главных компонентов показал свою эффективность Алксом Прайсом и его коллегами. Также возможно скорректировать структуру и смешение из-за загадочного родства путем получения матрицы родства и включения ее в линейную смешанную модель.

Геномный контроль

Предположение об однородности популяции в исследованиях ассоциаций, особенно Исследования методом случай-контроль, могут быть легко нарушены и могут привести к ошибкам как типа I, так и типа II. Поэтому важно, чтобы модели, использованные в исследовании, компенсировали структуру населения. Проблема в исследованиях «случай-контроль» состоит в том, что если есть генетическая причастность к заболеванию, то популяция заболевших, скорее всего, будет родственной, чем люди в контрольной популяции. Это означает, что нарушается предположение о независимости наблюдений. Часто это приводит к переоценке значимости ассоциации, но это зависит от того, как была выбрана выборка. Если, по совпадению, частота аллелей выше в субпопуляции случаев, вы обнаружите связь с любым признаком, более распространенным в данной популяции. Этот вид ложной ассоциации увеличивается по мере роста выборки, поэтому проблема должна вызывать особую озабоченность в крупномасштабных исследованиях ассоциаций, когда локусы оказывают только относительно небольшое влияние на признак. Метод, который в некоторых случаях может компенсировать описанные выше проблемы, был разработан Девлином и Родером (1999). В нем используются как частотный, так и байесовский подход (последний подходит при работе с большим количеством генов-кандидатов ).

Частотный способ корректировки структуры населения работает с использованием маркеров, которые не связаны с рассматриваемым признаком, для корректировки любого завышения статистики, вызванного структурой населения. Метод был впервые разработан для бинарных признаков, но с тех пор был обобщен для количественных. Для бинарного метода, который применяется для выявления генетических различий между случайной и контрольной популяциями, Девлин и Родер (1999) используют критерий тренда Армитиджа

Y 2 = N (N (r 1 + 2 r 2) - R (n 1 + 2 n 2)) 2 р (N - R) (N (n 1 + 4 n 2) - (n 1 + 2 n 2) 2) {\ displaystyle Y ^ {2} = {\ frac { N (N (r_ {1} + 2r_ {2}) - R (n_ {1} + 2n_ {2})) ^ {2}} {R (NR) (N (n_ {1} + 4n_ {2})) - (n_ {1} + 2n_ {2}) ^ {2})}}}Y ^ 2 = \ frac {N (N (r_1 + 2r_2) -R (n_1 + 2n_2)) ^ 2} {R ( NR) (N (n_1 + 4n_2) - (n_1 + 2n_2) ^ 2)}

и χ 2 {\ displaystyle \ chi ^ {2}}\ chi ^ {2} тест для аллельных частот

χ 2 ∼ XA 2 = 2 N (2 N (r 1 + 2 r 2) - R (n 1 + 2 n 2)) 2 4 R (N - R) (2 N (n 1 + 2 n 2) - (n 1 + 2 n 2) 2) {\ displaystyle \ chi ^ {2} \ sim X_ {A} ^ {2} = {\ frac {2N (2N (r_ { 1} + 2r_ {2}) - R (n_ {1} + 2n_ {2})) ^ {2}} {4R (NR) (2N (n_ {1} + 2n_ {2}) - (n_ {1 } + 2n_ {2}) ^ {2})}}}\ chi ^ 2 \ sim X_A ^ 2 = \ frac {2N (2N (r_1 + 2r_2) - R (n_1 + 2n_2)) ^ 2} {4R (N - R) (2N (n_1 + 2n_2) - (n_1 + 2n_2) ^ 2)}
АллелиaaAaAAвсего
Случайr0r1r2R
Контрольs0s1s2S
всегоn0n1n2N

Если популяция находится в равновесии Харди – Вайнберга, две статистики примерно равны. При нулевой гипотезе об отсутствии стратификации населения тест тренда является асимптотическим распределением χ 2 {\ displaystyle \ chi ^ {2}}\ chi ^ {2} с одной степенью свободы. Идея состоит в том, что статистика завышается на коэффициент λ {\ displaystyle \ lambda}\ lambda , так что Y 2 ∼ λ χ 1 2 {\ displaystyle Y ^ {2} \ sim \ лямбда \ chi _ {1} ^ {2}}Y^2\sim\lambda\chi_1^2где λ {\ displaystyle \ lambda}\ lambda зависит от эффекта стратификации. Вышеупомянутый метод основан на предположении, что коэффициент инфляции λ {\ displaystyle \ lambda}\ lambda является постоянным, что означает, что локусы должны иметь примерно одинаковую частоту мутаций и не должны находиться под разным отбором в две популяции, и степень неравновесия Харди-Вайнберга, измеренная с помощью коэффициента инбридинга Райта F, не должна различаться между разными локусами. Последний из них вызывает наибольшее беспокойство. Если эффект стратификации схож по разным локусам λ {\ displaystyle \ lambda}\ lambda можно оценить по несвязанным маркерам

λ ^ = median ⁡ (Y 1 2, Y 2 2,…, YL 2) 0,456 {\ displaystyle {\ widehat {\ lambda}} = {\ frac {\ operatorname {median} (Y_ {1} ^ {2}, Y_ {2} ^ {2}, \ ldots, Y_ {L} ^ {2})} {0.456}}}{\ displaystyle {\ widehat {\ lambda}} = {\ frac {\ operatorname {median} (Y_ {1} ^ {2}, Y_ {2} ^ {2}, \ ldots, Y_ {L} ^ {2}) } {0.456}}}

где L - количество несвязанных маркеров. Знаменатель получается из гамма-распределения как надежная оценка λ {\ displaystyle \ lambda}\ lambda . Предлагались и другие методы оценки, например, Райх и Гольдштейн предложили вместо этого использовать среднее значение статистики. Это не единственный способ оценить λ {\ displaystyle \ lambda}\ lambda , но согласно Bacanu et al. это подходящая оценка, даже если некоторые из несвязанных маркеров фактически находятся в неравновесном состоянии с локусом, вызывающим заболевание, или сами связаны с заболеванием. При нулевой гипотезе и при корректировке стратификации с использованием L несвязанных генов Y 2 {\ displaystyle Y ^ {2}}Y ^ 2 приблизительно равно χ 1 2 {\ displaystyle \ chi _ {1 } ^ {2}}\ chi _ {1} ^ {2} распределено. С этой поправкой общий коэффициент ошибок типа I должен быть приблизительно равен α {\ displaystyle \ alpha}\ alpha , даже если совокупность стратифицирована. Девлин и Родер (1999) в основном рассматривали ситуацию, когда α = 0,05 {\ displaystyle \ alpha = 0,05}\ alpha = 0,05 дает уровень достоверности 95%, а не меньшие p-значения. Marchini et al. (2004) с помощью моделирования демонстрируют, что геномный контроль может привести к антиконсервативному значению p, если это значение очень мало и две популяции (случай и контроль) чрезвычайно различны. Это было особенно проблемой, если количество несвязанных маркеров составляло порядка 50-100. Это может привести к ложным срабатываниям (на этом уровне значимости).

Демографический вывод

Популяционная структура - важный аспект эволюционной и популяционной генетики. Такие события, как миграции и взаимодействия между группами, оставляют генетический отпечаток на популяциях. Смешанные популяции будут иметь фрагменты гаплотипа из их предковых групп, которые со временем постепенно сокращаются из-за рекомбинации. Используя этот факт и сопоставляя общие гаплотипы отдельных людей в наборе генетических данных, исследователи могут отслеживать и датировать происхождение популяции и реконструировать исторические события, такие как взлет и падение империй, работорговля, колониализм и рост населения.

Структура популяции может быть выведена в пределах данных с помощью различных методов, таких как уменьшение размерности и кластерный анализ, или допущение статистической модели для данных и оценка ее параметров с использованием оценки максимального правдоподобия.

Многие статистические методы основываются на простых моделях населения, чтобы сделать выводы об исторических демографических изменениях, таких как наличие узких мест в населении, события смешения или время расхождения населения. Часто эти методы основываются на предположении panmictia, или однородности в наследственной популяции. Неправильная спецификация таких моделей, например, из-за того, что не принимается во внимание наличие структуры в наследственной популяции, может привести к сильно смещенным оценкам параметров. Исследования с использованием моделирования показывают, что историческая структура популяции может даже иметь генетические эффекты, которые легко можно неверно истолковать как исторические изменения в размере популяции или существование событий примеси, даже если таких событий не было.

Ссылки
Последняя правка сделана 2021-06-02 11:26:22
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте