Структура популяции (или стратификация населения ) - это наличие систематических различий в аллели частоты между субпопуляциями в популяции, возможно, из-за различного происхождения, особенно в контексте ассоциативных исследований.
Основная причина структуры населения не- случайное спаривание между группами: если все особи в популяции спариваются случайным образом, то частоты аллелей между группами должны быть одинаковыми. Структура населения обычно возникает из-за физического разделения на расстояние или препятствия, такие как горы и реки, за которым следует генетический дрейф. Другие причины включают поток генов в результате миграций, узкие места населения и расширение, эффекты основателя и (у людей) культурные факторы.
Структура популяции может быть проблемой для ассоциативных исследований, таких как исследования случай-контроль, где ассоциация может быть обнаружена из-за основной структуры популяции, а не из-за ассоциированного заболевания локус. По аналогии можно представить себе сценарий, в котором определенные маленькие бусинки сделаны из определенного типа уникальной пены, и дети, как правило, подавляются этими бусинками; можно было бы ошибочно заключить, что пеноматериал вызывает удушье, хотя на самом деле это небольшой размер бусинок. Кроме того, в исследовании может не быть обнаружен реальный локус, вызывающий заболевание, если этот локус менее распространен в популяции, из которой выбираются пациенты. По этой причине в 1990-х годах было обычным делом использовать семейные данные, где влияние структуры популяции можно было легко контролировать с помощью таких методов, как тест на неравновесие передачи (TDT). Но если структура известна или предполагаемая структура найдена, существует ряд возможных способов реализовать эту структуру в исследованиях ассоциаций и, таким образом, компенсировать любые смещения населения. Большинство современных полногеномных исследований ассоциаций придерживаются точки зрения, что проблема структуры популяции управляема и что логистические преимущества использования несвязанных случаев и средств контроля делают эти исследования предпочтительнее, чем исследования ассоциаций на основе семьи.
Два наиболее широко используемых подхода к этой проблеме включают геномный контроль, который является относительно непараметрическим методом контроля наддува тестовой статистики и методы структурированной ассоциации, которые используют генетическую информацию для оценки и контроля структуры популяции. Анализ главных компонентов показал свою эффективность Алксом Прайсом и его коллегами. Также возможно скорректировать структуру и смешение из-за загадочного родства путем получения матрицы родства и включения ее в линейную смешанную модель.
Предположение об однородности популяции в исследованиях ассоциаций, особенно Исследования методом случай-контроль, могут быть легко нарушены и могут привести к ошибкам как типа I, так и типа II. Поэтому важно, чтобы модели, использованные в исследовании, компенсировали структуру населения. Проблема в исследованиях «случай-контроль» состоит в том, что если есть генетическая причастность к заболеванию, то популяция заболевших, скорее всего, будет родственной, чем люди в контрольной популяции. Это означает, что нарушается предположение о независимости наблюдений. Часто это приводит к переоценке значимости ассоциации, но это зависит от того, как была выбрана выборка. Если, по совпадению, частота аллелей выше в субпопуляции случаев, вы обнаружите связь с любым признаком, более распространенным в данной популяции. Этот вид ложной ассоциации увеличивается по мере роста выборки, поэтому проблема должна вызывать особую озабоченность в крупномасштабных исследованиях ассоциаций, когда локусы оказывают только относительно небольшое влияние на признак. Метод, который в некоторых случаях может компенсировать описанные выше проблемы, был разработан Девлином и Родером (1999). В нем используются как частотный, так и байесовский подход (последний подходит при работе с большим количеством генов-кандидатов ).
Частотный способ корректировки структуры населения работает с использованием маркеров, которые не связаны с рассматриваемым признаком, для корректировки любого завышения статистики, вызванного структурой населения. Метод был впервые разработан для бинарных признаков, но с тех пор был обобщен для количественных. Для бинарного метода, который применяется для выявления генетических различий между случайной и контрольной популяциями, Девлин и Родер (1999) используют критерий тренда Армитиджа
и тест для аллельных частот
Аллели | aa | Aa | AA | всего |
---|---|---|---|---|
Случай | r0 | r1 | r2 | R |
Контроль | s0 | s1 | s2 | S |
всего | n0 | n1 | n2 | N |
Если популяция находится в равновесии Харди – Вайнберга, две статистики примерно равны. При нулевой гипотезе об отсутствии стратификации населения тест тренда является асимптотическим распределением с одной степенью свободы. Идея состоит в том, что статистика завышается на коэффициент , так что где зависит от эффекта стратификации. Вышеупомянутый метод основан на предположении, что коэффициент инфляции является постоянным, что означает, что локусы должны иметь примерно одинаковую частоту мутаций и не должны находиться под разным отбором в две популяции, и степень неравновесия Харди-Вайнберга, измеренная с помощью коэффициента инбридинга Райта F, не должна различаться между разными локусами. Последний из них вызывает наибольшее беспокойство. Если эффект стратификации схож по разным локусам можно оценить по несвязанным маркерам
где L - количество несвязанных маркеров. Знаменатель получается из гамма-распределения как надежная оценка . Предлагались и другие методы оценки, например, Райх и Гольдштейн предложили вместо этого использовать среднее значение статистики. Это не единственный способ оценить , но согласно Bacanu et al. это подходящая оценка, даже если некоторые из несвязанных маркеров фактически находятся в неравновесном состоянии с локусом, вызывающим заболевание, или сами связаны с заболеванием. При нулевой гипотезе и при корректировке стратификации с использованием L несвязанных генов приблизительно равно распределено. С этой поправкой общий коэффициент ошибок типа I должен быть приблизительно равен , даже если совокупность стратифицирована. Девлин и Родер (1999) в основном рассматривали ситуацию, когда дает уровень достоверности 95%, а не меньшие p-значения. Marchini et al. (2004) с помощью моделирования демонстрируют, что геномный контроль может привести к антиконсервативному значению p, если это значение очень мало и две популяции (случай и контроль) чрезвычайно различны. Это было особенно проблемой, если количество несвязанных маркеров составляло порядка 50-100. Это может привести к ложным срабатываниям (на этом уровне значимости).
Популяционная структура - важный аспект эволюционной и популяционной генетики. Такие события, как миграции и взаимодействия между группами, оставляют генетический отпечаток на популяциях. Смешанные популяции будут иметь фрагменты гаплотипа из их предковых групп, которые со временем постепенно сокращаются из-за рекомбинации. Используя этот факт и сопоставляя общие гаплотипы отдельных людей в наборе генетических данных, исследователи могут отслеживать и датировать происхождение популяции и реконструировать исторические события, такие как взлет и падение империй, работорговля, колониализм и рост населения.
Структура популяции может быть выведена в пределах данных с помощью различных методов, таких как уменьшение размерности и кластерный анализ, или допущение статистической модели для данных и оценка ее параметров с использованием оценки максимального правдоподобия.
Многие статистические методы основываются на простых моделях населения, чтобы сделать выводы об исторических демографических изменениях, таких как наличие узких мест в населении, события смешения или время расхождения населения. Часто эти методы основываются на предположении panmictia, или однородности в наследственной популяции. Неправильная спецификация таких моделей, например, из-за того, что не принимается во внимание наличие структуры в наследственной популяции, может привести к сильно смещенным оценкам параметров. Исследования с использованием моделирования показывают, что историческая структура популяции может даже иметь генетические эффекты, которые легко можно неверно истолковать как исторические изменения в размере популяции или существование событий примеси, даже если таких событий не было.