Полногеномное исследование ассоциации

редактировать
Исследование для изучения полногеномного набора генетических вариантов у разных людей, чтобы увидеть, связан ли какой-либо вариант с признаком.

В генетике, исследование ассоциации на уровне всего генома (исследование GWA или GWAS ), также известное как исследование ассоциации всего генома (исследование WGA или WGAS ) - это обсервационное исследование полногеномного набора генетические варианты у разных людей, чтобы увидеть, связан ли какой-либо вариант с признаком. GWAS обычно сосредоточены на ассоциациях между однонуклеотидными полиморфизмами (SNP) и такими признаками, как основные заболевания человека, но в равной степени могут применяться к любым другим генетическим вариантам и любым другим организмам.

Манхэттенский график GWAS Иллюстрация Манхэттенского графика, изображающая несколько сильно связанных локусов риска. Каждая точка представляет SNP, ось X показывает геномное местоположение, а ось Y показывает уровень ассоциации. Этот пример взят из исследования GWA, посвященного микроциркуляции, поэтому вершины указывают на генетические варианты, которые чаще встречаются у людей с сужениями мелких кровеносных сосудов.

Применительно к данным на людях исследования GWA сравнивают ДНК участников, имеющих различные фенотипы в отношении определенного признака или заболевания. Этими участниками могут быть люди с заболеванием (случаи) и похожие люди без заболевания (контроль), или они могут быть людьми с разными фенотипами по определенному признаку, например, кровяному давлению. Этот подход известен как «сначала фенотип», в котором участники классифицируются первыми по их клиническим проявлениям, в отличие от «первый генотип». Каждый человек дает образец ДНК, из которого считываются миллионы генетических вариантов с использованием массивов SNP. Если один тип варианта (один аллель ) чаще встречается у людей с этим заболеванием, считается, что этот вариант связан с заболеванием. Затем считается, что ассоциированные SNP маркируют область генома человека, которая может влиять на риск заболевания.

Исследования GWA исследуют весь геном, в отличие от методов, которые специально тестируют небольшое количество заранее определенных генетических областей. Следовательно, GWAS - это подход, не основанный на кандидатах, в отличие от генно-специфических исследований, проводимых кандидатами. Исследования GWA идентифицируют SNP и другие варианты ДНК, связанные с заболеванием, но они не могут сами по себе указать, какие гены являются причинными.

Первый успешный GWAS, опубликованный в 2002 году, изучал инфаркт миокарда. Этот дизайн исследования был затем реализован в знаковом исследовании GWA 2005, в котором изучались пациенты с возрастной дегенерацией желтого пятна, и были обнаружены два SNP со значительно измененной частотой аллелей по сравнению со здоровыми людьми из контрольной группы. По состоянию на 2017 год более 3000 исследований GWA на людях изучили более 1800 заболеваний и признаков, и были обнаружены тысячи ассоциаций SNP. За исключением редких генетических заболеваний, эти ассоциации очень слабые, но, хотя они не могут объяснить большую часть риска, они дают представление о генах и путях, которые могут быть важны.

Содержание
  • 1 Предпосылки
  • 2 Методы
  • 3 Результаты
  • 4 Клинические применения
    • 4.1 Фибрилляция предсердий
    • 4.2 Шизофрения
  • 5 Сельскохозяйственные применения
    • 5.1 Стадии роста растений и компоненты урожая
    • 5.2 Растительные патогены
  • 6 Ограничения
  • 7 Точное картирование
  • 8 См. также
  • 9 Ссылки
  • 10 Внешние ссылки
Предпосылки
Исследования GWA обычно выявляют общие варианты с небольшими размерами эффекта (внизу справа).

Любые два генома человека различаются миллионами разных способов. Существуют небольшие вариации отдельных нуклеотидов геномов (SNP ), а также множество более крупных вариаций, таких как делеции, вставки и количество копий. вариации. Любой из них может вызвать изменения в индивидуальных чертах или фенотипе, которые могут быть чем угодно, от риска заболевания до физических свойств, таких как рост. Примерно в 2000 году, до введения исследований GWA, основным методом исследования были исследования наследования генетической связи в семьях. Этот подход оказался очень полезным в отношении нарушений единственного гена. Однако для общих и сложных заболеваний результаты исследований генетической связи оказалось трудно воспроизвести. Предложенной альтернативой исследованиям сцепления было исследование генетической ассоциации. Этот тип исследования спрашивает, встречается ли аллель генетического варианта чаще, чем ожидалось, у лиц с интересующим фенотипом (например, с изучаемым заболеванием). Ранние расчеты статистической мощности показали, что этот подход может быть лучше, чем исследования сцепления при обнаружении слабых генетических эффектов.

В дополнение к концептуальной структуре исследования GWA позволили несколько дополнительных факторов. Одним из них было появление биобанков, которые представляют собой хранилища генетического материала человека, что значительно снизило стоимость и сложность сбора достаточного количества биологических образцов для изучения. Другой был Международный проект HapMap, который с 2003 года идентифицировал большинство общих SNP, опрошенных в исследовании GWA. Структура гаплоблока , идентифицированная проектом HapMap, также позволила сфокусироваться на подмножестве SNP, которые описывали бы большую часть вариации. Также важной предпосылкой была разработка методов генотипирования всех этих SNP с использованием массивов генотипирования.

Методы
Пример расчета, иллюстрирующий методологию исследования GWA «случай-контроль». Количество аллелей каждого измеренного SNP оценивается - в данном случае с помощью критерия хи-квадрат - для выявления вариантов , связанных с рассматриваемым признаком. Цифры в этом примере взяты из исследования ишемической болезни сердца (ИБС) 2007 года, которое показало, что люди с G-аллелем SNP1 (rs1333049) были чрезмерно представлены среди пациентов с ИБС.

наиболее распространенным подходом исследований GWA является установка случай-контроль, которая сравнивает две большие группы людей, одну здоровую контрольную группу и одну группу случаев, затронутых заболеванием. Все люди в каждой группе генотипированы по большинству общеизвестных SNP. Точное количество SNP зависит от технологии генотипирования, но обычно составляет один миллион или больше. Затем для каждого из этих SNP исследуется, значительно ли изменяется частота аллеля между случаем и контрольной группой. В таких установках основной единицей для сообщения о величине эффекта является отношение шансов. Отношение шансов - это отношение двух шансов, которые в контексте исследований GWA представляют собой шансы случая для людей, имеющих определенный аллель, и шансы случая для людей, у которых нет того же аллеля.

В качестве примера предположим, что существует два аллеля, T и C. Число лиц в группе случаев, имеющих аллель T, представлено буквой «A», а количество лиц в контрольной группе, имеющей аллель T обозначается буквой «B». Точно так же количество индивидуумов в группе случаев, имеющих аллель C, представлено как «X», а количество индивидуумов в контрольной группе, имеющей аллель C, представлено как «Y». В этом случае отношение шансов для аллеля T равно A: B (что означает «от A к B» в стандартной терминологии шансов), разделенное на X: Y, что в математической записи просто (A / B) / (X / Y).

Когда частота аллелей в группе случаев намного выше, чем в контрольной группе, отношение шансов выше 1, и наоборот для более низкой частоты аллелей. Кроме того, P-значение значимости отношения шансов обычно вычисляется с использованием простого критерия хи-квадрат. Поиск отношений шансов, которые значительно отличаются от 1, является целью исследования GWA, поскольку оно показывает, что SNP связан с заболеванием. Поскольку тестируется так много вариантов, стандартной практикой является требование, чтобы значение p было ниже 5 × 10, чтобы вариант считался значимым.

Есть несколько вариантов этого подхода к контролю над случаями. Распространенной альтернативой исследованиям GWA методом случай-контроль является анализ количественных фенотипических данных, например рост или концентрации биомаркера или даже экспрессия гена. Аналогичным образом можно использовать альтернативную статистику, предназначенную для моделей доминирование или рецессивного пенетрантности. Расчеты обычно выполняются с использованием программного обеспечения для биоинформатики, такого как SNPTEST и PLINK, которые также включают поддержку многих из этих альтернативных статистических данных. GWAS фокусируется на влиянии отдельных SNP. Однако также возможно, что сложные взаимодействия между двумя или более SNP, epistasis, могут вносить вклад в сложные заболевания. Из-за потенциально экспоненциального числа взаимодействий обнаружение статистически значимых взаимодействий в данных GWAS является сложной задачей как с точки зрения вычислений, так и с точки зрения статистики. Эта задача решалась в существующих публикациях, в которых используются алгоритмы, вдохновленные интеллектуальным анализом данных. Более того, исследователи пытаются объединить данные GWA с другими биологическими данными, такими как сеть белок-белковых взаимодействий, чтобы получить более информативные результаты.

Ключевым шагом в большинстве исследований GWA является вменение генотипов в SNP, не включенных в чип генотипа, использованный в исследовании. Этот процесс значительно увеличивает количество SNP, которые могут быть проверены на ассоциацию, увеличивает мощность исследования и облегчает метаанализ GWAS в различных когортах. Вменение генотипа осуществляется статистическими методами, которые объединяют данные GWAS вместе с эталонной панелью гаплотипов. Эти методы используют преимущества совместного использования гаплотипов между людьми на коротких отрезках последовательности для определения аллелей. Существующие программные пакеты для вменения генотипов включают IMPUTE2, Minimac, Beagle и MaCH.

Помимо вычисления ассоциации, обычно учитываются любые переменные, которые потенциально могут искажать результаты. Пол и возраст являются типичными примерами смешанных переменных. Кроме того, также известно, что многие генетические вариации связаны с географическими и историческими популяциями, в которых впервые возникли мутации. Из-за этой связи исследования должны учитывать географическое и этническое происхождение участников, контролируя то, что называется стратификацией населения. Если они этого не сделают, эти исследования могут дать ложноположительные результаты.

После того, как отношения шансов и P-значения были рассчитаны для всех SNP, общим подходом является создание Манхэттенский сюжет. В контексте исследований GWA этот график показывает отрицательный логарифм значения P как функцию геномного местоположения. Таким образом, SNP с наиболее значительной ассоциацией выделяются на графике, обычно в виде стопки точек из-за структуры гаплоблока. Важно отметить, что порог значимости P-value исправлен для множественных тестов проблем. Точный порог варьируется в зависимости от исследования, но обычный порог составляет 5 × 10, чтобы быть значимым перед сотнями тысяч и миллионами протестированных SNP. Исследования GWA обычно проводят первый анализ в когорте открытий, за которым следует проверка наиболее значимых SNP в когорте независимых проверок.

Результаты
График региональной ассоциации, показывающий отдельные SNP в области рецептора LDL и их связь с уровнями LDL-холестерина. Этот тип графика похож на график Манхэттена в ведущем разделе, но для более ограниченного участка генома. Структура гаплоблока визуализируется с помощью цветовой шкалы, а уровень ассоциации задается левой осью Y. Точка, представляющая SNP rs73015013 (вверху посередине), имеет высокое положение по оси Y, потому что этот SNP объясняет некоторые вариации в уровне холестерина ЛПНП.

Были предприняты попытки создать исчерпывающие каталоги идентифицированных SNP. из исследований GWA. По данным на 2009 г., SNP, ассоциированные с заболеваниями, исчисляются тысячами.

Первое исследование GWA, проведенное в 2005 году, сравнивало 96 пациентов с возрастной дегенерацией желтого пятна (ARMD) с 50 здоровыми контроль. Он идентифицировал два SNP со значительно измененной частотой аллелей между двумя группами. Эти SNP были расположены в гене, кодирующем фактор комплемента H, что было неожиданным открытием в исследовании ARMD. Результаты этих первых исследований GWA впоследствии побудили к дальнейшим функциональным исследованиям в направлении терапевтического воздействия на систему комплемента при ARMD. Другой знаменательной публикацией в истории исследований GWA стало исследование Wellcome Trust Case Control Consortium (WTCCC), крупнейшее исследование GWA, когда-либо проводившееся на момент его публикации в 2007 году. WTCCC включал 14 000 случаев из семи распространенных заболевания (~ 2000 человек для каждого из ишемической болезни сердца, диабета 1 типа, диабета 2 типа, ревматоидного артрита, Болезнь Крона, биполярное расстройство и гипертония ) и 3000 общих контролей. Это исследование было успешным в раскрытии многих новых генов болезней, лежащих в основе этих заболеваний.

Со времени этих первых эпохальных исследований GWA наблюдались две общие тенденции. Один был направлен на все большие и большие размеры выборки. В 2018 году несколько полногеномных ассоциативных исследований достигли общего размера выборки более 1 миллиона участников, включая 1,1 миллиона в полногеномном исследовании уровня образования и исследовании бессонницы содержащая 1,3 миллиона особей. Причина в стремлении надежно выявлять SNP риска, которые имеют меньшее отношение шансов и более низкую частоту аллелей. Другая тенденция заключалась в использовании более узко определенных фенотипов, таких как липиды крови, проинсулин или аналогичные биомаркеры. Их называют промежуточными фенотипами, и их анализ может иметь значение для функциональных исследований биомаркеров. Вариант GWAS использует участников, которые являются родственниками первой степени родства людей с заболеванием. Этот тип исследования был назван исследованием общегеномных ассоциаций по доверенности (GWAX).

Центральным пунктом дискуссий по исследованиям GWA было то, что большинство вариаций SNP, обнаруженных в исследованиях GWA, связаны только с небольшими повышенный риск заболевания и имеют лишь небольшую прогностическую ценность. Среднее отношение шансов составляет 1,33 на SNP риска, и лишь некоторые из них показывают отношение шансов выше 3,0. Эти величины считаются небольшими, поскольку они не объясняют большую часть наследственных вариаций. Эта наследственная вариация оценивается по результатам исследований наследственности, основанных на монозиготных близнецах. Например, известно, что 80-90% различий в росте могут быть объяснены наследственными различиями, но исследования GWA учитывают только меньшую часть этой вариации.

Клинические применения

Проблема Для будущего успешного исследования GWA необходимо применить результаты таким образом, чтобы ускорить разработку лекарств и диагностических средств, включая лучшую интеграцию генетических исследований в процесс разработки лекарств и акцент на роли генетических вариаций в поддержании здоровья как проект для разработки новых препаратов и диагностики. В нескольких исследованиях изучается использование маркеров риска-SNP как средства прямого повышения точности прогноза. Некоторые обнаружили, что точность прогноза улучшается, в то время как другие сообщают только о незначительных преимуществах этого использования. Как правило, проблема с этим прямым подходом заключается в небольшой величине наблюдаемых эффектов. Небольшой эффект в конечном итоге приводит к плохому разделению случаев и контролей и, таким образом, лишь небольшому повышению точности прогноза. Таким образом, альтернативным применением является возможность исследований GWA для выяснения патофизиологии.

. Один из таких успехов связан с идентификацией генетического варианта, связанного с ответом на лечение вирусом гепатита C. Для гепатита С генотипа 1, получавшего пегилированный интерферон-альфа-2a или пегилированный интерферон-альфа-2b в сочетании с рибавирином, исследование GWA показало, что SNP близки к Ген IL28B человека, кодирующий интерферон лямбда 3, ассоциирован со значительными различиями в ответе на лечение. Более поздний отчет продемонстрировал, что те же генетические варианты также связаны с естественным очищением от вируса гепатита С генотипа 1. Эти важные открытия способствовали развитию персонализированной медицины и позволили врачам настраивать медицинские решения на основе генотипа пациента.

Цель выяснения патофизиологии также привела к повышенному интересу к связи между SNP-рисками и экспрессия близлежащих генов, так называемые исследования локусов количественных признаков (eQTL) экспрессии. Причина в том, что исследования GWAS идентифицируют SNP-факторы риска, но не гены риска, и спецификация генов на один шаг ближе к действующим целевым лекарствам. В результате основные исследования GWA к 2011 году обычно включали обширный анализ eQTL. Одним из самых сильных эффектов eQTL, наблюдаемых для SNP риска, идентифицированного с помощью GWA, является локус SORT1. Функциональные последующие исследования этого локуса с использованием малых интерферирующих РНК и мышей с нокаутом гена пролили свет на метаболизм липопротеинов низкой плотности, которые имеют важные клинические последствия для сердечно-сосудистых заболеваний.

фибрилляции предсердий

Например, метаанализ, проведенный в 2018 году, выявил открытие 70 новых локусов, связанных с фибрилляцией предсердий. Были идентифицированы различные варианты, связанные с кодирующими генами фактора транскрипции, такие как TBX3 и TBX5, NKX2-5 o PITX2, которые участвуют в регуляции сердечной проводимости, в модуляции ионного канала и развитии сердца. Также были выявлены новые гены, участвующие в тахикардии (CASQ2 ) или связанные с изменением коммуникации клеток сердечной мышцы (PKP2 ).

Шизофрения

Хотя есть некоторые исследования с использованием вычислительной модели High-Precision Protein Interaction Prediction (HiPPIP), которые обнаружили 504 новых белок-белковых взаимодействия (PPI), связанных с генами, связанными с шизофренией, доказательства, подтверждающие генетическую основу шизофрении, на самом деле противоречивы и могут страдать от некоторых ограничений этого метода исследования.

Применение в сельском хозяйстве

Стадии роста растений и компоненты урожая

Исследования GWA выступают в качестве важного инструмента в селекции растений. Обладая большим объемом данных генотипирования и фенотипирования, GWAS являются мощными инструментами для анализа сложных способов наследования признаков, которые являются важными компонентами урожая, таких как количество зерен на колос, вес каждого зерна и растения. структура. В исследовании GWAS яровой пшеницы GWAS обнаружил e выявил сильную корреляцию урожайности зерна с данными по выращиванию, биомассой и количеством зерен на колос.

Патогены растений

Возникновение патогенов растений представляет серьезную угрозу здоровью растений и биоразнообразию. В связи с этим идентификация диких типов, обладающих естественной устойчивостью к определенным патогенам, может иметь жизненно важное значение. Кроме того, нам необходимо предсказать, какие аллели связаны с устойчивостью. Исследования GWA - мощный инструмент для выявления взаимосвязи определенных вариантов и устойчивости к патогенам растений, что полезно для создания новых устойчивых к патогенам сортов.

Ограничения

Исследования GWA имеют несколько проблем и ограничений, которые могут быть устранены путем надлежащего контроля качества и настройки исследования. Отсутствие четко определенных групп случаев и контроля, недостаточный размер выборки, контроль для множественного тестирования и контроль для стратификации населения являются общими проблемами. В частности, статистическая проблема множественного тестирования, в которой было отмечено, что «подход GWA может быть проблематичным, потому что огромное количество выполненных статистических тестов представляет беспрецедентный потенциал для ложноположительных результатов». Было указано, что игнорирование этих исправимых проблем способствует общему пониманию проблем с методологией GWA. Помимо таких легко решаемых проблем, всплыли еще несколько тонких, но важных проблем. Примером этого является широко известное исследование GWA, в котором изучались люди с очень большой продолжительностью жизни для выявления SNP, связанных с долголетием. Публикация подверглась тщательной проверке из-за несоответствия между типом массива генотипов в случае и контрольной группой, что привело к ложному выделению нескольких SNP как связанных с долголетием. Впоследствии исследование было отозвано, но позже была опубликована измененная рукопись.

Помимо этих предотвратимых проблем, исследования GWA вызвали более фундаментальную критику, в основном из-за их предположения, что общие генетические вариации играет большую роль в объяснении наследственной изменчивости распространенного заболевания. Действительно, было подсчитано, что для большинства состояний наследуемость SNP, связанная с общими SNP, является <0.05. This aspect of GWA studies has attracted the criticism that, although it could not have been known prospectively, GWA studies were ultimately not worth the expenditure. GWA studies also face criticism that the broad variation of individual responses or compensatory mechanisms to a disease state cancel out and mask potential genes or causal variants associated with the disease. Additionally, GWA studies identify candidate risk variants for the population from which their analysis is performed, and with most GWA studies stemming from European databases, there is a lack of translation of the identified risk variants to other non-European populations. Alternative strategies suggested involve анализом сцепления. В последнее время стремительно падающая цена полного секвенирования генома также предоставила реалистичную альтернативу исследованиям GWA на основе массива генотипирования. Можно обсудить, если использование этого нового метода все еще будет называться исследованием GWA, но высокопроизводительное секвенирование может устранить некоторые недостатки, связанные с отсутствием секвенирования GWA.

Хорошо- отображение

Массивы генотипирования, разработанные для GWAS, основаны на неравновесном сцеплении для обеспечения охвата всего генома путем генотипирования подмножества вариантов. Из-за этого указанные связанные варианты вряд ли будут фактическими причинными вариантами. Ассоциированные области могут содержать сотни вариантов, охватывающих большие области и включающих множество разных генов, что затрудняет биологическую интерпретацию локусов GWAS. Точное отображение - это процесс уточнения этих списков связанных вариантов до надежного набора, который, скорее всего, будет включать причинный вариант.

Для точного картирования требуется, чтобы все варианты в ассоциированной области были генотипированы или вменены (плотный охват), очень строгий контроль качества, приводящий к высококачественным генотипам, и большие размеры выборки, достаточные для выделения высококоррелированных сигналов. Существует несколько различных методов для выполнения точного картирования, и все методы дают апостериорную вероятность того, что вариант в этом локусе является причинным. Поскольку требования часто трудно удовлетворить, все еще существует ограниченное количество примеров более широкого применения этих методов.

См. Также
  • icon Биологический портал
Ссылки
Внешние ссылки
Викискладе есть средства массовой информации, связанные с общегеномными исследованиями ассоциации.

.

Последняя правка сделана 2021-05-21 03:10:41
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте