Граф причинно-следственных связей

редактировать

В статистике, эконометрике, эпидемиологии, генетике и смежных дисциплинах графы причинно-следственных связей (также известные как диаграммы путей, причинно-следственные байесовские сети или DAG) - это вероятностные графические модели, используемые для кодирования предположений о процессе генерации данных. Их также можно рассматривать как схему алгоритма, с помощью которого Природа присваивает значения переменным в интересующей области.

Причинно-следственные диаграммы могут использоваться для коммуникации и для вывода. Как устройства связи, графики обеспечивают формальное и прозрачное представление причинных допущений, которые исследователи могут пожелать передать и защитить. В качестве инструментов вывода графики позволяют исследователям оценить величину эффекта на основе неэкспериментальных данных, получить проверяемые последствия закодированных предположений, проверить внешнюю валидность и управлять отсутствующими данными и ошибкой выбора.

Причинно-следственные графы впервые были использованы генетиком Сьюэлом Райт под рубрикой «путевые диаграммы». Позже они были приняты социологами и, в меньшей степени, экономистами. Эти модели изначально были ограничены линейными уравнениями с фиксированными параметрами. Современные разработки расширили графические модели до непараметрического анализа и, таким образом, достигли универсальности и гибкости, которые изменили причинный анализ в компьютерных науках, эпидемиологии и социальных науках.

Содержание

1 Конструкция и терминология
2 Фундаментальные основы инструменты
3 Пример
4 Ссылки

Конструкция и терминология

Граф причинно-следственных связей можно построить следующим образом. Каждая переменная в модели имеет соответствующую вершину или узел, и стрелка рисуется от переменной X к переменной Y всякий раз, когда считается, что Y реагирует на изменения в X, когда все другие переменные остаются постоянными. Переменные, связанные с Y с помощью прямых стрелок, называются родительскими для Y или «непосредственными причинами Y» и обозначаются Pa (Y).

Причинно-следственные модели часто включают «условия ошибки» или «пропущенные факторы», которые представляют все неизмеряемые факторы, которые влияют на переменную Y, когда Pa (Y) остается постоянным. В большинстве случаев ошибки исключаются из графика. Однако, если автор графа подозревает, что условия ошибок любых двух переменных являются зависимыми (например, две переменные имеют ненаблюдаемую или скрытую общую причину), то между ними рисуется двунаправленная дуга. Таким образом, наличие скрытых переменных принимается во внимание посредством корреляций, которые они вызывают между ошибочными членами, представленными двунаправленными дугами.

Фундаментальные инструменты

Фундаментальным инструментом графического анализа является d-разделение, которое позволяет исследователям путем проверки определить, подразумевает ли причинная структура наличие двух наборов переменных независимы при третьем наборе. В рекурсивных моделях без коррелированных условий ошибок (иногда называемых марковскими) эти условные независимости представляют все проверяемые следствия модели.

Пример

Предположим, мы хотим оценить влияние посещения элитного колледжа на будущие доходы. Простая регрессия заработка на рейтинг колледжа не даст объективной оценки целевого эффекта, потому что элитные колледжи очень избирательны, и студенты, посещающие их, скорее всего, будут иметь квалификацию для высокооплачиваемой работы до поступления в школу. Предполагая, что причинно-следственные связи являются линейными, эти базовые знания могут быть выражены в следующей спецификации модели структурных уравнений (SEM).

Модель 1

Q 1 = U 1 C = a ⋅ Q 1 + U 2 Q 2 = c ⋅ C + d ⋅ Q 1 + U 3 S = b ⋅ C + e Q 2 + U 4, {\ Displaystyle {\ begin {align} Q_ {1} = U_ {1} \\ C = a \ cdot Q_ {1} + U_ {2} \\ Q_ {2} = c \ cdot C + d \ cdot Q_ {1} + U_ {3} \\ S = b \ cdot C + e \ cdot Q_ {2} + U_ {4}, \ end {align}}}

{\ begin {align} Q_ {1} = U_ {1} \\ C = a \ cdot Q_ {1} + U_ {2} \\ Q_ {2} = c \ cdot C + d \ cdot Q_ {1} + U_ {3} \\ S = b \ cdot C + e \ cdot Q_ {2} + U_ {4}, \ end {align}}

где $Q 1 {\ displaystyle Q_ {1}}$ $Q_ {1}$ представляет квалификацию человека до колледжа, $Q 2 {\ displaystyle Q_ {2}}$ $Q_ {2}$ представляет квалификацию после колледжа, $C {\ displaystyle C}$ $C$ содержит атрибуты, представляющие качество обучения в колледже, и $S {\ displaystyle S}$ $S$ заработную плату человека.

Рис. 1. Неидентифицированная модель со скрытыми переменными (

Q 1 {\ displaystyle Q_ {1}}

Q_ {1}

Q 2 {\ displaystyle Q_ {2}}

Q_ {2}

) показан явно

Рисунок 2: Неидентифицированная модель с обобщенными скрытыми переменными

Рисунок 1 - это причинно-следственный график, который представляет эту спецификацию модели. Каждая переменная в модели имеет соответствующий узел или вершину в графе. Кроме того, для каждого уравнения стрелки нарисованы от независимых переменных к зависимым переменным. Эти стрелки отражают направление причинно-следственной связи. В некоторых случаях мы можем обозначить стрелку соответствующим структурным коэффициентом, как показано на рисунке 1.

Если $Q 1 {\ displaystyle Q_ {1}}$ $Q_ {1}$ и $Q 2 {\ displaystyle Q_ {2}}$ $Q_ {2}$ - ненаблюдаемые или скрытые переменные, их влияние на $C {\ displaystyle C}$ $C$ и $S {\ displaystyle S}$ $S$ можно отнести к их ошибочным условиям. Удалив их, мы получим следующую спецификацию модели:

Модель 2

C = UCS = β C + US {\ displaystyle {\ begin {align} C = U_ {C} \\ S = \ beta C + U_ {S} \ end {align}}}

{\ begin {выравнивается} C = U_ {C} \\ S = \ beta C + U_ {S} \ end {выравнивается}}

Исходная информация, указанная в Модели 1, подразумевает, что член ошибки $S {\ displaystyle S}$ $S$ , $US {\ displaystyle U_ {S}}$ $U_ {S}$ , соотносится с термином ошибки C, $UC {\ displaystyle U_ {C}}$ $U_ {C}$ . В результате мы добавляем двунаправленную дугу между S и C, как показано на рисунке 2.

Рисунок 3: Идентифицированная модель со скрытыми переменными (

Q 1 {\ displaystyle Q_ {1}}

Q_ {1}

Q 2 {\ displaystyle Q_ {2}}

Q_ {2}

) показан явно

Рисунок 4. Идентифицированная модель с обобщенными скрытыми переменными

Начиная с $US {\ displaystyle U_ {S} }$ $U_ {S}$ коррелирует с $UC {\ displaystyle U_ {C}}$ $U_ {C}$ и, следовательно, $C {\ displaystyle C}$ $C$ , $C {\ displaystyle C}$ $C$ является эндогенным, а $β {\ displaystyle \ beta}$ $\ beta$ не определяется в Модели 2. Однако, если мы включим силу индивидуального заявления в колледж, $A {\ displaystyle A}$ $A$ , как показано на рисунке 3, мы получаем следующую модель:

Model 3

Q 1 = U 1 A = a ⋅ Q 1 + U 2 C знак равно б ⋅ A + U 3 Q 2 знак равно е ⋅ Q 1 + d ⋅ C + U 4 S = c ⋅ C + f ⋅ Q 2 + U 5, {\ displaystyle {\ begin {align} Q_ {1} = U_ {1} \\ A = a \ cdot Q_ {1} + U_ {2} \\ C = b \ cdot A + U_ {3} \\ Q_ {2} = e \ cdot Q_ {1} + d \ cdot C + U_ {4} \\ S = c \ cdot C + f \ cdot Q_ {2} + U_ {5}, \ end {alig ned}}}

{\ begin { выровнено} Q_ {1} = U_ {1} \\ A = a \ cdot Q_ {1} + U_ {2} \\ C = b \ cdot A + U_ {3} \\ Q_ {2} = e \ cdot Q_ {1} + d \ cdot C + U_ {4} \\ S = c \ cdot C + f \ cdot Q_ {2} + U_ {5}, \ end {align}}

Удалив скрытые переменные из спецификации модели, мы получим:

Модель 4

A = a ⋅ Q 1 + UAC = b ⋅ A + UCS = β ⋅ C + US, {\ displaystyle {\ begin {align} A = a \ cdot Q_ {1} + U_ {A} \\ C = b \ cdot A + U_ {C} \\ S = \ beta \ cdot C + U_ {S}, \ конец {выровнен}}}

{ \ begin {align} A = a \ cdot Q_ {1} + U_ {A} \\ C = b \ cdot A + U_ {C} \\ S = \ beta \ cdot C + U_ {S}, \ end { выровнено}}

с $UA {\ displaystyle U_ {A}}$ $U_ {A}$ коррелирует с $US {\ displaystyle U_ {S}}$ $U_ {S}$ .

Итак, $β {\ displaystyle \ beta}$ $\ beta$ идентифицируется и может быть оценено с использованием регрессии $S {\ displaystyle S}$ $S$ на $C {\ displaystyle C}$ $C$ и $A {\ displaystyle A}$ $A$ . Это можно проверить, используя критерий одной двери, необходимое и достаточное графическое условие для идентификации структурных коэффициентов, например $β {\ displaystyle \ beta}$ $\ beta$ , с использованием регрессии.

Ссылки