Взаимодействие (статистика)

редактировать
Влияние взаимодействия образования и идеологии на озабоченность по поводу повышения уровня моря

В статистике взаимодействие может возникнуть при рассмотрении взаимосвязи между тремя или более переменными и описывает ситуацию, в которой влияние одной причинной переменной на результат зависит от состояния второй причинной переменной (то есть, когда эффекты две причины не являются суммирующими ). Хотя обычно понятие взаимодействия рассматривается в терминах причинно-следственных связей, оно также может описывать некаузальные ассоциации. Взаимодействия часто рассматриваются в контексте регрессионного анализа или факторных экспериментов.

Наличие взаимодействий может иметь важные последствия для интерпретации статистических моделей. Если две интересующие переменные взаимодействуют, отношение между каждой из взаимодействующих переменных и третьей «зависимой переменной» зависит от значения другой взаимодействующей переменной. На практике это затрудняет прогнозирование последствий изменения значения переменной, особенно если переменные, с которыми она взаимодействует, трудно измерить или трудно контролировать.

Понятие «взаимодействия» тесно связано с понятием модерации, которое широко используется в социальных исследованиях и исследованиях в области здравоохранения: взаимодействие между независимой переменной и переменной окружающей среды предполагает, что влияние независимая переменная была модерирована или изменена переменной среды.

Содержание
  • 1 Введение
  • 2 В моделировании
    • 2.1 В ANOVA
    • 2.2 Качественные и количественные взаимодействия
    • 2.3 Аддитивность единичной обработки
    • 2.4 Категориальные переменные
    • 2.5 Планируемые эксперименты
    • 2.6 Размер модели
    • 2.7 В регрессии
  • 3 Графики взаимодействия
    • 3.1 Пример: Взаимодействие видов и температуры воздуха и их влияние на температуру тела
    • 3.2 Пример: влияние тяжести инсульта и лечения на выздоровление
  • 4 Тесты гипотез для взаимодействий
    • 4.1 Пример: Взаимодействие температуры и времени при выпечке печенья
      • 4.1.1 Модель ANOVA 1: нет условия взаимодействия; выход ~ температура + время
      • 4.1.2 Модель 2 ANOVA: включить член взаимодействия; yield ~ temperature * time
  • 5 Примеры
  • 6 См. также
  • 7 Ссылки
  • 8 Дополнительная литература
  • 9 Внешние ссылки
Введение

Переменная взаимодействия или элемент взаимодействия - это переменная, созданная из исходного набора переменных, чтобы попытаться представить либо все присутствующее взаимодействие, либо его часть. В исследовательском статистическом анализе обычно используют продукты исходных переменных в качестве основы для проверки наличия взаимодействия с возможностью замены других, более реалистичных переменных взаимодействия на более позднем этапе. Когда существует более двух независимых переменных, конструируется несколько переменных взаимодействия, причем попарные продукты представляют попарные взаимодействия, а продукты более высокого порядка представляют взаимодействия более высокого порядка.

Бинарный фактор A и количественная переменная X взаимодействуют (не являются аддитивными) при анализе относительно выходной переменной Y.

Таким образом, для ответа Y и двух переменных x 1 и x 2 аддитивная модель будет выглядеть так:

Y = c + ax 1 + bx 2 + error {\ displaystyle Y = c + ax_ {1} + bx_ {2} + {\ text {error }} \,}Y = c + ax_ {1} + bx_ {2} + {\ text {error}} \,

В отличие от этого,

Y = c + ax 1 + bx 2 + d (x 1 × x 2) + error {\ displaystyle Y = c + ax_ {1} + bx_ { 2} + d (x_ {1} \ times x_ {2}) + {\ text {error}} \,}Y = c + ax_ {1} + bx_ {2} + d (x_ { 1} \ times x_ {2}) + {\ text {error}} \,

- пример модели с взаимодействием между переменными x 1 и x 2 ("ошибка" относится к случайной величине, значение которой является тем, на что Y отличается от ожидаемого значения Y; см. ошибки и остатки в статистике ). Часто модели представлены без элемента взаимодействия d (x 1 × x 2) {\ displaystyle d (x_ {1} \ times x_ {2})}d (x_ {1} \ times x_ {2}) , но это затрудняет основной эффект и эффект взаимодействия (т. е. без указания члена взаимодействия возможно, что любой обнаруженный основной эффект на самом деле вызван взаимодействием).

При моделировании

В ANOVA

Простая настройка, в которой могут возникать взаимодействия, - это двухфакторный эксперимент, проанализированный с использованием дисперсионного анализа. (ANOVA). Предположим, у нас есть два бинарных фактора A и B. Например, эти факторы могут указывать на то, было ли пациенту назначено какое-либо из двух курсов лечения, применяемое отдельно или в комбинации. Затем мы можем рассмотреть средний ответ на лечение (например, уровни симптомов после лечения) для каждого пациента в зависимости от введенной комбинации лечения. В следующей таблице показана одна возможная ситуация:

B = 0B = 1
A = 067
A = 145

В этом примере нет взаимодействия между двумя видами лечения. - их эффекты аддитивны. Причина этого заключается в том, что разница в среднем ответе между субъектами, получающими лечение A, и теми, кто не получает лечение A, составляет -2 независимо от того, вводится ли лечение B (-2 = 4-6) или нет (-2 = 5-7). Обратите внимание, что автоматически следует, что разница в среднем ответе между субъектами, получающими лечение B, и теми, кто не получает лечение B, одинакова, независимо от того, вводится ли лечение A (7-6 = 5-4).

Напротив, если наблюдаются следующие средние ответы

B = 0B = 1
A = 014
A = 176

, тогда существует взаимодействие между процедурами - их эффекты не складываются. Предполагая, что большее число соответствует лучшему ответу, в этой ситуации лечение B полезно в среднем, если субъект также не получает лечение A, но в среднем вредно, если оно проводится в сочетании с лечением A. Лечение A полезно в среднем независимо от назначается ли также лечение B, но оно более полезно как в абсолютном, так и в относительном выражении, если проводится отдельно, а не в сочетании с лечением B. Аналогичные наблюдения сделаны для этого конкретного примера в следующем разделе.

Качественные и количественные взаимодействия

Во многих приложениях полезно различать качественные и количественные взаимодействия. Количественное взаимодействие между A и B - это ситуация, когда величина эффекта B зависит от значения A, но направление эффекта B постоянно для всех A. Качественное взаимодействие между A и B относится к ситуации. где как величина, так и направление воздействия каждой переменной могут зависеть от значения другой переменной.

Таблица средних значений слева, ниже, показывает количественное взаимодействие - лечение A полезно как тогда, когда B, так и когда B не назначается, но польза больше, когда B не назначается (т. Е. когда дается только А). Таблица средств справа показывает качественное взаимодействие. А вредно, когда дается В, но полезно, когда не дается. Обратите внимание, что такая же интерпретация будет верна, если мы рассмотрим выгоду от B в зависимости от того, дано ли A.

B = 0B = 1B = 0B = 1
A = 021A = 026
A = 153A = 153

Различие между качественными и количественными взаимодействиями зависит от порядка, в котором рассматриваются переменные (напротив, свойство аддитивности инвариантно для порядка переменных). В следующей таблице, если мы сосредоточимся на эффекте лечения A, существует количественное взаимодействие: лечение A улучшит результат в среднем независимо от того, проводится лечение B или нет (хотя польза больше, если лечение А дается отдельно). Однако, если мы сосредоточимся на эффекте лечения B, существует качественное взаимодействие: лечение B субъекту, который уже получает лечение A, (в среднем) ухудшит положение, тогда как лечение B субъекту, который не получает лечение. лечение А в среднем улучшит результат.

B = 0B = 1
A = 014
A = 176

Аддитивность блока лечения

В простейшей форме предположение об аддитивности блока лечения утверждает, что наблюдаемая реакция y ij экспериментальной установки i при получении лечения j может быть записана как сумма y ij = y i + t j. Предположение об аддитивности единичной обработки подразумевает, что каждая обработка имеет одинаковый аддитивный эффект на каждую экспериментальную единицу. Поскольку любая данная экспериментальная единица может пройти только один из видов лечения, предположение об аддитивности единицы лечения является гипотезой, которая, по мнению Кокса и Кемпторна, не может быть напрямую опровергнута.

Однако многие последствия аддитивности лечебной единицы могут быть сфальсифицированным. Для рандомизированного эксперимента предположение об аддитивности лечения подразумевает, что дисперсия постоянна для всех видов лечения. Следовательно, напротив, необходимое условие для аддитивности единичной обработки состоит в том, чтобы дисперсия была постоянной.

Свойство аддитивности единичной обработки не инвариантно при изменении масштаба, поэтому статистики часто используют преобразования для достижения аддитивности единичной обработки. Если ожидается, что переменная отклика будет следовать параметрическому семейству распределений вероятностей, то статистик может указать (в протоколе эксперимента или наблюдательного исследования), что отклики будут преобразованы для стабилизации дисперсии. Во многих случаях статистик может указать, что к ответам применяются логарифмические преобразования, которые, как считается, соответствуют мультипликативной модели.

Предположение об аддитивности единичного лечения было высказано в экспериментальном дизайне Кемпторном и Коксом. Использование Кемпторном аддитивности единичного лечения и рандомизации аналогично основанному на дизайне анализу выборки конечного населения.

В последние годы стало обычным употребление терминологии Дональда Рубина, которая использует контрфакты. Предположим, мы сравниваем две группы людей по некоторому атрибуту y. Например, первая группа может состоять из людей, которым проводится стандартное лечение какого-либо заболевания, а вторая группа состоит из людей, которые получают новое лечение с неизвестным эффектом. Принимая «контрфактическую» перспективу, мы можем рассмотреть индивида, атрибут которого имеет значение y, если этот индивид принадлежит к первой группе, и чей атрибут имеет значение τ (y), если индивид принадлежит ко второй группе. Предположение об «аддитивности единичного лечения» состоит в том, что τ (y) = τ, то есть «эффект лечения» не зависит от y. Поскольку мы не можем наблюдать одновременно y и τ (y) для данного человека, это не проверяется на индивидуальном уровне. Однако аддитивность единичной обработки реализует, что кумулятивные функции распределения F1и F 2 для двух групп удовлетворяют F 2 (y) = F 1 <194.>(y - τ), пока отнесение людей к группам 1 и 2 не зависит от всех других факторов, влияющих на y (т. е. отсутствуют искажающие факторы ). Отсутствие аддитивности единичного лечения можно рассматривать как форму взаимодействия между назначением лечения (например, для групп 1 или 2) и исходным или необработанным значением y.

Категориальные переменные

Иногда взаимодействующие переменные являются категориальными переменными, а не действительными числами, и тогда исследование можно рассматривать как задачу дисперсионного анализа. Например, члены населения могут классифицироваться по религии и роду занятий. Если кто-то хочет спрогнозировать рост человека только на основе религии и рода занятий, простая аддитивная модель, то есть модель без взаимодействия, добавит к общему среднему росту поправку для конкретной религии и другую - для конкретного занятия. Модель с взаимодействием, в отличие от аддитивной модели, может добавить дополнительную настройку для «взаимодействия» между этой религией и этим занятием. Этот пример может вызвать подозрение, что слово «взаимодействие» употреблено неправильно.

Статистически наличие взаимодействия между категориальными переменными обычно проверяется с использованием формы дисперсионного анализа (ANOVA). Однако, если одна или несколько переменных являются непрерывными по своей природе, их обычно проверяют с использованием множественной регрессии с умеренной скоростью. Это так называется, потому что модератор - это переменная, которая влияет на силу взаимосвязи между двумя другими переменными.

Спланированные эксперименты

Геничи Тагучи утверждал, что взаимодействия могут быть исключены из системы путем соответствующего выбора переменной отклика и преобразования. Однако Джордж Бокс и другие утверждали, что в целом это не так.

Размер модели

Учитывая n предикторов, количество членов линейной модели, которая включает константа, каждый предиктор и каждое возможное взаимодействие: (n 0) + (n 1) + (n 2) + ⋯ + (nn) = 2 n {\ displaystyle {\ tbinom {n} {0}} + {\ tbinom {n} {1}} + {\ tbinom {n} {2}} + \ cdots + {\ tbinom {n} {n}} = 2 ^ {n}}{\ tbinom {n} {0}} + {\ tbinom {n} {1}} + {\ tbinom { n} {2}} + \ cdots + {\ tbinom {n} {n}} = 2 ^ {n} . Поскольку эта величина растет экспоненциально, она легко становится непрактично большой. Один из способов ограничить размер модели - ограничить порядок взаимодействий. Например, если разрешено только двустороннее взаимодействие, количество терминов станет (n 0) + (n 1) + (n 2) = 1 + 1 2 n + 1 2 n 2 {\ displaystyle {\ tbinom {n} {0}} + {\ tbinom {n} {1}} + {\ tbinom {n} {2}} = 1 + {\ tfrac {1} {2}} n + {\ tfrac {1} {2}} n ^ {2}}{\ tbinom {n} {0}} + {\ tbinom {n} {1}} + {\ tbinom {n} {2}} = 1 + {\ tfrac {1} { 2}} n + {\ tfrac {1} {2}} n ^ {2} . В таблице ниже показано количество терминов для каждого количества предикторов и максимальный порядок взаимодействия.

Количество терминов
ПредикторыВключая до m-сторонних взаимодействий
2345
122222
244444
378888
41115161616
51626313232
62242576364
7296499120128
83793163219256
946130256382512
10561763866381,024
11672325621,0242,048
12792997941,5864,096
13923781,0932,3808,192
141064701,4713,47316,384
151215761,9414,94432,768
202111,3516,19621,7001,048,576
253262,62615,27668,40633,554,432
501,27620,876251,1762,369,93610
1005,051166,7514,087,97679,375,49610
1,000500,501166,667,501101010

В регрессии

Самый общий подход t o моделирование эффектов взаимодействия включает регрессию, начиная с приведенной выше элементарной версии:

Y = c + ax 1 + bx 2 + d (x 1 × x 2) + error {\ displaystyle Y = c + ax_ {1} + bx_ {2} + d (x_ {1} \ times x_ {2}) + {\ text {error}} \,}Y = c + ax_ {1} + bx_ {2} + d (x_ { 1} \ times x_ {2}) + {\ text {error}} \,

, где термин взаимодействия (x 1 × x 2) {\ displaystyle ( x_ {1} \ times x_ {2})}{\ displaystyle (x_ {1} \ times x_ {2})} может быть сформировано явно путем умножения двух (или более) переменных или неявно с использованием факторной записи в современных статистических пакетах, таких как Stata. Компоненты x 1 и x 2 могут быть измерениями или {0,1} фиктивными переменными в любой комбинации. Взаимодействия, включающие фиктивную переменную, умноженную на переменную измерения, называются фиктивными переменными наклона, поскольку они оценивают и проверяют разницу в наклонах между группами 0 и 1.

Когда переменные измерения используются во взаимодействиях, часто желательно работать с центрированными версиями, где среднее значение переменной (или какое-либо другое разумно центральное значение) установлено равным нулю. Центрирование делает основные эффекты в моделях взаимодействия более понятными. Коэффициент a в приведенном выше уравнении, например, представляет эффект x 1, когда x 2 равен нулю.

Взаимодействие образования и политической партии, влияющее на убеждения об изменении климата

Регрессионные подходы к моделированию взаимодействия являются очень общими, поскольку они могут учитывать дополнительные предикторы и множество альтернативных спецификаций или стратегий оценки помимо обычного метода наименьших квадратов. Устойчивые модели, квантилей и смешанные эффекты (многоуровневые ) входят в число возможностей, как и обобщенное линейное моделирование, охватывающее широкий диапазон категориальных, упорядоченных, подсчитанных или иным образом ограниченных зависимых переменных. На графике показано взаимодействие образования и политики на основе взвешенного по вероятности логит-регрессионного анализа данных опроса.

Графики взаимодействия

Графики взаимодействия показывают возможные взаимодействия между переменными.

Пример: Взаимодействие видов животных и температуры воздуха и их влияние на температуру тела

Рассмотрим исследование температуры тела различных видов животных при разных температурах воздуха в градусах Фаренгейта. Данные представлены в таблице ниже.

Данные о температуре тела

График взаимодействия может использовать либо температуру воздуха, либо виды в качестве оси x. Второй фактор представлен линиями на графике взаимодействия.

температура тела графика взаимодействия

температура тела графика взаимодействия 2

Существует взаимодействие между двумя факторами (температурой воздуха и биологическими видами) в их влиянии на реакцию (температуру тела), потому что влияние температуры воздуха зависит от вида. Взаимодействие указано на графике, потому что линии не параллельны.

Пример: влияние тяжести инсульта и лечения на выздоровление

В качестве второго примера рассмотрим клиническое испытание взаимодействия между тяжестью инсульта и эффективностью лекарственного средства для выживаемости пациента. Данные представлены в таблице ниже.

данные о выживаемости после инсульта

выживаемость при инсульте графика взаимодействия

На графике взаимодействия линии для групп легкой и средней степени инсульта параллельны, что указывает на то, что препарат оказывает одинаковое действие в обеих группах, поэтому взаимодействия нет. Линия для группы тяжелого инсульта не параллельна другим линиям, что указывает на взаимосвязь между тяжестью инсульта и влиянием препарата на выживаемость. Линия для группы тяжелого инсульта плоская, что указывает на то, что среди этих пациентов нет разницы в выживаемости при лечении препаратом и плацебо. Напротив, линии для групп легкой и средней степени инсульта спускаются вправо, указывая на то, что среди этих пациентов группа плацебо имеет более низкую выживаемость, чем группа, принимавшая лекарственные препараты.

Проверка гипотез для взаимодействий

Дисперсионный анализ и регрессионный анализ используются для проверки значимых взаимодействий.

Пример: взаимодействие температуры и времени при выпечке печенья

Влияет ли на выход хорошего печенья температура и время выпечки в духовке? В таблице приведены данные для 8 пакетов файлов cookie.

данные о выходе файлов cookie взаимодействия

график взаимодействия выпечки печенья

Данные показывают, что выход хорошего печенья лучше всего, когда (i) температура высокая и время в духовке короткое, или (ii) температура низкая и время в духовке длительное. Если печенье оставить в духовке на длительное время при высокой температуре, печенье подгорело и выход низкий.

Из графика и данных видно, что линии не параллельны, что указывает на взаимодействие. Это можно проверить с помощью дисперсионного анализа (ANOVA). Первая модель ANOVA не будет включать член взаимодействия. То есть первая модель ANOVA игнорирует возможное взаимодействие. Вторая модель ANOVA будет включать член взаимодействия. То есть вторая модель ANOVA явно выполняет проверку гипотезы для взаимодействия.

Модель 1 ANOVA: нет члена взаимодействия; yield ~ температура + время

модель cookie anova 1

В модели ANOVA, которая игнорирует взаимодействие, ни температура, ни время не оказывают значительного влияния на урожайность (p = 0,91), что явно неверно. Более подходящая модель ANOVA должна проверять возможное взаимодействие.

Модель 2 ANOVA: включить термин взаимодействия; yield ~ температура * время

Cookie anova модель 2

Член взаимодействия температура: время имеет значение (p = 0,000180). На основании теста взаимодействия и графика взаимодействия выясняется, что влияние времени на урожайность зависит от температуры и наоборот.

Примеры

Примеры взаимодействия из реальной жизни включают:

  • Взаимодействие между добавлением сахара в кофе и перемешиванием кофе. Ни одна из двух отдельных переменных не оказывает большого влияния на сладость, но их комбинация оказывает.
  • Взаимодействие между добавлением углерода в сталь и закалкой. Ни один из этих двух факторов по отдельности не оказывает большого влияния на силу, но их комбинация оказывает драматический эффект.
  • Взаимодействие между курением и вдыханием волокон асбеста : оба поднимают легкие риск карциномы, но воздействие асбеста увеличивает риск рака у курильщиков и некурящих. Здесь совместный эффект вдыхания асбеста и курения выше, чем сумма обоих эффектов.
  • Взаимодействие между генетическими факторами риска диабета 2 типа и диетой (в частности, "западной" диетой шаблон). Было показано, что западный образец питания увеличивает риск диабета для субъектов с высоким «показателем генетического риска», но не для других субъектов.
  • Взаимодействие между образованием и политической ориентацией, влияющее на восприятие общественностью изменения климата. Например, опросы в США часто обнаруживают, что принятие реальности антропогенного изменения климата возрастает с образованием среди умеренных или либеральных респондентов, но снижается с образованием среди наиболее консервативных. Было замечено, что аналогичные взаимодействия влияют на некоторые не относящиеся к климату науки или представления об окружающей среде и действуют с помощью показателей научной грамотности или других знаний вместо образования.
См. Также
Ссылки
Дополнительная литература
Внешние ссылки
Последняя правка сделана 2021-05-24 04:07:02
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте