Многоуровневая модель

редактировать

Модели Многоуровневые (также известные как иерархические линейные модели, линейные моделями смешанных эффектов, смешанные модели, вложенные друг в друге модели данных, случайный коэффициент, случайные эффекты модели, случайные модели параметров, или сплит-участке конструкции) являются статистическими моделями из параметров, которые изменяются в более чем один уровень. Примером может служить модель успеваемости учащихся, которая содержит показатели для отдельных учащихся, а также для классов, в которых сгруппированы учащиеся. Эти модели можно рассматривать как обобщения линейных моделей (в частности, линейной регрессии ), хотя они также могут распространяться на нелинейные модели. Эти модели стали намного более популярными после того, как стали доступны достаточные вычислительные мощности и программное обеспечение.

Многоуровневые модели особенно подходят для исследовательских проектов, когда данные для участников организованы более чем на одном уровне (т. Е. Вложенные данные ). Единицами анализа обычно являются индивиды (на более низком уровне), которые вложены в контекстные / агрегированные единицы (на более высоком уровне). В то время как самый низкий уровень данных в многоуровневых моделях обычно является индивидуальным, можно также изучить повторные измерения отдельных лиц. Таким образом, многоуровневые модели обеспечивают альтернативный тип анализа для однофакторного или многофакторного анализа с повторными измерениями. Можно изучить индивидуальные различия в кривых роста. Кроме того, многоуровневые модели могут использоваться в качестве альтернативы ANCOVA, где оценки зависимой переменной корректируются с учетом ковариат (например, индивидуальных различий) перед проверкой различий в лечении. Многоуровневые модели могут анализировать эти эксперименты без предположений об однородности наклонов регрессии, которые требуются ANCOVA.

Многоуровневые модели могут использоваться для данных с множеством уровней, хотя двухуровневые модели являются наиболее распространенными, и остальная часть этой статьи посвящена только им. Зависимую переменную необходимо исследовать на самом низком уровне анализа.

СОДЕРЖАНИЕ

  • 1 Уровень 1 уравнение регрессии
  • 2 Уровень 2 уравнение регрессии
  • 3 Типа моделей
    • 3.1 Модель случайных перехватов
    • 3.2 Модель случайных уклонов
    • 3.3 Модель случайных пересечений и наклонов
    • 3.4 Разработка многоуровневой модели
  • 4 Предположения
  • 5 Статистические тесты
  • 6 Статистическая мощность
  • 7 приложений
    • 7.1 Уровень
    • 7.2 Пример
    • 7.3 Использование
    • 7.4 Приложения к продольным данным (повторные измерения)
  • 8 Альтернативные способы анализа иерархических данных
  • 9 Условия ошибки
  • 10 См. Также
  • 11 Источники
  • 12 Дальнейшее чтение
  • 13 Внешние ссылки

Уравнение регрессии уровня 1

Когда есть одна независимая переменная уровня 1, модель уровня 1 будет:

Y я j знак равно β 0 j + β 1 j Икс я j + е я j {\ displaystyle Y_ {ij} = \ beta _ {0j} + \ beta _ {1j} X_ {ij} + e_ {ij}}

  • Y я j {\ displaystyle Y_ {ij}} относится к баллу зависимой переменной для индивидуального наблюдения на уровне 1 (индекс i относится к индивидуальному случаю, индекс j относится к группе).
  • Икс я j {\ displaystyle X_ {ij}} относится к предсказателю уровня 1.
  • β 0 j {\ displaystyle \ beta _ {0j}} относится к перехвату зависимой переменной в группе j (уровень 2).
  • β 1 j {\ displaystyle \ beta _ {1j}} относится к наклону отношения в группе j (уровень 2) между предиктором уровня 1 и зависимой переменной.
  • е я j {\ displaystyle e_ {ij}}относится к случайным ошибкам прогнозирования для уравнения уровня 1 (иногда его также называют). р я j {\ displaystyle r_ {ij}}

На уровне 1 как точки пересечения, так и уклоны в группах могут быть либо фиксированными (это означает, что все группы имеют одинаковые значения, хотя в реальном мире это будет редкостью), либо изменяться неслучайно (что означает, что точки пересечения и / или наклоны предсказуемы на основе независимой переменной на уровне 2), или изменяются случайным образом (это означает, что точки пересечения и / или наклоны различны в разных группах, и что каждая из них имеет собственное общее среднее значение и дисперсию).

Когда имеется несколько независимых переменных уровня 1, модель может быть расширена путем замены векторов и матриц в уравнение.

Когда связь между ответом и предиктором не может быть описана линейной зависимостью, тогда можно найти некоторую нелинейную функциональную связь между ответом и предиктором и расширить модель до нелинейной модели смешанных эффектов. Например, когда ответ представляет собой кумулятивную траекторию заражения -й страны и представляет собой -й момент времени, тогда упорядоченная пара для каждой страны может иметь форму, аналогичную логистической функции. Y я j {\ displaystyle Y_ {ij}} Икс я j {\ displaystyle X_ {ij}} Y я j {\ displaystyle Y_ {ij}} я {\ displaystyle i} Икс я j {\ displaystyle X_ {ij}} j {\ displaystyle j} ( Икс я j , Y я j ) {\ displaystyle (X_ {ij}, Y_ {ij})}

Уравнение регрессии уровня 2

Зависимые переменные - это точки пересечения и наклоны для независимых переменных на Уровне 1 в группах Уровня 2.

β 0 j знак равно γ 00 + γ 01 W j + ты 0 j {\ displaystyle \ beta _ {0j} = \ gamma _ {00} + \ gamma _ {01} W_ {j} + u_ {0j}}

β 1 j знак равно γ 10 + ты 1 j {\ displaystyle \ beta _ {1j} = \ gamma _ {10} + u_ {1j}}

  • γ 00 {\ displaystyle \ gamma _ {00}}относится к общему перехвату. Это общее среднее значение оценок зависимой переменной по всем группам, когда все предикторы равны 0.
  • W j {\ displaystyle W_ {j}} относится к предсказателю уровня 2.
  • γ 01 {\ displaystyle \ gamma _ {01}} относится к общему коэффициенту регрессии или наклону между зависимой переменной и предиктором уровня 2.
  • ты 0 j {\ displaystyle u_ {0j}} относится к компоненту случайной ошибки для отклонения точки пересечения группы от общей точки пересечения.
  • γ 10 {\ displaystyle \ gamma _ {10}} относится к общему коэффициенту регрессии или наклону между зависимой переменной и предиктором уровня 1.
  • ты 1 j {\ displaystyle u_ {1j}} относится к компоненту ошибки для наклона (то есть отклонению групповых наклонов от общего наклона).

Типы моделей

Перед проведением многоуровневого анализа модели исследователь должен решить несколько аспектов, в том числе, какие предикторы должны быть включены в анализ, если таковые имеются. Во-вторых, исследователь должен решить, будут ли значения параметров (т.е. элементы, которые будут оцениваться) фиксированными или случайными. Фиксированные параметры состоят из константы для всех групп, тогда как случайный параметр имеет разные значения для каждой из групп. Кроме того, исследователь должен решить, использовать ли оценку максимального правдоподобия или ограниченный тип оценки максимального правдоподобия.

Модель случайных перехватов

Модель случайных перехватов - это модель, в которой перехватам разрешено варьироваться, и поэтому оценки зависимой переменной для каждого отдельного наблюдения предсказываются перехватом, который варьируется в разных группах. Эта модель предполагает, что уклоны фиксированы (одинаковы в разных контекстах). Кроме того, эта модель предоставляет информацию о внутриклассовых корреляциях, которая помогает определить, нужны ли многоуровневые модели в первую очередь.

Модель случайных уклонов

Модель случайных уклонов - это модель, в которой уклоны могут изменяться, и, следовательно, уклоны различны для разных групп. Эта модель предполагает, что перехваты фиксированы (одинаковы в разных контекстах).

Модель случайных пересечений и наклонов

Модель, которая включает как случайные пересечения, так и случайные наклоны, вероятно, является наиболее реалистичным типом модели, хотя она также является наиболее сложной. В этой модели и точки пересечения, и наклоны могут изменяться в разных группах, что означает, что они различны в разных контекстах.

Разработка многоуровневой модели

Чтобы провести многоуровневый анализ модели, нужно начать с фиксированных коэффициентов (наклонов и пересечений). Один аспект может изменяться за раз (то есть может изменяться) и сравниваться с предыдущей моделью, чтобы оценить лучшее соответствие модели. При оценке модели исследователь может задать три разных вопроса. Во-первых, это хорошая модель? Во-вторых, лучше ли более сложная модель? В-третьих, какой вклад в модель вносят отдельные предикторы?

Для оценки моделей будут изучены различные статистические данные о соответствии модели. Одной из таких статистических данных является критерий отношения правдоподобия хи-квадрат, который оценивает разницу между моделями. Тест отношения правдоподобия может использоваться для построения модели в целом, для изучения того, что происходит, когда эффекты в модели могут изменяться, и при тестировании категориальной переменной с фиктивным кодом как одного эффекта. Однако тест можно использовать только тогда, когда модели вложены (это означает, что более сложная модель включает все эффекты более простой модели). При тестировании невложенных моделей сравнения между моделями могут проводиться, среди прочего, с использованием информационного критерия Акаике (AIC) или байесовского информационного критерия (BIC). См. Далее Выбор модели.

Предположения

Многоуровневые модели имеют те же предположения, что и другие основные общие линейные модели (например, ANOVA, регрессия ), но некоторые из предположений изменены с учетом иерархической природы дизайна (т. Е. Вложенных данных).

Линейность

Предположение о линейности утверждает, что существует прямолинейная (прямолинейная, а не нелинейная или U-образная) связь между переменными. Однако модель может быть расширена до нелинейных отношений. В частности, когда средняя часть уравнения регрессии уровня 1 заменяется нелинейной параметрической функцией, такая структура модели широко называется нелинейной моделью смешанных эффектов.

Нормальность

Предположение о нормальности утверждает, что члены ошибки на каждом уровне модели нормально распределены. Однако большая часть статистического программного обеспечения позволяет задавать различные распределения для членов дисперсии, такие как пуассоновское, биномиальное, логистическое. Подход многоуровневого моделирования может использоваться для всех форм обобщенных линейных моделей.

Гомоскедастичность

Допущение гомоскедастичности, также известной как однородность дисперсии, предполагает равенство дисперсий совокупности. Однако для учета этого может быть указана другая матрица дисперсии-корреляции, а неоднородность дисперсии может быть смоделирована.

Независимость наблюдений

Независимость - это допущение общих линейных моделей, в которых говорится, что случаи представляют собой случайные выборки из совокупности и что оценки по зависимой переменной не зависят друг от друга. Одна из основных целей многоуровневых моделей - иметь дело со случаями, когда нарушается предположение о независимости; Однако многоуровневые модели предполагают, что 1) остатки уровня 1 и уровня 2 некоррелированы и 2) ошибки (измеренные остатками) на самом высоком уровне не коррелированы.

Статистические тесты

Тип статистических тестов, используемых в многоуровневых моделях, зависит от того, изучаются ли фиксированные эффекты или компоненты дисперсии. При исследовании фиксированных эффектов тесты сравниваются со стандартной ошибкой фиксированного эффекта, что приводит к Z-тесту. Т-тест также может быть вычислен. При вычислении t-критерия важно помнить о степенях свободы, которые будут зависеть от уровня предсказателя (например, предсказателя уровня 1 или предсказателя уровня 2). Для предиктора уровня 1 степени свободы основаны на количестве предикторов уровня 1, количестве групп и количестве отдельных наблюдений. Для предиктора уровня 2 степени свободы основаны на количестве предикторов уровня 2 и количестве групп.

Статистическая мощность

Статистическая мощность многоуровневых моделей различается в зависимости от того, исследуются ли эффекты уровня 1 или уровня 2. Мощность эффектов уровня 1 зависит от количества отдельных наблюдений, тогда как мощность эффектов уровня 2 зависит от количества групп. Для проведения исследований с достаточной мощностью в многоуровневых моделях требуются большие размеры выборки. Однако количество индивидуальных наблюдений в группах не так важно, как количество групп в исследовании. Для выявления межуровневых взаимодействий, учитывая, что размеры групп не слишком малы, были сделаны рекомендации, что необходимо как минимум 20 групп. Проблема статистической мощности в многоуровневых моделях осложняется тем фактом, что мощность варьируется в зависимости от размера эффекта и внутриклассовых корреляций, она отличается для фиксированных эффектов и случайных эффектов и изменяется в зависимости от количества групп и количества отдельных наблюдений. на группу.

Приложения

Уровень

Концепция уровня является краеугольным камнем этого подхода. В примере исследования образования уровни для двухуровневой модели могут быть следующими:

  1. ученица
  2. класс

Однако, если вы изучаете несколько школ и несколько школьных округов, четырехуровневая модель могла бы быть:

  1. ученица
  2. класс
  3. школа
  4. округ

Исследователь должен установить для каждой переменной уровень, на котором она была измерена. В этом примере «тестовый балл» может быть измерен на уровне ученика, «опыт учителя» на уровне класса, «финансирование школы» на уровне школы и «городской» на уровне округа.

Пример

В качестве простого примера рассмотрим базовую модель линейной регрессии, которая прогнозирует доход как функцию возраста, класса, пола и расы. Затем можно заметить, что уровни дохода также различаются в зависимости от города и штата проживания. Простым способом включения этого в регрессионную модель было бы добавление дополнительной независимой категориальной переменной для учета местоположения (т. Е. Набора дополнительных двоичных предикторов и связанных коэффициентов регрессии, по одному на местоположение). Это привело бы к сдвигу среднего дохода вверх или вниз - но все равно будет предполагать, например, что влияние расы и пола на доход одинаково везде. На самом деле это маловероятно - разные местные законы, разная политика выхода на пенсию, различия в уровне расовых предрассудков и т. Д. Могут привести к тому, что все предикторы будут иметь разные виды эффектов в разных местах.

Другими словами, простая модель линейной регрессии может, например, предсказать, что у данного случайно отобранного человека в Сиэтле будет средний годовой доход на 10 000 долларов выше, чем у аналогичного человека в Мобиле, штат Алабама. Однако он также может предсказывать, например, что средний доход белого человека может быть на 7000 долларов больше, чем у черного, а 65-летний может иметь доход на 3000 долларов ниже 45-летнего, в обоих случаях независимо от место нахождения. Однако многоуровневая модель допускает разные коэффициенты регрессии для каждого предиктора в каждом месте. По сути, это будет предполагать, что люди в данном месте имеют коррелированные доходы, генерируемые одним набором коэффициентов регрессии, тогда как люди в другом месте имеют доходы, генерируемые другим набором коэффициентов. Между тем предполагается, что сами коэффициенты коррелированы и генерируются из одного набора гиперпараметров. Возможны дополнительные уровни: например, люди могут быть сгруппированы по городам, а коэффициенты регрессии на уровне города сгруппированы по штатам, а коэффициенты уровня штата сгенерированы из одного гипер-гиперпараметра.

Многоуровневые модели являются подклассом иерархических байесовских моделей, которые представляют собой общие модели с несколькими уровнями случайных величин и произвольными отношениями между различными переменными. Многоуровневый анализ был расширен за счет включения многоуровневого моделирования структурных уравнений, многоуровневого моделирования скрытых классов и других более общих моделей.

Использует

Многоуровневые модели использовались в исследованиях в области образования или географических исследованиях, чтобы отдельно оценить разницу между учениками в одной школе и разницу между школами. В психологических приложениях множественные уровни - это элементы инструмента, отдельных лиц и семей. В социологических приложениях многоуровневые модели используются для изучения людей, проживающих в регионах или странах. В исследованиях организационной психологии данные от отдельных лиц часто должны быть вложены в группы или другие функциональные подразделения.

Различные ковеременные могут иметь значение на разных уровнях. Их можно использовать для продольных исследований, как и в исследованиях роста, для разделения изменений внутри одного человека и различий между людьми.

Межуровневое взаимодействие также может представлять значительный интерес; например, когда наклон может изменяться случайным образом, предсказатель уровня 2 может быть включен в формулу наклона для ковариаты уровня 1. Например, можно оценить взаимодействие расы и соседства, чтобы оценить взаимодействие между характеристиками человека и контекстом.

Приложения к продольным данным (повторные измерения)

Дополнительная информация: Многоуровневое моделирование повторяющихся измерений.

Альтернативные способы анализа иерархических данных

Есть несколько альтернативных способов анализа иерархических данных, хотя у большинства из них есть некоторые проблемы. Во-первых, можно использовать традиционные статистические методы. Можно разделить переменные более высокого порядка на индивидуальный уровень и, таким образом, провести анализ на этом индивидуальном уровне (например, присвоить переменные класса индивидуальному уровню). Проблема с этим подходом состоит в том, что он нарушит предположение о независимости и, следовательно, может исказить наши результаты. Это известно как атомистическая ошибка. Другой способ анализа данных с использованием традиционных статистических подходов - агрегирование переменных индивидуального уровня в переменные более высокого порядка, а затем проведение анализа на этом более высоком уровне. Проблема с этим подходом состоит в том, что он отбрасывает всю внутригрупповую информацию (потому что он принимает среднее значение переменных индивидуального уровня). До 80–90% дисперсии может быть потрачено впустую, а взаимосвязь между агрегированными переменными будет завышена и, таким образом, искажена. Это известно как экологическая ошибка, и статистически этот тип анализа приводит к снижению мощности в дополнение к потере информации.

Другой способ анализа иерархических данных - использовать модель случайных коэффициентов. Эта модель предполагает, что у каждой группы своя модель регрессии - со своим собственным пересечением и наклоном. Поскольку выборка осуществляется по группам, модель предполагает, что пересечения и наклоны также случайным образом выбираются из совокупности групповых пересечений и наклонов. Это позволяет проводить анализ, в котором можно предположить, что уклоны фиксированы, но пересечения могут изменяться. Однако это представляет проблему, поскольку отдельные компоненты независимы, а компоненты группы независимы между группами, но зависят внутри групп. Это также позволяет проводить анализ, в котором наклоны случайны; однако корреляции членов ошибок (возмущений) зависят от значений переменных индивидуального уровня. Таким образом, проблема с использованием модели случайных коэффициентов для анализа иерархических данных заключается в том, что по-прежнему невозможно включить переменные более высокого порядка.

Условия ошибки

Многоуровневые модели имеют два члена ошибок, которые также известны как возмущения. Все отдельные компоненты независимы, но есть и групповые компоненты, которые независимы между группами, но коррелируют внутри групп. Однако компоненты дисперсии могут различаться, поскольку одни группы более однородны, чем другие.

Смотрите также

использованная литература

дальнейшее чтение

внешние ссылки

Последняя правка сделана 2023-04-05 05:31:15
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте