Подтверждающий факторный анализ

редактировать
Форма статистического факторного анализа

В статистика, подтверждающий факторный анализ (CFA ) - особая форма факторного анализа, наиболее часто используемая в социальных исследованиях. Он используется для проверки, согласуются ли показатели конструкции с пониманием исследователем природы этой конструкции (или фактора). Таким образом, цель подтверждающего факторного анализа состоит в том, чтобы проверить, соответствуют ли данные предполагаемой модели измерения. Эта предполагаемая модель основана на теории и / или предыдущих аналитических исследованиях. CFA был впервые разработан Jöreskog и основывается на и заменяет старые методы анализа конструктной валидности, такие как MTMM Matrix, описанные в Campbell Fiske (1959)..

В подтверждающем факторном анализе исследователь сначала разрабатывает гипотезу о том, какие факторы, по его мнению, лежат в основе используемых показателей (например, «Депрессия » является фактором, лежащим в основе Перечень депрессии Бека и Рейтинговая шкала Гамильтона для депрессии ) и могут налагать ограничения на модель, основанную на этих априорных гипотезах. Налагая эти ограничения, исследователь заставляет модель соответствовать своей теории. Например, если предполагается, что есть два фактора, отвечающих за ковариацию в показателях, и что эти факторы не связаны друг с другом, исследователь может создать модель, в которой корреляция между фактором A и фактором B ограничен нулем. Затем можно получить меры соответствия модели, чтобы оценить, насколько хорошо предложенная модель отражает ковариацию между всеми элементами или показателями модели. Если ограничения, наложенные исследователем на модель, несовместимы с данными выборки, то результаты статистических тестов соответствия модели будут указывать на плохое соответствие, и модель будет отклонена. Если посадка плохая, это может быть связано с тем, что некоторые предметы измеряют несколько факторов. Также может быть, что некоторые элементы внутри фактора больше связаны друг с другом, чем другие.

Для некоторых приложений требование «нулевых нагрузок» (для индикаторов, которые не должны загружаться по определенному фактору) было сочтено слишком строгим. Недавно разработанный метод анализа, «исследовательское моделирование структурным уравнением», определяет гипотезы о связи между наблюдаемыми показателями и их предполагаемыми первичными скрытыми факторами, а также позволяет оценить нагрузки с другими скрытыми факторами.

Содержание
  • 1 Статистическая модель
  • 2 Альтернативные стратегии оценки
  • 3 Исследовательский факторный анализ
  • 4 Моделирование структурным уравнением
  • 5 Оценка соответствия модели
    • 5.1 Индексы абсолютного соответствия
      • 5.1.1 Хи-квадрат тест
      • 5.1.2 Среднеквадратичная ошибка аппроксимации
      • 5.1.3 Среднеквадратичная невязка и стандартизированная среднеквадратичная ошибка
      • 5.1.4 Индекс согласия и скорректированный индекс согласия
    • 5.2 Относительный индексы соответствия
      • 5.2.1 Нормированный индекс соответствия и ненормированный индекс соответствия
      • 5.2.2 Сравнительный индекс соответствия
  • 6 Идентификация и неполная идентификация
  • 7 См. также
  • 8 Ссылки
  • 9 Дополнительная литература
  • 10 Внешние ссылки
Статистическая модель

В подтверждающем факторном анализе повторно Лучники обычно заинтересованы в изучении степени, в которой отклики на вектор наблюдаемых случайных величин p x 1 могут быть использованы для присвоения значения одной или нескольким ненаблюдаемым переменным η. Исследование в значительной степени осуществляется путем оценки и оценки загрузки каждого элемента, используемого для выявления аспектов ненаблюдаемой скрытой переменной. То есть y [i] - это вектор наблюдаемых откликов, предсказанных ненаблюдаемой скрытой переменной ξ {\ displaystyle \ xi}\ xi , которая определяется как:

Y = Λ ξ + ϵ {\ displaystyle Y = \ Lambda \ xi + \ epsilon}{\ displaystyle Y = \ Lambda \ xi + \ epsilon} ,

где Y {\ displaystyle Y}Y - вектор в пикселях 1 наблюдаемых случайных величин, ξ {\ displaystyle \ xi}\ xi - это ненаблюдаемые скрытые переменные или переменные в многомерном случае, а Λ {\ displaystyle \ Lambda}\ Lambda - матрица apxk, где k равно количеству скрытых переменных.. Поскольку Y {\ displaystyle Y}Y являются несовершенными показателями ξ {\ displaystyle \ xi}\ xi , модель также содержит ошибку, ϵ { \ Displaystyle \ epsilon}\ epsilon . Оценки в случае максимального правдоподобия (ML), полученные путем итеративной минимизации функции соответствия,

F M L = ln ⁡ | Λ Ω Λ ′ + I - diag ⁡ (Λ Ω Λ ′) | + тр ⁡ (р (Λ Ω Λ ′ + I - диаг (Λ Ω Λ ′) - 1) - ln ⁡ (R) - p {\ displaystyle F _ {\ mathrm {ML}} = \ ln | \ Lambda \ Omega \ Lambda {'} + I- \ operatorname {diag} (\ Lambda \ Omega \ Lambda {'}) | + \ operatorname {tr} (R (\ Lambda \ Omega \ Lambda {'} + I- \ operatorname { diag} (\ Lambda \ Omega \ Lambda {'}) ^ {- 1}) - \ ln (R) -p}{\displaystyle F_{\mathrm {ML} }=\ln |\Lambda \Omega \Lambda {'}+I-\operatorname {diag} (\Lambda \Omega \Lambda {'})|+\operatorname {tr} (R(\Lambda \Omega \Lambda {'}+I-\operatorname {diag} (\Lambda \Omega \Lambda {'})^{-1})-\ln(R)-p}

где Λ Ω Λ ′ + I - diag ⁡ (Λ Ω Λ ′) {\ displaystyle \ Lambda \ Omega \ Lambda {'} + I- \ operatorname {diag} (\ Lambda \ Omega \ Lambda {'})}{\displaystyle \Lambda \Omega \Lambda {'}+I-\operatorname {diag} (\Lambda \Omega \Lambda {'})}- это ковариационная матрица дисперсии, подразумеваемая предлагаемым факторным анализом. модели, а R {\ displaystyle R}R - наблюдаемая матрица ковариации дисперсии. То есть находятся значения для освобожденных параметров модели, которые минимизируют разницу между предполагаемой моделью ковариационной матрицей и наблюдаемой матрица дисперсия-ковариация.

Альтернативные стратегии оценки

Хотя для оценки моделей CFA использовались многочисленные алгоритмы, максимальное правдоподобие (ML) остается основной процедурой оценки. При этом CFA m Примеры часто применяются к условиям данных, которые отклоняются от нормальных теоретических требований для достоверной оценки ML. Например, социологи часто оценивают модели CFA с ненормальными данными и показателями, масштабируемыми с использованием дискретных упорядоченных категорий. Соответственно, были разработаны альтернативные алгоритмы, учитывающие различные условия данных, с которыми сталкиваются прикладные исследователи. Альтернативные оценщики подразделяются на два основных типа: (1) робастные и (2) ограниченные информационные оценщики.

Когда ML реализуется с данными, которые отклоняются от предположений нормальной теории, модели CFA могут давать смещенные оценки параметров и вводящие в заблуждение выводы. Робастная оценка обычно пытается исправить проблему путем корректировки нормальной теоретической модели χ и стандартных ошибок. Например, Саторра и Бентлер (1994) рекомендовали использовать оценку машинного обучения обычным способом с последующим делением модели χ на меру степени многомерного эксцесса. Дополнительным преимуществом надежных оценщиков машинного обучения является их доступность в общем программном обеспечении SEM (например, LAVAAN).

К сожалению, надежные оценщики машинного обучения могут стать непригодными в условиях обычных данных. В частности, когда показатели масштабируются с использованием нескольких категорий ответов (например, не согласен, нейтрален, согласен), надежные оценщики машинного обучения, как правило, работают плохо. Оценщики с ограниченной информацией, такие как взвешенный метод наименьших квадратов (WLS), вероятно, будут лучшим выбором, когда явные индикаторы принимают порядковую форму. В целом оценщики с ограниченной информацией обращаются к порядковым индикаторам, используя полихорические корреляции для соответствия моделям CFA. Полихорические корреляции отражают ковариацию между двумя скрытыми переменными, когда наблюдается только их категоризованная форма, что достигается в основном за счет оценки пороговых параметров.

Исследовательский факторный анализ

Обе исследовательские факторный анализ (EFA) и подтверждающий факторный анализ (CFA) используются для понимания общей дисперсии измеряемых переменных, которая, как считается, может быть отнесена к фактору или латентной конструкции. Однако, несмотря на это сходство, EFA и CFA представляют собой концептуально и статистически разные анализы.

Цель EFA - выявить факторы на основе данных и максимизировать объясненную дисперсию. От исследователя не требуется иметь каких-либо конкретных гипотез о том, сколько факторов возникнет, и какие элементы или переменные будут включать эти факторы. Если эти гипотезы существуют, они не учитываются и не влияют на результаты статистического анализа. Напротив, CFA оценивает априорные гипотезы и в значительной степени руководствуется теорией. Анализ CFA требует, чтобы исследователь заранее выдвинул гипотезу о количестве факторов, о том, коррелированы ли эти факторы, и какие элементы / меры влияют и отражают какие факторы. Таким образом, в отличие от исследовательского факторного анализа, где все нагрузки могут изменяться, CFA допускает явное ограничение определенных нагрузок равным нулю.

EFA часто считается более подходящим, чем CFA на ранних этапах разработки шкалы, потому что CFA не показывает, насколько хорошо ваши элементы загружают негипотетические факторы. Еще один веский аргумент в пользу первоначального использования ОДВ заключается в том, что неверное указание количества факторов на ранней стадии разработки шкалы, как правило, не будет обнаружено подтверждающим факторным анализом. На более поздних стадиях разработки шкалы подтверждающие методы могут предоставить больше информации за счет явного противопоставления конкурирующих структур факторов.

EFA иногда упоминается в исследованиях, когда CFA может быть лучшим статистическим подходом. Утверждалось, что CFA может быть ограничительным и неуместным при использовании в исследовательских целях. Однако идея о том, что CFA является исключительно «подтверждающим» анализом, иногда может вводить в заблуждение, поскольку индексы модификации, используемые в CFA, носят в некоторой степени исследовательский характер. Индексы модификации показывают улучшение соответствия модели, если конкретный коэффициент не ограничивается. Точно так же EFA и CFA не обязательно должны быть взаимоисключающими анализами; Утверждалось, что EFA является разумным продолжением плохо подходящей модели CFA.

Моделирование структурных уравнений

Моделирование структурных уравнений обычно используется для выполнения подтверждающего факторного анализа. LISREL, EQS, AMOS, Mplus и пакет lavaan в R - популярные программы. CFA также часто используется в качестве первого шага для оценки предлагаемой модели измерения в модели структурного уравнения. Многие правила интерпретации, касающиеся оценки соответствия модели и модификации модели в моделировании структурным уравнением, в равной степени применимы к CFA. CFA отличается от моделирования структурным уравнением тем, что в CFA нет направленных стрелок между скрытыми факторами. Другими словами, в то время как в CFA не предполагается, что факторы напрямую вызывают друг друга, SEM часто определяет конкретные факторы и переменные как причинные по своей природе. В контексте SEM CFA часто называют «моделью измерения», а отношения между скрытыми переменными (с направленными стрелками) называют «структурной моделью».

Оценка соответствия модели

В CFA используется несколько статистических тестов, чтобы определить, насколько хорошо модель соответствует данным. Обратите внимание, что хорошее соответствие между моделью и данными не означает, что модель «правильная», или даже что она объясняет большую часть ковариации. «Хорошая подгонка модели» означает только то, что модель правдоподобна. При сообщении результатов подтверждающего факторного анализа настоятельно рекомендуется сообщать: а) предлагаемые модели, б) любые сделанные изменения, в) меры, определяющие каждую скрытую переменную, г) корреляции между скрытыми переменными, д) любую другую относящуюся к делу информацию., например, используются ли ограничения. Что касается выбора статистики соответствия модели для отчета, не следует просто сообщать статистику, которая оценивает наилучшее соответствие, хотя это может быть заманчивым. Хотя существует несколько различных мнений, Клайн (2010) рекомендует использовать критерий хи-квадрат, среднеквадратичную ошибку аппроксимации (RMSEA), сравнительный индекс соответствия (CFI) и стандартизованный среднеквадратичный остаток. (SRMR).

Индексы абсолютного соответствия

Индексы абсолютного соответствия определяют, насколько хорошо априорная модель соответствует или воспроизводит данные. Индексы абсолютного соответствия включают, помимо прочего, критерий хи-квадрат, RMSEA, GFI, AGFI, RMR и SRMR.

критерий хи-квадрат

критерий хи-квадрат указывает разница между наблюдаемыми и ожидаемыми ковариационными матрицами. Значения, близкие к нулю, указывают на лучшее соответствие; меньшая разница между ожидаемой и наблюдаемой ковариационной матрицей. Статистику хи-квадрат также можно использовать для прямого сравнения соответствия вложенных моделей данным. Однако одна трудность с критерием соответствия модели хи-квадрат заключается в том, что исследователи могут не отклонить несоответствующую модель в малых размерах выборки и отклонить подходящую модель в больших выборках. В результате были разработаны другие меры соответствия.

Среднеквадратичная ошибка аппроксимации

Среднеквадратичная ошибка аппроксимации (RMSEA) позволяет избежать проблем с размером выборки за счет анализа несоответствия между гипотетической моделью с оптимально выбранными оценками параметров и Ковариационная матрица населения. RMSEA находится в диапазоне от 0 до 1, меньшие значения указывают на лучшее соответствие модели. Значение 0,06 или меньше указывает на приемлемое соответствие модели.

Среднеквадратичный остаток и стандартизированный среднеквадратичный остаток

Среднеквадратичный остаток (RMR) и стандартизованный среднеквадратичный остаток (SRMR) - это квадратный корень из расхождения между выборочной ковариационной матрицей и ковариационной матрицей модели. Однако RMR может быть несколько сложно интерпретировать, поскольку его диапазон основан на шкалах показателей в модели (это становится сложно, когда у вас есть несколько показателей с разными шкалами, например, два вопросника, один по шкале от 0 до 10., другой по шкале от 1 до 3). Стандартизованная среднеквадратичная невязка устраняет эту трудность при интерпретации и составляет от 0 до 1, при этом значение 0,08 или меньше указывает на приемлемую модель.

Индекс согласия и скорректированный индекс качества соответствия

Индекс согласия (GFI) - это мера соответствия между гипотетической моделью и наблюдаемой ковариационной матрицей. Скорректированный индекс согласия (AGFI) корректирует GFI, на который влияет количество индикаторов каждой скрытой переменной. GFI и AGFI находятся в диапазоне от 0 до 1, причем значение более 0,9 обычно указывает на приемлемое соответствие модели.

Индексы относительного соответствия

Индексы относительного соответствия (также называемые «индексами возрастающего соответствия» и «Сравнительные индексы соответствия») сравнивают хи-квадрат для гипотетической модели с одним из «нулевой» или «базовой» модели. Эта нулевая модель почти всегда содержит модель, в которой все переменные не коррелированы, и, как следствие, имеет очень большой хи-квадрат (что указывает на плохое соответствие). Индексы относительного соответствия включают нормированный индекс соответствия и индекс сравнительного соответствия.

Нормированный индекс соответствия и ненормированный индекс соответствия

Нормированный индекс соответствия (NFI) анализирует несоответствие между значением хи-квадрат гипотетической модели и значением хи-квадрат нулевого модель. Однако NFI имеет тенденцию быть отрицательным. Ненормированный индекс соответствия (NNFI; также известный как индекс Такера-Льюиса, поскольку он был построен на индексе, сформированном Такером и Льюисом в 1973 году) решает некоторые проблемы отрицательного смещения, хотя значения NNFI могут иногда выходить за рамки диапазон от 0 до 1. Значения как для NFI, так и для NNFI должны находиться в диапазоне от 0 до 1, с порогом 0,95 или выше, указывающим на хорошее соответствие модели.

Индекс сравнительного соответствия

Индекс сравнительного соответствия (CFI) анализирует соответствие модели, исследуя несоответствие между данными и предполагаемой моделью, при этом корректируя проблемы размера выборки, присущие критерию соответствия модели хи-квадрат, и нормированному индексу соответствия. Значения CFI варьируются от 0 до 1, причем большие значения указывают на лучшее соответствие. Раньше считалось, что значение CFI 0,90 или больше указывает на приемлемое соответствие модели. Однако недавние исследования показали, что значение больше 0,90 необходимо, чтобы модели с ошибками не считались приемлемыми (Hu Bentler, 1999). Таким образом, значение CFI 0,95 или выше в настоящее время считается показателем хорошего соответствия (Hu Bentler, 1999).

Идентификация и неполная идентификация

Чтобы оценить параметры модели, модель должна быть правильно идентифицирована. То есть количество оцененных (неизвестных) параметров (q) должно быть меньше или равно количеству уникальных дисперсий и ковариаций среди измеряемых переменных; р (р + 1) / 2. Это уравнение известно как «правило t». Если доступно слишком мало информации, на которой можно основывать оценки параметров, модель считается недооцененной, и параметры модели не могут быть оценены надлежащим образом.

См. Также
Ссылки
Дополнительная литература
  • Brown, TA (2006). Подтверждающий факторный анализ для прикладных исследований. Нью-Йорк: Гилфорд.
  • ДиСтефано, К., и Хесс, Б. (2005). Использование подтверждающего факторного анализа для проверки конструкции: эмпирический обзор. Journal of Psychoeducational Assessment, 23, 225-241.
  • Харрингтон, Д. (2009). Подтверждающий факторный анализ. Нью-Йорк: Oxford University Press.
  • Маруяма, Г. М. (1998). Основы моделирования структурными уравнениями. Thousand Oaks, CA: Sage.
Внешние ссылки
Последняя правка сделана 2021-05-15 09:19:35
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте