Анализ множественных соответствий

редактировать

В статистических данных, множественный анализ соответствия ( MCA) представляет собой анализ данных метод для номинальных категориальных данных, используемый для обнаружения и представляют собой основные структуры в наборе данных. Он делает это, представляя данные в виде точек в низкоразмерном евклидовом пространстве. Таким образом, процедура является аналогом анализа главных компонентов для категориальных данных. MCA можно рассматривать как расширение простого анализа соответствий (CA) в том смысле, что он применим к большому набору категориальных переменных.

СОДЕРЖАНИЕ

1 Как расширение анализа соответствий
2 Детали
3 Последние работы и дополнения
4 Области применения
5 Анализ множественных соответствий и анализ главных компонент
6 Программное обеспечение
7 ссылки
8 Внешние ссылки

Как расширение анализа соответствий

MCA выполняется путем применения алгоритма CA либо к индикаторной матрице (также называемой полной дизъюнктивной таблицей - CDT), либо к таблице Берта, сформированной из этих переменных. Индикаторная матрица - это матрица индивидов × переменные, где строки представляют индивидов, а столбцы - фиктивные переменные, представляющие категории переменных. Анализ индикаторной матрицы позволяет напрямую представлять людей в виде точек в геометрическом пространстве. Таблица Берта представляет собой симметричную матрицу всех двусторонних перекрестных таблиц между категориальными переменными и имеет аналогию с ковариационной матрицей непрерывных переменных. Анализ таблицы Берта является более естественным обобщением простого анализа соответствий, и отдельные лица или средства групп лиц могут быть добавлены в качестве дополнительных точек к графическому отображению.

При использовании индикаторной матрицы связи между переменными выявляются путем вычисления расстояния хи-квадрат между различными категориями переменных и между людьми (или респондентами). Эти связи затем представляются графически в виде «карт», что упрощает интерпретацию структур данных. Затем противоположности между строками и столбцами максимизируются, чтобы выявить базовые измерения, которые лучше всего подходят для описания центральных противоположностей в данных. Как и в факторном анализе или анализе главных компонентов, первая ось является наиболее важным параметром, вторая ось - вторым по важности и так далее с точки зрения величины учтенной дисперсии. Количество осей, которые необходимо сохранить для анализа, определяется путем вычисления модифицированных собственных значений.

Подробности

Поскольку MCA адаптирован для получения статистических выводов из категориальных переменных (таких как вопросы с несколькими вариантами ответов), первое, что нужно сделать, это преобразовать количественные данные (такие как возраст, размер, вес, время суток и т. Д.) В категории (используя например статистические квантили).

Когда набор данных полностью представлен в виде категориальных переменных, можно построить соответствующую так называемую полностью дизъюнктивную таблицу. Обозначим эту таблицу. Если люди ответили на опрос с несколькими вариантами ответов, вопросы с 4 ответами на каждый, будут иметь строки и столбцы. ${\ displaystyle X}$ $Икс$ ${\ displaystyle I}$ $я$ ${\ displaystyle J}$ $J$ ${\ displaystyle X}$ $Икс$ ${\ displaystyle I}$ $я$ ${\ displaystyle 4J}$ ${\ displaystyle 4J}$

Теоретически предположим, что это полностью дизъюнктивная таблица наблюдений за категориальными переменными. Предположим также, что -я переменная имеет разные уровни (категории) и набор. В таком случае таблица представляет собой матрицу, в которой все коэффициенты равны или. Установите сумму всех записей быть и ввести. В MCA также есть два специальных вектора: первый, который содержит суммы по строкам, и который содержит суммы по столбцам. Обратите внимание, и, диагональные матрицы, содержащие и, соответственно, как по диагонали. В этих обозначениях вычисление MCA по существу состоит в разложении матрицы по сингулярным числам: ${\ displaystyle X}$ $Икс$ ${\ displaystyle I}$ $я$ ${\ displaystyle K}$ $K$ ${\ displaystyle k}$ $k$ ${\ displaystyle J_ {k}}$ $J_ {k}$ ${\ Displaystyle J = \ сумма _ {к = 1} ^ {K} J_ {k}}$ ${\ Displaystyle J = \ сумма _ {к = 1} ^ {K} J_ {k}}$ ${\ displaystyle X}$ $Икс$ ${\ displaystyle I \ times J}$ $I \ раз J$ ${\ displaystyle 1}$ $1$ ${\ displaystyle X}$ $Икс$ ${\ displaystyle N}$ $N$ ${\ Displaystyle Z = X / N}$ ${\ Displaystyle Z = X / N}$ ${\ displaystyle r}$ $р$ ${\ displaystyle Z}$ $Z$ ${\ displaystyle c}$ $c$ ${\ displaystyle Z}$ $Z$ ${\ displaystyle D_ {r} = {\ text {diag}} (r)}$ ${\ displaystyle D_ {r} = {\ text {diag}} (r)}$ ${\ displaystyle D_ {c} = {\ text {diag}} (c)}$ ${\ displaystyle D_ {c} = {\ text {diag}} (c)}$ ${\ displaystyle r}$ $р$ ${\ displaystyle c}$ $c$

{\ Displaystyle M = D_ {r} ^ {- 1/2} (Z-rc ^ {t}) D_ {c} ^ {- 1/2}}

{\ Displaystyle M = D_ {r} ^ {- 1/2} (Z-rc ^ {t}) D_ {c} ^ {- 1/2}}

Разложение дает вам, и таким образом, что с Р, Q две унитарных матриц и является обобщенной диагональной матрицей сингулярных значений (с одной и той же формой, как). Положительные коэффициенты являются собственными значениями. ${\ displaystyle M}$ $M$ ${\ displaystyle P}$ $п$ ${\ displaystyle \ Delta}$ $\ Дельта$ ${\ displaystyle Q}$ $Q$ ${\ Displaystyle M = P \ Delta Q ^ {t}}$ ${\ Displaystyle M = P \ Delta Q ^ {t}}$ ${\ displaystyle \ Delta}$ $\ Дельта$ ${\ displaystyle Z}$ $Z$ ${\ displaystyle \ Delta ^ {2}}$ $\ Delta ^ {2}$ ${\ displaystyle Z}$ $Z$

Интерес к MCA связан с тем, как можно разложить наблюдения (строки) и переменные (столбцы). Это разложение называется факторным разложением. Координаты наблюдений в факторном пространстве задаются формулами ${\ displaystyle Z}$ $Z$

{\ Displaystyle F = D_ {r} ^ {- 1/2} P \ Delta}

{\ Displaystyle F = D_ {r} ^ {- 1/2} P \ Delta}

В -х строках представляют собой ее наблюдение в факторном пространстве. Точно так же координаты переменных (в том же факторном пространстве, что и наблюдения!) Задаются выражением ${\ displaystyle i}$ $я$ ${\ displaystyle F}$ $F$ ${\ displaystyle i}$ $я$

{\ Displaystyle G = D_ {c} ^ {- 1/2} Q \ Delta}

{\ Displaystyle G = D_ {c} ^ {- 1/2} Q \ Delta}

Последние работы и расширения

В последние годы несколько студентов Жан-Поля Бенцекри усовершенствовали MCA и включили его в более общую структуру анализа данных, известную как анализ геометрических данных. Это предполагает развитие прямых связей между простым анализом соответствий, основным компонентом анализом и MCA с формой кластерного анализа, известным как евклидова классификации.

Два расширения имеют большое практическое применение.

В качестве активных элементов в MCA можно включить несколько количественных переменных. Это расширение называется факторным анализом смешанных данных (см. Ниже).
Очень часто в анкетах вопросы структурированы в несколько выпусков. При статистическом анализе необходимо учитывать эту структуру. Это цель многофакторного анализа, который уравновешивает различные проблемы (т.е. различные группы переменных) в рамках глобального анализа и обеспечивает, помимо классических результатов факторного анализа (в основном графики отдельных лиц и категорий), несколько результатов (индикаторы и графика), характерные для структуры группы.

Области применения

В социальных науках MCA, возможно, наиболее известен своим применением Пьера Бурдье, особенно в его книгах La Distinction, Homo Academicus и The State Nobility. Бурдье утверждал, что существует внутренняя связь между его видением социального как пространственного и относительного, охватываемого понятием поля, и геометрическими свойствами MCA. Социологи, следящие за работой Бурдье, чаще всего выбирают анализ индикаторной матрицы, а не таблицы Берта, в основном из-за того, что центральное значение придается анализу «облака индивидов».

Анализ множественных соответствий и анализ главных компонент

MCA также можно рассматривать как PCA, примененный к полной дизъюнктивной таблице. Для этого CDT необходимо преобразовать следующим образом. Обозначим через общий член CDT. равно 1, если индивидуум обладает категорией, и 0, если нет. Обозначим, долю лиц, обладающих категорией. Преобразованный CDT (TCDT) имеет общий термин: ${\ displaystyle y_ {ik}}$ $у _ {{ik}}$ ${\ displaystyle y_ {ik}}$ $у _ {{ik}}$ ${\ displaystyle i}$ $я$ ${\ displaystyle k}$ $k$ ${\ displaystyle p_ {k}}$ $p_ {k}$ ${\ displaystyle k}$ $k$

 $x_{ik}=y_{ik}/p_{k}-1$  $x_{{ik}}=y_{{ik}}/p_{k}-1$

Нестандартизованный PCA, примененный к TCDT, столбцу, имеющему вес, приводит к результатам MCA. ${\ displaystyle k}$ $k$ ${\ displaystyle p_ {k}}$ $p_ {k}$

Эта эквивалентность полностью объяснена в книге Жерома Пажеса. Он играет важную теоретическую роль, поскольку открывает путь к одновременной обработке количественных и качественных переменных. Два метода одновременно анализируют эти два типа переменных: факторный анализ смешанных данных и, когда активные переменные разделены на несколько групп: многофакторный анализ.

Эта эквивалентность не означает, что MCA является частным случаем PCA, поскольку это не частный случай CA. Это означает лишь то, что эти методы тесно связаны друг с другом, поскольку принадлежат к одному семейству: факторным методам.

Программное обеспечение

Существует множество программ анализа данных, которые включают MCA, например STATA и SPSS. Пакет R FactoMineR также включает MCA. Это программное обеспечение связано с книгой, в которой описаны основные методы выполнения MCA. Существует также пакет Python для [1], который работает с матрицами массива numpy; пакет еще не реализован для фреймов данных Spark.

использованная литература

^ Ле Ру; Б. и Х. Руане (2004). Анализ геометрических данных, от анализа корреспонденции до анализа структурированных данных. Дордрехт. Kluwer: с.180.
^ Гринакр, Майкл и Власий, Йорг (редакторы) (2006). Анализ множественных соответствий и связанные с ними методы. Лондон: Chapman amp; Hall / CRC.CS1 maint: несколько имен: список авторов ( ссылка ) CS1 maint: дополнительный текст: список авторов ( ссылка )
^ Гринакр, Майкл (2007). Анализ корреспонденции на практике, второе издание. Лондон: Chapman amp; Hall / CRC.
^ Ле Ру, Б. и Х. Руане (2004), Анализ геометрических данных, От анализа соответствий к анализу структурированных данных, Дордрехт. Kluwer: стр.179
↑ Эрве Абди; Доминик Валентин (2007). «Анализ множественных соответствий» (PDF).
^ Ле Ру; Б. и Х. Руане (2004). Анализ геометрических данных, от анализа корреспонденции до анализа структурированных данных. Дордрехт. Kluwer.
^ Скотт, Джон и Гордон Маршалл (2009): Оксфордский словарь социологии, стр. 135. Оксфорд: Издательство Оксфордского университета.
^ Руанэ, Генри (2000) «Геометрический анализ анкет. Урок Бурдье La Distinction», в Bulletin de Méthodologie Sociologique 65, стр. 4–18
^ Лебарон, Фредерик (2009) «Как Бурдье« количественно оценил »Бурдье: геометрическое моделирование данных», в Робсоне и Сандерсе (ред.) Теория количественной оценки: Пьер Бурдье. Springer, стр. 11-30.
^ Pagès Жером (2014). Множественный фактор Анализ с помощью примера, используя R. Chapman amp; Hall / CRC The R Series London 272 p.
^ Хассон Ф., Lê С. amp; Pagès J. (2009). Исследовательский Многофакторный анализ по примеру Используя R. Chapman amp; Hall / CRC The R Series, Лондон. ISBN 978-2-7535-0938-2

внешние ссылки

Ле Ру, Б. и Х. Руане (2004), Анализ геометрических данных, От анализа соответствий к анализу структурированных данных в Google Книги: [2]
Гринакр, Майкл (2008), La Práctica del Análisis de Correspondencias, Фонд BBVA, Мадрид, доступно для бесплатного скачивания на веб-сайте фонда [3]
Программное обеспечение FactoMineR AR, предназначенное для исследовательского анализа данных.