В статистических данных, множественный анализ соответствия ( MCA) представляет собой анализ данных метод для номинальных категориальных данных, используемый для обнаружения и представляют собой основные структуры в наборе данных. Он делает это, представляя данные в виде точек в низкоразмерном евклидовом пространстве. Таким образом, процедура является аналогом анализа главных компонентов для категориальных данных. MCA можно рассматривать как расширение простого анализа соответствий (CA) в том смысле, что он применим к большому набору категориальных переменных.
MCA выполняется путем применения алгоритма CA либо к индикаторной матрице (также называемой полной дизъюнктивной таблицей - CDT), либо к таблице Берта, сформированной из этих переменных. Индикаторная матрица - это матрица индивидов × переменные, где строки представляют индивидов, а столбцы - фиктивные переменные, представляющие категории переменных. Анализ индикаторной матрицы позволяет напрямую представлять людей в виде точек в геометрическом пространстве. Таблица Берта представляет собой симметричную матрицу всех двусторонних перекрестных таблиц между категориальными переменными и имеет аналогию с ковариационной матрицей непрерывных переменных. Анализ таблицы Берта является более естественным обобщением простого анализа соответствий, и отдельные лица или средства групп лиц могут быть добавлены в качестве дополнительных точек к графическому отображению.
При использовании индикаторной матрицы связи между переменными выявляются путем вычисления расстояния хи-квадрат между различными категориями переменных и между людьми (или респондентами). Эти связи затем представляются графически в виде «карт», что упрощает интерпретацию структур данных. Затем противоположности между строками и столбцами максимизируются, чтобы выявить базовые измерения, которые лучше всего подходят для описания центральных противоположностей в данных. Как и в факторном анализе или анализе главных компонентов, первая ось является наиболее важным параметром, вторая ось - вторым по важности и так далее с точки зрения величины учтенной дисперсии. Количество осей, которые необходимо сохранить для анализа, определяется путем вычисления модифицированных собственных значений.
Поскольку MCA адаптирован для получения статистических выводов из категориальных переменных (таких как вопросы с несколькими вариантами ответов), первое, что нужно сделать, это преобразовать количественные данные (такие как возраст, размер, вес, время суток и т. Д.) В категории (используя например статистические квантили).
Когда набор данных полностью представлен в виде категориальных переменных, можно построить соответствующую так называемую полностью дизъюнктивную таблицу. Обозначим эту таблицу. Если люди ответили на опрос с несколькими вариантами ответов, вопросы с 4 ответами на каждый, будут иметь строки и столбцы.
Теоретически предположим, что это полностью дизъюнктивная таблица наблюдений за категориальными переменными. Предположим также, что -я переменная имеет разные уровни (категории) и набор. В таком случае таблица представляет собой матрицу, в которой все коэффициенты равны или. Установите сумму всех записей быть и ввести. В MCA также есть два специальных вектора: первый, который содержит суммы по строкам, и который содержит суммы по столбцам. Обратите внимание, и, диагональные матрицы, содержащие и, соответственно, как по диагонали. В этих обозначениях вычисление MCA по существу состоит в разложении матрицы по сингулярным числам:
Разложение дает вам, и таким образом, что с Р, Q две унитарных матриц и является обобщенной диагональной матрицей сингулярных значений (с одной и той же формой, как). Положительные коэффициенты являются собственными значениями.
Интерес к MCA связан с тем, как можно разложить наблюдения (строки) и переменные (столбцы). Это разложение называется факторным разложением. Координаты наблюдений в факторном пространстве задаются формулами
В -х строках представляют собой ее наблюдение в факторном пространстве. Точно так же координаты переменных (в том же факторном пространстве, что и наблюдения!) Задаются выражением
В последние годы несколько студентов Жан-Поля Бенцекри усовершенствовали MCA и включили его в более общую структуру анализа данных, известную как анализ геометрических данных. Это предполагает развитие прямых связей между простым анализом соответствий, основным компонентом анализом и MCA с формой кластерного анализа, известным как евклидова классификации.
Два расширения имеют большое практическое применение.
В социальных науках MCA, возможно, наиболее известен своим применением Пьера Бурдье, особенно в его книгах La Distinction, Homo Academicus и The State Nobility. Бурдье утверждал, что существует внутренняя связь между его видением социального как пространственного и относительного, охватываемого понятием поля, и геометрическими свойствами MCA. Социологи, следящие за работой Бурдье, чаще всего выбирают анализ индикаторной матрицы, а не таблицы Берта, в основном из-за того, что центральное значение придается анализу «облака индивидов».
MCA также можно рассматривать как PCA, примененный к полной дизъюнктивной таблице. Для этого CDT необходимо преобразовать следующим образом. Обозначим через общий член CDT. равно 1, если индивидуум обладает категорией, и 0, если нет. Обозначим, долю лиц, обладающих категорией. Преобразованный CDT (TCDT) имеет общий термин:
Нестандартизованный PCA, примененный к TCDT, столбцу, имеющему вес, приводит к результатам MCA.
Эта эквивалентность полностью объяснена в книге Жерома Пажеса. Он играет важную теоретическую роль, поскольку открывает путь к одновременной обработке количественных и качественных переменных. Два метода одновременно анализируют эти два типа переменных: факторный анализ смешанных данных и, когда активные переменные разделены на несколько групп: многофакторный анализ.
Эта эквивалентность не означает, что MCA является частным случаем PCA, поскольку это не частный случай CA. Это означает лишь то, что эти методы тесно связаны друг с другом, поскольку принадлежат к одному семейству: факторным методам.
Существует множество программ анализа данных, которые включают MCA, например STATA и SPSS. Пакет R FactoMineR также включает MCA. Это программное обеспечение связано с книгой, в которой описаны основные методы выполнения MCA. Существует также пакет Python для [1], который работает с матрицами массива numpy; пакет еще не реализован для фреймов данных Spark.