Мультиколлинеарность

редактировать
«Коллинеарность (статистика)» перенаправляется сюда. Не следует путать с коллинеарностью (геометрией).

В статистике, мультиколлинеарность (также коллинеарность) представляет собой явление, при котором один предикторе переменных в множественной регрессии модели может быть линейно предсказан от другихов с существенной степенью точности. В этой ситуации оценки коэффициентов множественной регрессии могут изменяться беспорядочно в ответ на небольшие изменения в модели или данных. Мультиколлинеарность не снижает предсказательную силу или надежность модели в целом, по крайней мере, в пределах выборки данных; он влияет только на вычисления, касающиеся отдельных предикторов. То есть многомерная регрессионная модель с коллинеарными предикторами может указывать, насколько хорошо весь набор предикторов предсказывает переменную результата, но она может не давать достоверных результатов о каком-либо отдельном предикторе или о том, какие предикторы являются избыточными по отношению к другим.

Обратите внимание, что в заявлениях о допущениях, лежащих в основе регрессионного анализа, таких как обычный метод наименьших квадратов, фраза «нет мультиколлинеарности» обычно относится к отсутствию совершенной мультиколлинеарности, которая является точной (нестохастической) линейной зависимостью между предикторами. В таком случае матрица данных имеет менее полный ранг, и поэтому матрица моментов не может быть инвертирована. В этих условиях для общей линейной модели обычной оценки методом наименьших квадратов не существует. Икс {\ displaystyle X} Икс Т Икс {\ Displaystyle X ^ {\ mathsf {T}} X} у знак равно Икс β + ϵ {\ Displaystyle у = Х \ бета + \ эпсилон} β ^ О L S знак равно ( Икс Т Икс ) - 1 Икс Т у {\ displaystyle {\ hat {\ beta}} _ {OLS} = (X ^ {\ mathsf {T}} X) ^ {- 1} X ^ {\ mathsf {T}} y}

В любом случае мультиколлинеарность - это характеристика матрицы данных, а не лежащей в ее основе статистической модели.

СОДЕРЖАНИЕ
  • 1 Определение
  • 2 Обнаружение
  • 3 Последствия
  • 4 средства правовой защиты
  • 5 Возникновение
    • 5.1 Анализ выживаемости
    • 5.2 Процентные ставки на разные сроки до погашения
  • 6 Расширение
  • 7 См. Также
  • 8 ссылки
  • 9 Дальнейшее чтение
  • 10 Внешние ссылки
Определение

Коллинеарность - это линейная связь между двумя независимыми переменными. Две переменные идеально коллинеарны, если между ними существует точная линейная зависимость. Например, и идеально коллинеарны, если существуют параметры и такие, что для всех наблюдений i мы имеем Икс 1 {\ displaystyle X_ {1}} Икс 2 {\ displaystyle X_ {2}} λ 0 {\ displaystyle \ lambda _ {0}} λ 1 {\ displaystyle \ lambda _ {1}}

Икс 2 я знак равно λ 0 + λ 1 Икс 1 я . {\ displaystyle X_ {2i} = \ lambda _ {0} + \ lambda _ {1} X_ {1i}.}

Мультиколлинеарность относится к ситуации, в которой более двух независимых переменных в модели множественной регрессии сильно линейно связаны. У нас есть идеальная мультиколлинеарность, если, например, как в приведенном выше уравнении, корреляция между двумя независимыми переменными равна 1 или -1. На практике мы редко сталкиваемся с идеальной мультиколлинеарностью в наборе данных. Чаще проблема мультиколлинеарности возникает, когда существует приблизительная линейная связь между двумя или более независимыми переменными.

Изображение мультиколлинеарности.

Математически набор переменных является полностью мультиколлинеарным, если между некоторыми переменными существует одно или несколько точных линейных отношений. Например, у нас может быть

λ 0 + λ 1 Икс 1 я + λ 2 Икс 2 я + + λ k Икс k я знак равно 0 {\ displaystyle \ lambda _ {0} + \ lambda _ {1} X_ {1i} + \ lambda _ {2} X_ {2i} + \ cdots + \ lambda _ {k} X_ {ki} = 0}

выполняется для всех наблюдений i, где - константы, и является i- м наблюдением по k- й объясняющей переменной. Мы можем изучить одну проблему, вызванную мультиколлинеарностью, исследуя процесс попытки получить оценки параметров уравнения множественной регрессии. λ k {\ displaystyle \ lambda _ {k}} Икс k я {\ displaystyle X_ {ki}}

Y я знак равно β 0 + β 1 Икс 1 я + + β k Икс k я + ε я . {\ displaystyle Y_ {i} = \ beta _ {0} + \ beta _ {1} X_ {1i} + \ cdots + \ beta _ {k} X_ {ki} + \ varepsilon _ {i}.}

В обычных наименьших квадратов оценки вовлекают обращения матрицы

Икс Т Икс {\ displaystyle X ^ {T} X}

куда

Икс знак равно [ 1 Икс 11 Икс k 1 1 Икс 1 N Икс k N ] {\ displaystyle X = {\ begin {bmatrix} 1 amp; X_ {11} amp; \ cdots amp; X_ {k1} \\\ vdots amp; \ vdots amp;amp; \ vdots \\ 1 amp; X_ {1N} amp; \ cdots amp; X_ {kN} \ end {bmatrix} }}

представляет собой матрицу размером N × ( k +1), где N - количество наблюдений, а k - количество объясняющих переменных (при этом N должно быть больше или равно k +1). Если между независимыми переменными существует точная линейная связь (совершенная мультиколлинеарность), по крайней мере, один из столбцов X является линейной комбинацией других, и поэтому ранг X (и, следовательно, X T X) меньше k +1, и матрица X T X не будет обратимой.

Идеальная мультиколлинеарность довольно часто встречается при работе с необработанными наборами данных, которые часто содержат избыточную информацию. Однако после выявления и устранения избыточностей часто остаются почти мультиколлинеарные переменные из-за корреляций, присущих изучаемой системе. В таком случае вместо приведенного выше уравнения у нас есть это уравнение в модифицированной форме с ошибкой: v я {\ displaystyle v_ {i}}

λ 0 + λ 1 Икс 1 я + λ 2 Икс 2 я + + λ k Икс k я + v я знак равно 0. {\ displaystyle \ lambda _ {0} + \ lambda _ {1} X_ {1i} + \ lambda _ {2} X_ {2i} + \ cdots + \ lambda _ {k} X_ {ki} + v_ {i} = 0.}

В этом случае нет точной линейной зависимости между переменными, но переменные почти идеально мультиколлинеарны, если дисперсия мала для некоторого набора значений для 's. В этом случае матрица X T X имеет инверсию, но плохо обусловлена, так что данный компьютерный алгоритм может или не может быть в состоянии вычислить приближенное обратное, и если это так, полученная вычисленная инверсия может быть очень чувствительной к незначительные отклонения в данных (из-за увеличенного эффекта либо ошибки округления, либо незначительных отклонений в точках выборки данных) и поэтому могут быть очень неточными или сильно зависеть от выборки. Икс j {\ displaystyle X_ {j}} v я {\ displaystyle v_ {i}} λ {\ displaystyle \ lambda}

Обнаружение

Признаки того, что в модели может присутствовать мультиколлинеарность, включают следующее:

  1. Значительные изменения в оценочных коэффициентах регрессии при добавлении или удалении переменной-предиктора
  2. Незначительные коэффициенты регрессии для затронутых переменных в множественной регрессии, но отклонение совместной гипотезы о том, что все эти коэффициенты равны нулю (с использованием F- критерия )
  3. Если многомерная регрессия обнаруживает незначительный коэффициент определенного объяснителя, но простая линейная регрессия объясняемой переменной по этой объясняющей переменной показывает, что ее коэффициент значительно отличается от нуля, эта ситуация указывает на мультиколлинеарность в многомерной регрессии.
  4. Некоторые авторы предложили формальную толерантность к обнаружению или коэффициент инфляции дисперсии (VIF) для мультиколлинеарности: где - коэффициент детерминации регрессии объяснителя j для всех других объяснителей. Допуск менее 0,20 или 0,10 и / или VIF 5 или 10 и выше указывает на проблему мультиколлинеарности. т о л е р а п c е знак равно 1 - р j 2 , V я F знак равно 1 т о л е р а п c е , {\ Displaystyle \ mathrm {терпимость} = 1-R_ {j} ^ {2}, \ quad \ mathrm {VIF} = {\ frac {1} {\ mathrm {терпимость}}},} р j 2 {\ displaystyle R_ {j} ^ {2}}
  5. Тест Фаррара – Глаубера: если оказывается, что переменные ортогональны, мультиколлинеарность отсутствует; если переменные не ортогональны, то есть хотя бы некоторая степень мультиколлинеарности. С. Роберт Уичерс утверждал, что тест частичной корреляции Фаррара – Глаубера неэффективен в том смысле, что данная частичная корреляция может быть совместима с различными паттернами мультиколлинеарности. Тест Фаррара – Глаубера также подвергался критике со стороны других исследователей.
  6. Проверка числа условий: стандартным показателем плохой обусловленности в матрице является индекс состояния. Это будет означать, что инверсия матрицы численно нестабильна с числами конечной точности (стандартные компьютерные числа с плавающей запятой и двойные ). Это указывает на потенциальную чувствительность вычисленной обратной величины к небольшим изменениям исходной матрицы. Число обусловленности вычисляется путем нахождения квадратного корня из максимального собственного значения, деленного на минимальное собственное значение матрицы плана. Если число условий больше 30, регресс может иметь серьезную мультиколлинеарность; мультиколлинеарность существует, если, кроме того, две или более переменных, связанных с высоким числом обусловленности, имеют объясненные высокие доли дисперсии. Одним из преимуществ этого метода является то, что он также показывает, какие переменные вызывают проблему.
  7. Нарушение данных. Мультиколлинеарность можно обнаружить, добавив к данным случайный шум и повторно запустив регрессию много раз и наблюдая, насколько изменяются коэффициенты.
  8. Построение корреляционной матрицы среди независимых переменных даст указания относительно вероятности того, что любая заданная пара переменных с правой частью создает проблемы мультиколлинеарности. Значения корреляции (недиагональные элементы) не менее 0,4 иногда интерпретируются как указывающие на проблему мультиколлинеарности. Однако эта процедура очень проблематична и не может быть рекомендована. Интуитивно корреляция описывает двумерные отношения, тогда как коллинеарность - многомерное явление.
Последствия

Одним из следствий высокой степени мультиколлинеарности является то, что, даже если матрица является обратимой, компьютерный алгоритм может оказаться неудачным в получении приблизительного обратного значения, а если он его получит, он может оказаться неточным в числовом отношении. Но даже при наличии точной матрицы возникают следующие последствия. Икс Икс {\ displaystyle X ^ {\ top} X} Икс Икс {\ displaystyle X ^ {\ top} X}

При наличии мультиколлинеарности оценка влияния одной переменной на зависимую переменную при контроле над другими имеет тенденцию быть менее точной, чем если бы предикторы не коррелировали друг с другом. Обычная интерпретация коэффициента регрессии заключается в том, что он обеспечивает оценку влияния изменения на одну единицу независимой переменной, при сохранении постоянных других переменных. Если сильно коррелирует с другой независимой переменной в данном наборе данных, то у нас есть набор наблюдений, для которых и имеется конкретная линейная стохастическая связь. У нас нет набора наблюдений, для которого все изменения не зависят от изменений, поэтому у нас нет точной оценки эффекта независимых изменений. Y {\ displaystyle Y} Икс 1 {\ displaystyle X_ {1}} Икс 1 {\ displaystyle X_ {1}} Икс 2 {\ displaystyle X_ {2}} Икс 1 {\ displaystyle X_ {1}} Икс 2 {\ displaystyle X_ {2}} Икс 1 {\ displaystyle X_ {1}} Икс 2 {\ displaystyle X_ {2}} Икс 1 {\ displaystyle X_ {1}}

В некотором смысле коллинеарные переменные содержат одинаковую информацию о зависимой переменной. Если номинально «разные» меры фактически дают количественную оценку одного и того же явления, то они излишни. В качестве альтернативы, если переменным присвоены разные имена и, возможно, используются разные числовые шкалы измерения, но они сильно коррелированы друг с другом, то они страдают от избыточности.

Одной из особенностей мультиколлинеарности является то, что стандартные ошибки затронутых коэффициентов имеют тенденцию быть большими. В этом случае проверка гипотезы о том, что коэффициент равен нулю, может привести к неспособности отвергнуть ложную нулевую гипотезу об отсутствии эффекта объяснителя, ошибку типа II.

Другая проблема с мультиколлинеарностью заключается в том, что небольшие изменения входных данных могут привести к большим изменениям в модели, даже к изменению знака оценок параметров.

Основная опасность такого резервирования данных является то, что переобучения в регрессионном анализе моделях. Наилучшими моделями регрессии являются те, в которых каждая из переменных-предикторов сильно коррелирует с зависимой (исходной) переменной, но в лучшем случае лишь минимально коррелирует друг с другом. Такую модель часто называют «малошумной», и она будет статистически устойчивой (то есть будет надежно предсказывать многочисленные выборки наборов переменных, взятых из одной и той же статистической совокупности).

Пока базовая спецификация верна, мультиколлинеарность фактически не влияет на результаты; он просто вызывает большие стандартные ошибки в связанных независимых переменных. Что еще более важно, обычное использование регрессии состоит в том, чтобы брать коэффициенты из модели и затем применять их к другим данным. Поскольку мультиколлинеарность приводит к неточным оценкам значений коэффициентов, результирующие прогнозы вне выборки также будут неточными. И если картина мультиколлинеарности в новых данных отличается от таковой в данных, которые были подогнаны, такая экстраполяция может привести к большим ошибкам в прогнозах.

средства защиты
  1. Убедитесь, что вы не попали в ловушку фиктивной переменной ; включение фиктивной переменной для каждой категории (например, лето, осень, зима и весна) и включение постоянного члена в регрессию вместе гарантируют идеальную мультиколлинеарность.
  2. Попробуйте посмотреть, что произойдет, если вы используете независимые подмножества данных для оценки и примените эти оценки ко всему набору данных. Теоретически вы должны получить несколько более высокую дисперсию от меньших наборов данных, используемых для оценки, но ожидаемые значения коэффициентов должны быть такими же. Естественно, наблюдаемые значения коэффициентов будут различаться, но посмотрите, насколько они варьируются.
  3. Оставьте модель как есть, несмотря на мультиколлинеарность. Наличие мультиколлинеарности не влияет на эффективность экстраполяции подобранной модели на новые данные при условии, что переменные-предикторы следуют тому же шаблону мультиколлинеарности в новых данных, что и в данных, на которых основана регрессионная модель.
  4. Отбросьте одну из переменных. Объясняющая переменная может быть опущена для создания модели со значимыми коэффициентами. Однако вы теряете информацию (потому что вы потеряли переменную). Пропуск релевантной переменной приводит к смещенным оценкам коэффициентов для остальных независимых переменных, которые коррелируют с опущенной переменной.
  5. Если возможно, получите больше данных. Это предпочтительное решение. Больше данных может дать более точные оценки параметров (с более низкими стандартными ошибками), как видно из формулы коэффициента инфляции дисперсии для дисперсии оценки коэффициента регрессии с точки зрения размера выборки и степени мультиколлинеарности.
  6. Сосредоточьте переменные-предикторы в центре. Создание полиномиальных условий (то есть, для,, и т.д.) или условий взаимодействия (то есть, и т.д.) может вызвать некоторые мультиколлинеарности, если рассматриваемые переменные имеет ограниченный диапазон (например, [2,4]). Среднее центрирование устранит этот особый вид мультиколлинеарности. Однако в целом это не дает никакого эффекта. Это может быть полезно для решения проблем, связанных с округлением и другими вычислительными шагами, если не используется тщательно разработанная компьютерная программа. Икс 1 {\ displaystyle x_ {1}} Икс 1 2 {\ displaystyle x_ {1} ^ {2}} Икс 1 3 {\ displaystyle x_ {1} ^ {3}} Икс 1 × Икс 2 {\ displaystyle x_ {1} \ times x_ {2}}
  7. Стандартизируйте свои независимые переменные. Это может помочь уменьшить количество ложных отметок индекса состояния выше 30.
  8. Также было высказано предположение, что, используя значение Шепли, инструмент теории игр, модель могла бы учесть эффекты мультиколлинеарности. Значение Шепли присваивает значение каждому предиктору и оценивает все возможные комбинации важности.
  9. Ридж регрессии или основной компонент регрессии или частичной регрессии по методу наименьших квадратов может быть использован.
  10. Если коррелированные объяснители представляют собой разные запаздывающие значения одного и того же основного объяснителя, то можно использовать метод распределенного запаздывания, налагающий общую структуру на относительные значения коэффициентов, которые необходимо оценить.
Вхождение

Анализ выживаемости

Мультиколлинеарность может представлять серьезную проблему при анализе выживаемости. Проблема в том, что изменяющиеся во времени ковариаты могут изменять свое значение на временной шкале исследования. Рекомендуется специальная процедура для оценки влияния мультиколлинеарности на результаты.

Процентные ставки на разные сроки до погашения

В различных ситуациях можно предположить, что несколько процентных ставок с разными сроками до погашения влияют на какое-либо экономическое решение, такое как сумма денег или какого-либо другого финансового актива, который необходимо держать, или сумма инвестиций в основной капитал, которые необходимо задействовать. В этом случае включение этих различных процентных ставок, как правило, создает существенную проблему мультиколлинеарности, поскольку процентные ставки имеют тенденцию изменяться вместе. Если на самом деле каждая из процентных ставок оказывает свое собственное отдельное влияние на зависимую переменную, может быть чрезвычайно трудно разделить их влияние.

Расширение

Концепция латеральной коллинеарности расширяет традиционный взгляд на мультиколлинеарность, включая также коллинеарность между объясняющими и критериальными (т. Е. Объясненными) переменными в том смысле, что они могут измерять почти то же самое, что и друг друга.

Смотрите также
использованная литература
дальнейшее чтение
  • Белсли, Дэвид А.; Кух, Эдвин ; Велш, Рой Э. (1980). Регрессионная диагностика: определение важных данных и источников коллинеарности. Нью-Йорк: Вили. ISBN   978-0-471-05856-4.
  • Гольдбергер, Артур С. (1991). «Мультиколлинеарность». Курс эконометрики. Кембридж: Издательство Гарвардского университета. С. 245–53.
  • Хилл, Р. Картер; Адкинс, Ли К. (2001). «Коллинеарность». В Балтаги, Бади Х. (ред.). Компаньон теоретической эконометрики. Блэквелл. С. 256–278. DOI : 10.1002 / 9780470996249.ch13. ISBN   978-0-631-21254-6.
  • Джонстон, Джон (1972). Эконометрические методы (второе изд.). Нью-Йорк: Макгроу-Хилл. стр.  159 -168.
  • Кмента, Ян (1986). Элементы эконометрики (второе изд.). Нью-Йорк: Макмиллан. С.  430–442. ISBN   978-0-02-365070-3.
  • Маддала, GS ; Лахири, Каджал (2009). Введение в эконометрику (Четвертое изд.). Чичестер: Вайли. С. 279–312. ISBN   978-0-470-01512-4.
  • Томашек, Фабиан; Хендрикс, Питер; Баайен, Р. Харальд (2018). «Стратегии решения проблемы коллинеарности в многомерных лингвистических данных». Журнал фонетики. 71: 249–267.
внешние ссылки
Последняя правка сделана 2023-04-05 05:31:06
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте