Влиятельные наблюдение

редактировать
В квартете Анскомба два набора данных внизу оба содержат важные моменты. Все четыре набора идентичны при анализе с использованием простой сводной статистики, но значительно различаются на графике. Если бы одна точка была удалена, линия выглядела бы совсем иначе.

В статистике, влиятельное наблюдение - это наблюдение для статистического вычисления, удаление которого из набор данных заметно изменит результат вычисления. В частности, в регрессионном анализе влиятельная точка - это точка, удаление которой сильно влияет на оценки параметров.

Содержание
  • 1 Оценка
  • 2 Выбросы, рычаги влияния и влияние
  • 3 См. Также
  • 4 Ссылки
  • 5 Дополнительная литература
Оценка

Для измерения влияния были предложены различные методы. Предположим предполагаемую регрессию y = X b + e {\ displaystyle \ mathbf {y} = \ mathbf {X} \ mathbf {b} + \ mathbf {e}}{\ displaystyle \ mathbf {y} = \ mathbf {X} \ mathbf {b} + \ mathbf {e}} , где y {\ displaystyle \ mathbf {y}}\ mathbf {y} - вектор-столбец размером n × 1 для переменной ответа, X {\ displaystyle \ mathbf {X}}\ mathbf {X} - n × k матрица плана независимых переменных (включая константу), e {\ displaystyle \ mathbf {e}}\ mathbf { e} - остаточный вектор n × 1, а b {\ displaystyle \ mathbf {b}}\ mathbf {b} - вектор ak × 1 оценок некоторого параметра совокупности β ∈ R k {\ displaystyle \ mathbf {\ beta} \ in \ mathbb {R} ^ {k}}{\ displaystyle \ mathbf {\ beta} \ in \ mathbb {R} ^ {k}} . Также определите H ≡ X (XTX) - 1 XT {\ displaystyle \ mathbf {H} \ Equiv \ mathbf {X} \ left (\ mathbf {X} ^ {\ mathsf {T}} \ mathbf {X} \ right) ^ {- 1} \ mathbf {X} ^ {\ mathsf {T}}}{\ displaystyle \ mathbf {H} \ Equiv \ mathbf {X} \ left (\ mathbf {X} ^ {\ mathsf {T}} \ mathbf {X} \ right) ^ {- 1} \ mathbf { X} ^ {\ mathsf {T}}} , матрица проекции из X {\ displaystyle \ mathbf {X }}\ mathbf {X} . Тогда у нас есть следующие меры влияния:

  1. DFBETA i ≡ b - b (- i) = (XTX) - 1 xi T ei 1 - hi ⋅ {\ displaystyle {\ text {DFBETA}} _ {i} \ эквивалент \ mathbf {b} - \ mathbf {b} _ {(- i)} = {\ frac {\ left (\ mathbf {X} ^ {\ mathsf {T}} \ mathbf {X} \ right) ^ { -1} \ mathbf {x} _ {i} ^ {\ mathsf {T}} e_ {i}} {1-h_ {i \ cdot}}}}}{\ displaystyle {\ text {DFBETA}} _ {i} \ Equiv \ mathbf {b} - \ mathbf {b} _ {(- i) } = {\ frac {\ left (\ mathbf {X} ^ {\ mathsf {T}} \ mathbf {X} \ right) ^ {- 1} \ mathbf {x} _ {i} ^ {\ mathsf {T }} e_ {i}} {1-h_ {i \ cdot}}}} , где b ( - i) {\ displaystyle \ mathbf {b} _ {(- i)}}{\ displaystyle \ mathbf {b} _ {(- я)}} обозначает коэффициенты, оцененные с помощью i-й строки xi {\ displaystyle \ mathbf {x} _ {i }}{\ displaystyle \ mathbf {x} _ {i}} из X {\ displaystyle \ mathbf {X}}\ mathbf {X} удалено, hi ⋅ = xi (XTX) - 1 xi T {\ displaystyle h_ {i \ cdot} = \ mathbf {x} _ {i} \ left (\ mathbf {X} ^ {\ mathsf {T}} \ mathbf {X} \ right) ^ {- 1} \ mathbf {x} _ {i } ^ {\ mathsf {T}}}{\ displaystyle h_ {i \ cdot} = \ mathbf {x} _ {i} \ left (\ mathbf {X} ^ {\ mathsf {T}} \ mathbf {X} \ right) ^ {- 1} \ mathbf {x} _ {i} ^ {\ mathsf {T}}} обозначает i-ю строку в H {\ displaystyle \ mathbf {H}}\ mathbf {H} . Таким образом, DFBETA измеряет разницу в оценке каждого параметра с учетом и без точки влияния. Для каждой точки и каждого наблюдения существует DFBETA (если есть N точек и k переменных, то N · k DFBETA). В таблице показаны DFBETA для третьего набора данных из квартета Анскомба (нижний левый график на рисунке):
xyпересечениенаклон
10.07.46-0.005-0,044
8,06,77-0,0370,019
13,012,74-357,910525,268
9.07.11-0.0330
11.07.810.049-0,117
14.08,840,490-0,667
6,06,080,027-0,021
4,05,390,241-0,209
12,08,150,137-0,231
7,06,42-0,0200,013
5,05,730,105- 0,087
  1. DFFITS - разница в совпадениях
  2. D Кука измеряет влияние удаления точки данных на все параметры вместе взятые.
Выбросы, рычаги влияния и влияние

An выброс может быть определен как точка данных, которая значительно отличается от других наблюдений. Точка с высоким уровнем воздействия - это наблюдения, сделанные при экстремальных значениях независимых переменных. Оба типа нетипичных наблюдений заставят линию регрессии приблизиться к точке. В квартете Анскомба на нижнем правом изображении есть точка с большим рычагом, а на нижнем левом изображении - удаленная точка.

См. Также
Ссылки
Дополнительная литература
  • Дехон, Екатерина; Гасснер, Марджори; Верарди, Винченцо (2009). «Остерегайтесь« хороших »отклонений и чрезмерно оптимистичных выводов». Оксфордский вестник экономики и статистики. 71 (3): 437–452. doi : 10.1111 / j.1468-0084.2009.00543.x.
  • Кеннеди, Питер (2003). «Надежная оценка». Руководство по эконометрике (пятое изд.). Кембридж: MIT Press. С. 372–388. ISBN 0-262-61183-X.
Последняя правка сделана 2021-05-24 14:41:34
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте