Влиятельные наблюдение
редактировать
В квартете
Анскомба два
набора данных внизу оба содержат важные моменты. Все четыре набора идентичны при анализе с использованием простой сводной статистики, но значительно различаются на графике. Если бы одна точка была удалена, линия выглядела бы совсем иначе.
В статистике, влиятельное наблюдение - это наблюдение для статистического вычисления, удаление которого из набор данных заметно изменит результат вычисления. В частности, в регрессионном анализе влиятельная точка - это точка, удаление которой сильно влияет на оценки параметров.
Содержание
- 1 Оценка
- 2 Выбросы, рычаги влияния и влияние
- 3 См. Также
- 4 Ссылки
- 5 Дополнительная литература
Оценка
Для измерения влияния были предложены различные методы. Предположим предполагаемую регрессию , где - вектор-столбец размером n × 1 для переменной ответа, - n × k матрица плана независимых переменных (включая константу), - остаточный вектор n × 1, а - вектор ak × 1 оценок некоторого параметра совокупности . Также определите , матрица проекции из . Тогда у нас есть следующие меры влияния:
- , где обозначает коэффициенты, оцененные с помощью i-й строки из удалено, обозначает i-ю строку в . Таким образом, DFBETA измеряет разницу в оценке каждого параметра с учетом и без точки влияния. Для каждой точки и каждого наблюдения существует DFBETA (если есть N точек и k переменных, то N · k DFBETA). В таблице показаны DFBETA для третьего набора данных из квартета Анскомба (нижний левый график на рисунке):
x | y | пересечение | наклон |
10.0 | 7.46 | -0.005 | -0,044 |
8,0 | 6,77 | -0,037 | 0,019 |
13,0 | 12,74 | -357,910 | 525,268 |
9.0 | 7.11 | -0.033 | 0 |
11.0 | 7.81 | 0.049 | -0,117 |
14.0 | 8,84 | 0,490 | -0,667 |
6,0 | 6,08 | 0,027 | -0,021 |
4,0 | 5,39 | 0,241 | -0,209 |
12,0 | 8,15 | 0,137 | -0,231 |
7,0 | 6,42 | -0,020 | 0,013 |
5,0 | 5,73 | 0,105 | - 0,087 |
- DFFITS - разница в совпадениях
- D Кука измеряет влияние удаления точки данных на все параметры вместе взятые.
Выбросы, рычаги влияния и влияние
An выброс может быть определен как точка данных, которая значительно отличается от других наблюдений. Точка с высоким уровнем воздействия - это наблюдения, сделанные при экстремальных значениях независимых переменных. Оба типа нетипичных наблюдений заставят линию регрессии приблизиться к точке. В квартете Анскомба на нижнем правом изображении есть точка с большим рычагом, а на нижнем левом изображении - удаленная точка.
См. Также
Ссылки
Дополнительная литература
- Дехон, Екатерина; Гасснер, Марджори; Верарди, Винченцо (2009). «Остерегайтесь« хороших »отклонений и чрезмерно оптимистичных выводов». Оксфордский вестник экономики и статистики. 71 (3): 437–452. doi : 10.1111 / j.1468-0084.2009.00543.x.
- Кеннеди, Питер (2003). «Надежная оценка». Руководство по эконометрике (пятое изд.). Кембридж: MIT Press. С. 372–388. ISBN 0-262-61183-X.