Надежная регрессия и обнаружение выбросов

редактировать

Надежная регрессия и обнаружение выбросов - это книга по надежной статистике, в которой особое внимание уделяется точке разбиения методов для устойчивой регрессии. Он был написан Питером Руссеу и Анник М. Лерой и опубликован в 1987 году компанией Wiley.

Содержание

1 Предпосылки
2 Темы
3 Аудитория и прием
4 Связанные книги
5 Ссылки

Справочная информация

Диаграмма Герцшпрунга – Рассела звезд, нанесенных по яркости и цвету. Надежные методы регрессии позволяют подогнать кривую к главной последовательности, центральной кривой на этой диаграмме, без сильного влияния групп звезд, далеких от главной последовательности.

Линейная регрессия - это проблема вывода линейной функциональной связи между зависимой переменной и одной или несколькими независимыми переменными из наборов данных, в которых эта связь была скрыта шумом. Обычный метод наименьших квадратов предполагает, что все данные лежат рядом с подходящей линией или плоскостью, но отклоняются от нее путем добавления нормально распределенных остаточных значений. Напротив, методы надежной регрессии работают, даже когда некоторые из точек данных являются выбросами, которые не имеют отношения к подходящей линии или плоскости, возможно, потому что данные получены из смеси источников или, возможно, потому, что злоумышленник попытка повредить данные, чтобы метод регрессии дал неточный результат. Типичное приложение, обсуждаемое в книге, включает диаграмму Герцшпрунга-Рассела типов звезд, в которой нужно провести кривую через главную последовательность звезд без подбора. за пределами гигантских звезд и белых карликов. Точка разбивки надежного метода регрессии - это доля внешних данных, которую он может выдержать, оставаясь точным. Для этого стиля анализа лучше использовать более высокие точки разбивки. Точка разбивки для обычных наименьших квадратов близка к нулю (один выброс может привести к тому, что подгонка станет произвольно далеко от оставшихся неповрежденных данных), в то время как некоторые другие методы имеют точки разбивки до 50%. Хотя эти методы требуют нескольких предположений о данных и хорошо работают для данных, шум которых не совсем понятен, они могут иметь несколько более низкую эффективность, чем обычные методы наименьших квадратов (требующие большего количества данных для заданной точности подгонки), и их реализация может быть сложной и сложной. медленно.

Темы

В книге семь глав. Первый вводный; в нем описывается простая линейная регрессия (в которой есть только одна независимая переменная), обсуждается возможность выбросов, которые повреждают зависимую или независимую переменную, приводятся примеры, в которых выбросы приводят к неверным результатам, определяется точка разбиения, и кратко знакомит с несколькими методами устойчивой простой регрессии, включая повторную медианную регрессию. Во второй и третьей главах более подробно анализируется метод наименьшей медианы квадратов для регрессии (в котором ищется соответствие, минимизирующее медиана квадратов остатков ) и метод наименьших усеченных квадратов (в котором стремятся минимизировать сумму возведенных в квадрат остатков ниже медианы). Оба этих метода имеют точку разрушения 50% и могут применяться как для простой регрессии (глава вторая), так и для многомерной регрессии (глава третья). Хотя наименьшая медиана имеет привлекательное геометрическое описание (например, поиск полосы минимальной высоты, содержащей половину данных), ее низкая эффективность приводит к рекомендации использовать вместо нее наименьшие обрезанные квадраты; Метод наименьших усеченных квадратов также можно интерпретировать как использование метода наименьшей медианы для поиска и исключения выбросов, а затем использование простой регрессии для оставшихся данных и приближение к простой регрессии по своей эффективности. Помимо описания этих методов и анализа их статистических свойств, в этих главах также описывается, как использовать программное обеспечение авторов для реализации этих методов. Третья глава также включает описание некоторых альтернативных оценщиков с высокими точками разбивки.

В четвертой главе описывается одномерная оценка параметра местоположения или центральной тенденции и ее программной реализации, а пятая глава более подробно описывает алгоритмы , используемые программным обеспечением для эффективного вычисления этих оценок. Шестая глава касается обнаружения выбросов, сравнения методов определения точек данных как выбросов на основе надежной статистики с другими широко используемыми методами, а последняя глава посвящена проблемам определения местоположения более высокой размерности, а также временным рядам . анализ и проблемы подгонки эллипсоида или ковариационной матрицы к данным. Помимо использования точки разделения для сравнения статистических методов, в книге также рассматривается их эквивалентность : для каких семейств преобразований данных соответствие преобразованных данных равно преобразованной версии соответствия исходным данным?

В соответствии с фокусом книги на приложениях, в ней представлено множество примеров анализа, выполненного с использованием надежных методов, где полученные оценки сравниваются с оценками, полученными стандартными ненадежными методами. Теоретический материал включен, но отложен, чтобы его могли легко пропустить читатели, менее склонные к теории. Авторы придерживаются позиции, что робастные методы могут использоваться как для проверки применимости обычной регрессии (когда результаты обоих методов совпадают), так и для замены их в случаях, когда результаты не совпадают.

Аудитория и прием

Книга предназначена для прикладных статистиков с целью убедить их использовать надежные методы, которые она описывает. В отличие от предыдущей работы в области надежной статистики, он делает надежные методы понятными и (через соответствующее программное обеспечение) доступными для практиков. Никаких предварительных знаний о надежной статистике не требуется, хотя предполагается некоторый опыт в основных статистических методах. Книгу также можно было бы использовать в качестве учебника, хотя рецензент П. Дж. Лейкок называет возможность такого использования «смелой и прогрессивной», а рецензенты Сехулт и Грин указывают, что такой курс вряд ли впишется в британские статистические учебные программы.

Рецензенты Сехулт и Грин жалуются, что слишком большая часть книги действует как руководство пользователя к авторскому программному обеспечению и должна была быть сокращена. Однако рецензент Грегори Ф. Пипель пишет, что «презентация очень хорошая», и рекомендует книгу любому пользователю статистических методов. И, предлагая переупорядочить некоторый материал, Карен Кафадар настоятельно рекомендует книгу как учебник для аспирантов и справочник для профессионалов. И рецензент AC Atkinson кратко резюмирует книгу как "интересную и важную".

Связанные книги

Было несколько предыдущих книг по надежной регрессии и обнаружению выбросов, в том числе:

Идентификация выбросов Д.М. Хокинс (1980)
Робастная статистика Питер Дж. Хубер (1981)
Введение в робастные и квазиустойчивые статистические методы У. Дж. Дж. Рей (1983)
Понимание надежного и исследовательского анализа данных Дэвида К. Хоаглина, Фредерика Мостеллера и Джона Тьюки (1983)
Надежная статистика Хэмпела, Рончетти, Rousseeuw и Stahel (1986)

Для сравнения, робастная регрессия и обнаружение выбросов сочетает в себе надежность и обнаружение выбросов. Он менее теоретический, больше ориентирован на данные и программное обеспечение и больше ориентирован на точку отказа, чем на другие меры устойчивости. Кроме того, он первым подчеркивает важность «рычага» - явления, когда выборки с выпадающими значениями независимой переменной могут иметь более сильное влияние на соответствие, чем выборки, в которых независимая переменная имеет центральное значение.

Ссылки