Локальная регрессия

редактировать
Кривая LOESS, подобранная для генеральной совокупности, выбранной из синусоидальной волны с добавленным равномерным шумом. Кривая LOESS аппроксимирует исходную синусоидальную волну.

Локальная регрессия или локальная полиномиальная регрессия, также известная как скользящая регрессия, является обобщением скользящей средней и полиномиальная регрессия. Наиболее распространенными методами, первоначально разработанными для сглаживания диаграммы рассеяния, являются LOESS (сглаживание локально оцененной диаграммы рассеяния ) и LOWESS (локально сглаживание взвешенной диаграммы рассеяния ), оба произносятся как . Это два тесно связанных метода непараметрической регрессии, которые объединяют несколько регрессионных моделей в метамодель на основе k-ближайшего соседа. Помимо эконометрики, LOESS известен и обычно именуется фильтром Савицки – Голея (предложен за 15 лет до LOESS).

Таким образом, LOESS и LOWESS основаны на «классических» методах, таких как линейная и нелинейная регрессия наименьших квадратов. Они касаются ситуаций, в которых классические процедуры не работают или не могут быть эффективно применены без чрезмерного труда. LOESS сочетает в себе большую часть простоты линейной регрессии наименьших квадратов с гибкостью нелинейной регрессии. Это достигается путем подгонки простых моделей к локализованным подмножествам данных для построения функции, которая описывает детерминированную часть вариации данных, точка за точкой. Фактически, одна из главных достопримечательностей этого метода заключается в том, что от аналитика данных не требуется указывать глобальную функцию любой формы для соответствия модели данным, а только для соответствия сегментам данных.

Компромисс для этих функций - увеличенные вычисления. Поскольку метод LOESS требует больших вычислительных ресурсов, его было бы практически невозможно использовать в эпоху, когда развивалась регрессия наименьших квадратов. Большинство других современных методов моделирования процессов в этом отношении аналогичны LOESS. Эти методы были сознательно разработаны, чтобы использовать наши текущие вычислительные возможности в максимально возможной степени для достижения целей, которые трудно достичь с помощью традиционных подходов.

Сглаженная кривая через набор точек данных, полученных с помощью этого статистического метода, называется кривой лесса, в частности, когда каждое сглаженное значение дается с помощью взвешенной квадратичной регрессии наименьших квадратов в диапазоне значения переменной критерия диаграммы рассеяния оси ординат. Когда каждое сглаженное значение задается с помощью взвешенной линейной регрессии наименьших квадратов по диапазону, это известно как кривая минимума ; однако некоторые авторитетные источники рассматривают лёсс и лёсс как синонимы.

Содержание

  • 1 Описание модели
    • 1.1 Локализованные подмножества данных
    • 1.2 Степень локальных полиномов
    • 1.3 Весовая функция
  • 2 Преимущества
  • 3 Недостатки
  • 4 См. Также
  • 5 Ссылки
    • 5.1 Цитаты
    • 5.2 Источники
  • 6 Внешние ссылки
    • 6.1 Реализации

Определение модели

В 1964 году Савицкий и Голей предложили метод, эквивалентный LOESS, который обычно называется фильтром Савицкого – Голея. Уильям С. Кливленд заново открыл этот метод в 1979 году и дал ему отличное название. Далее этот метод был разработан Кливлендом и Сьюзен Дж. Девлин (1988). LOWESS также известен как локально взвешенная полиномиальная регрессия.

В каждой точке диапазона набора данных полином низкой степени соответствует подмножеству данных с независимой переменной значений рядом с точкой, ответ которой оценивается. Полином подбирается с использованием метода взвешенных наименьших квадратов, что дает больший вес точкам рядом с точкой, ответ которой оценивается, и меньший вес точкам дальше. Затем значение функции регрессии для точки получается путем оценки локального полинома с использованием значений объясняющих переменных для этой точки данных. Подбор LOESS завершается после вычисления значений функции регрессии для каждой из n {\ displaystyle n}n точек данных. Многие детали этого метода, такие как степень полиномиальной модели и веса, являются гибкими. Далее вкратце обсуждаются диапазон вариантов для каждой части метода и типичные значения по умолчанию.

Локализованные подмножества данных

Подмножества данных, используемые для каждого взвешенного метода наименьших квадратов, подходящего для LOESS, определяются алгоритмом ближайших соседей. Пользовательский ввод в процедуру, называемый «пропускная способность» или «параметр сглаживания», определяет, какая часть данных используется для соответствия каждому локальному полиному. Параметр сглаживания, α {\ displaystyle \ alpha}\ альфа , представляет собой долю от общего числа n точек данных, которые используются в каждой локальной аппроксимации. Таким образом, подмножество данных, используемых в каждой взвешенной аппроксимации методом наименьших квадратов, включает n α {\ displaystyle n \ alpha}n \ alpha точек (округленных до следующего наибольшего целого числа), значения независимых переменных которых наиболее близки к точка, в которой оценивается отклик.

Поскольку полином степени k требует не менее (k + 1) точек для подбора, параметр сглаживания α {\ displaystyle \ alpha}\ альфа должно быть между (λ + 1) / n {\ displaystyle \ left (\ lambda +1 \ right) / n}\ left (\ lambda + 1 \ right) / n и 1, с λ {\ displaystyle \ лямбда}\ lambda , обозначающая степень локального полинома.

α {\ displaystyle \ alpha}\ альфа называется параметром сглаживания, потому что он контролирует гибкость функции регрессии LOESS. Большие значения α {\ displaystyle \ alpha}\ альфа создают самые плавные функции, которые меньше всего колеблются в ответ на колебания данных. Чем меньше α {\ displaystyle \ alpha}\ альфа , тем ближе функция регрессии будет соответствовать данным. Однако использование слишком малого значения параметра сглаживания нежелательно, поскольку функция регрессии в конечном итоге начнет фиксировать случайную ошибку в данных.

Степень локальных многочленов

Локальные многочлены, подходящие для каждого подмножества данных, почти всегда имеют первую или вторую степень; то есть либо локально линейным (в смысле прямой), либо локально квадратичным. Использование полинома нулевой степени превращает LOESS в взвешенное скользящее среднее. Полиномы более высокой степени будут работать в теории, но дают модели, которые на самом деле не соответствуют духу LOESS. LOESS основан на идеях, что любая функция может быть хорошо аппроксимирована в небольшой окрестности полиномом низкого порядка и что простые модели могут быть легко подогнаны к данным. Полиномы с высокой степенью будут иметь тенденцию превосходить данные в каждом подмножестве и будут численно нестабильны, что затрудняет точные вычисления.

Весовая функция

Как упоминалось выше, весовая функция дает наибольший вес точкам данных, ближайшим к точке оценки, и наименьший вес - точкам данных, которые находятся дальше всего. Использование весов основано на идее, что точки, расположенные рядом друг с другом в пространстве объясняющих переменных, с большей вероятностью будут связаны друг с другом простым способом, чем точки, которые находятся дальше друг от друга. Следуя этой логике, точки, которые, вероятно, будут соответствовать локальной модели, больше всего влияют на оценки параметров локальной модели. Точки, которые с меньшей вероятностью фактически соответствуют локальной модели, имеют меньшее влияние на локальную модель параметр оценки.

Традиционная весовая функция, используемая для LOESS, - это весовая функция трех кубов ,

w (x) = (1 - | d | 3) 3 {\ displaystyle w (x) = (1- | d | ^ {3}) ^ {3}}{\ displaystyle w (x) = (1- | d | ^ {3}) ^ {3}}

где d - расстояние заданная точка данных из точки аппроксимируемой кривой, масштабируемая так, чтобы лежать в диапазоне от 0 до 1.

Однако можно также использовать любую другую весовую функцию, которая удовлетворяет свойствам, перечисленным в Cleveland (1979). Вес для конкретной точки в любом локализованном подмножестве данных получается путем оценки весовой функции на расстоянии между этой точкой и точкой оценки после масштабирования расстояния таким образом, чтобы максимальное абсолютное расстояние по всем точкам в подмножестве данные ровно один.

Рассмотрим следующее обобщение модели линейной регрессии с метрикой w (x, z) {\ displaystyle w (x, z)}{\ displaystyle w (x, z)} в целевом пространстве R m {\ displaystyle \ mathbb {R} ^ {m}}{\ mathbb R} ^ {m} , который зависит от двух параметров, x, z ∈ R n {\ displaystyle x, z \ in \ mathbb {R} ^ {n}}{\ displaystyle x, z \ in \ mathbb {R} ^ {n}} . Предположим, что линейная гипотеза основана на входных параметрах n {\ displaystyle n}n и что, как обычно в этих случаях, мы встроили пространство ввода R n {\ displaystyle \ mathbb { R} ^ {n}}\ mathbb {R} ^ {n} в R n + 1 {\ displaystyle \ mathbb {R} ^ {n + 1}}{\ displaystyle \ mathbb {R} ^ {n + 1}} как x ↦ x ^ : = (1, x) {\ displaystyle x \ mapsto {\ hat {x}}: = (1, x)}{\ displaystyle x \ mapsto {\ hat {x}}: = (1, x)} , и рассмотрим следующую функцию потерь

RSS x ⁡ (A) = ∑ i = 1 N (yi - A x ^ i) T wi (x) (yi - A x ^ i). {\ displaystyle \ operatorname {RSS} _ {x} (A) = \ sum _ {i = 1} ^ {N} (y_ {i} -A {\ hat {x}} _ {i}) ^ {T } w_ {i} (x) (y_ {i} -A {\ hat {x}} _ {i}).}{\ displaystyle \ operatorname {RSS} _ {x} (A) = \ sum _ {i = 1} ^ {N} (y_ {i} -A {\ hat {x}} _ {i}) ^ {T} w_ {i} (x) ( y_ {i} -A {\ hat {x}} _ {i}).}

Здесь A {\ displaystyle A}A - (n + 1) × (n + 1) {\ displaystyle (n + 1) \ times (n + 1)}{\ displaystyle (n + 1) \ times (n + 1)} вещественная матрица коэффициентов, wi (x): = w (xi, x) {\ displaystyle w_ {i} (x): = w (x_ {i}, x)}{\ displaystyle w_ {i} (x): = w (x_ {i}, x)} , а индекс i перечисляет входные и выходные векторы из обучающего набора. Поскольку w {\ displaystyle w}w является метрикой, это симметричная положительно определенная матрица и, как таковая, существует еще одна симметричная матрица h {\ displaystyle h}hтакой, что w = h 2 {\ displaystyle w = h ^ {2}}{\ displaystyle w = h ^ {2}} . Вышеупомянутую функцию потерь можно преобразовать в след, заметив, что y T wy = (hy) T (hy) = Tr ⁡ (hyy T h) = Tr ⁡ (wyy T) {\ displaystyle y ^ {T} wy = (hy) ^ {T} (hy) = \ operatorname {Tr} (hyy ^ {T} h) = \ operatorname {Tr} (wyy ^ {T})}{\ displaystyle y ^ {T} wy = (hy) ^ {T} (hy) = \ operatorname {Tr} (hyy ^ {T} h) = \ operatorname {Tr} (wyy ^ {T})} . Расположив векторы yi {\ displaystyle y_ {i}}y_ {i} и x ^ i {\ displaystyle {\ hat {x}} _ {i}}{\ displaystyle {\ hat {x}} _ {i}} в столбцы матрицы m × N {\ displaystyle m \ times N}m \ times N Y {\ displaystyle Y}Yи (n + 1) × N {\ displaystyle (n + 1) \ times N}{\ displaystyle (n + 1) \ times N } matrix X ^ {\ displaystyle {\ hat {X}}}{\ hat X} соответственно, указанная выше функция потерь затем можно записать как

Tr ⁡ (W (x) (Y - AX ^) T (Y - AX ^)) {\ displaystyle \ operatorname {Tr} (W (x) (YA {\ hat {X}) }) ^ {T} (YA {\ hat {X}}))}{\ displaystyle \ operatorname {Tr} (W (x) (YA {\ hat {X}}) ^ {T} ( YA {\ hat {X}}))}

где W {\ displaystyle W}W - квадратная диагональ N × N {\ displaystyle N \ times N}N \ times N матрица, элементами которой являются wi (x) {\ displaystyle w_ {i} (x)}{\ displaystyle w_ {i} (x)} s. Дифференцируя по A {\ displaystyle A}A и устанавливая результат равным 0, мы находим экстремальное матричное уравнение

AX ^ W (x) X ^ T = YW (x) X ^ Т. {\ displaystyle A {\ hat {X}} W (x) {\ hat {X}} ^ {T} = YW (x) {\ hat {X}} ^ {T}.}{\ дис стиль игры A {\ hat {X}} W (x) {\ hat {X}} ^ {T} = YW (x) {\ hat {X}} ^ {T}.}

Если предположить, что квадратная матрица X ^ W (x) X ^ T {\ displaystyle {\ hat {X}} W (x) {\ hat {X}} ^ {T}}{\ displaystyle {\ hat {X}} W (x) {\ hat { X}} ^ {T}} не является в единственном числе функция потерь RSS x ⁡ (A) {\ displaystyle \ operatorname {RSS} _ {x} (A)}{\ displaystyle \ operatorname {RSS} _ {x} (A)} достигает своего минимума при

A (x) = YW ( х) Х ^ Т (Х ^ W (х) Х ^ Т) - 1. {\ Displaystyle A (x) = YW (x) {\ hat {X}} ^ {T} ({\ hat {X}} W (x) {\ hat {X}} ^ {T}) ^ {- 1}.}{\ displaystyle A (x) = YW (x) {\ hat {X}} ^ {T} ({\ hat {X}} W (x) {\ hat {X}} ^ { T}) ^ {- 1}.}

Типичный выбор для w (x, z) {\ displaystyle w (x, z)}{\ displaystyle w (x, z)} - вес по Гауссу.

w (x, z) = ехр ⁡ (- (Икс - Z) 2 2 σ 2) {\ Displaystyle ш (х, z) = \ ехр \ влево (- {\ гидроразрыва {(xz) ^ {2}} {2 \ sigma ^ {2} }} \ right)}{\ displaystyle w (x, z) = \ exp \ left (- {\ frac {(xz) ^ {2}} {2 \ sigma ^ {2}}} \ right)}

Преимущества

Как обсуждалось выше, самым большим преимуществом LOESS по сравнению со многими другими методами является то, что процесс подгонки модели к образцам данных не начинается со спецификации функции. Вместо этого аналитик должен предоставить только значение параметра сглаживания и степень локального полинома. Кроме того, LOESS очень гибок, что делает его идеальным для моделирования сложных процессов, для которых не существует теоретических моделей. Эти два преимущества в сочетании с простотой метода делают LOESS одним из самых привлекательных из современных методов регрессии для приложений, которые соответствуют общей структуре регрессии по методу наименьших квадратов, но имеют сложную детерминированную структуру.

Хотя это менее очевидно, чем для некоторых других методов, связанных с линейной регрессией наименьших квадратов, LOESS также дает большую часть преимуществ, которые обычно присущи этим процедурам. Наиболее важным из них является теория вычисления неопределенностей для прогнозирования и калибровки. Многие другие тесты и процедуры, используемые для проверки моделей наименьших квадратов, также могут быть распространены на модели LOESS.

Недостатки

LOESS менее эффективно использует данные, чем другие методы наименьших квадратов. Для создания хороших моделей требуются довольно большие наборы данных с плотной выборкой. Это потому, что LOESS полагается на локальную структуру данных при выполнении локальной подгонки. Таким образом, LOESS обеспечивает менее сложный анализ данных в обмен на более высокие экспериментальные затраты.

Еще одним недостатком LOESS является тот факт, что он не создает функцию регрессии, которую легко представить математической формулой. Это может затруднить передачу результатов анализа другим людям. Чтобы передать функцию регрессии другому человеку, ему потребуется набор данных и программное обеспечение для вычислений LOESS. В нелинейной регрессии, с другой стороны, необходимо только записать функциональную форму, чтобы обеспечить оценки неизвестных параметров и оцененную неопределенность. В зависимости от приложения это может быть серьезным или незначительным недостатком использования LOESS. В частности, простая форма LOESS не может использоваться для механистического моделирования, когда подобранные параметры определяют конкретные физические свойства системы.

Наконец, как обсуждалось выше, LOESS - это вычислительно-интенсивный метод (за исключением равномерно распределенных данных, где регрессию затем можно сформулировать как беспричинный фильтр с конечной импульсной характеристикой ). LOESS также подвержен эффектам выбросов в наборе данных, как и другие методы наименьших квадратов. Существует итеративная надежная версия LOESS [Cleveland (1979)], которую можно использовать для уменьшения чувствительности LOESS до выбросов, но слишком много экстремальных выбросов все же могут преодолеть даже устойчивые метод.

См. Также

Ссылки

Цитаты

Источники

Внешние ссылки

Реализации

В этой статье используется материалы общественного достояния с веб-сайта Национального института стандартов и технологий https : //www.nist.gov.

Последняя правка сделана 2021-05-28 05:07:20
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте