Регрессия прогнозирования

редактировать

В статистике, регрессия прогнозирования (PPR) - это статистическая модель, разработанная Джеромом Х. Фридманом и являющаяся расширением аддитивных моделей. Эта модель адаптирует аддитивные модели тем, что сначала проецирует матрицу данных из объясняющих переменных в оптимальном направлении, прежде чем применять сглаживающие функции к этим независимым переменным.

Содержание

1 Обзор модели
2 Оценка модели
3 Обсуждение
4 Преимущества оценки PPR
5 Недостатки оценки PPR
6 Расширения PPR
7 PPR vs нейронные сети (NN)
8 См. также
9 Ссылки

Обзор модели

Модель состоит из линейных комбинаций из: нелинейных преобразований линейных комбинаций объясняющие переменные. Базовая модель имеет вид

yi = β 0 + ∑ j = 1 rfj (β j T xi) + ε, {\ displaystyle y_ {i} = \ beta _ {0} + \ sum _ {j = 1 } ^ {r} f_ {j} (\ beta _ {j} ^ {\ mathrm {T}} x_ {i}) + \ varepsilon,}

{\ displaystyle y_ {i} = \ beta _ {0} + \ сумма _ {j = 1} ^ {r} f_ {j} (\ beta _ {j} ^ {\ mathrm {T}} x_ {i}) + \ varepsilon,}

где x i - это 1 × p строка матрицы плана, содержащая независимые переменные, например i, y i - это прогноз 1 × 1, {β j } - это набор r векторов (каждый - единичный вектор длины p), которые содержат неизвестные параметры, {f j } - это набор из r изначально неизвестных гладких функций, которые отображаются из ℝ → ℝ, а r - гиперпараметр. Хорошие значения для r можно определить с помощью перекрестной проверки или поэтапной стратегии, которая останавливается, когда соответствие модели не может быть значительно улучшено. Когда r приближается к бесконечности и с соответствующим набором функций {f j }, модель PPR является универсальной оценкой, поскольку она может аппроксимировать любую непрерывную функцию в ℝ.

Оценка модели

Для заданного набора данных ${(yi, xi)} i = 1 n {\ displaystyle \ {(y_ {i}, x_ {i}) \} _ {i = 1} ^ {n}}$ ${\ displaystyle \ {(y_ {i}, x_ {i}) \} _ {i = 1} ^ {n}}$ , цель состоит в том, чтобы минимизировать функцию ошибок

min fj, β j S = ∑ i = 1 n [yi - ∑ j = 1 rfj (β J T xi)] 2 {\ displaystyle \ min _ {f_ {j}, \ beta _ {j}} S = \ sum _ {i = 1} ^ {n} \ left [y_ {i} - \ sum _ {j = 1} ^ {r} f_ {j} (\ beta _ {j} ^ {\ mathrm {T}} x_ {i}) \ right] ^ {2}}

{\ displaystyle \ min _ {f_ {j}, \ beta _ {j}} S = \ sum _ {i = 1} ^ {n} \ left [y_ {i} - \ sum _ {j = 1} ^ {r} f_ {j} (\ beta _ {j} ^ {\ mathrm {T}} x_ {i}) \ right] ^ {2}}

над функциями $fj {\ displaystyle f_ {j}}$ $f_ {j}$ и векторы $β j {\ displaystyle \ beta _ {j}}$ $\ beta _ {j}$ . Не существует метода для решения сразу по всем переменным, но его можно решить с помощью. Сначала рассмотрим каждую пару $(fj, β j) {\ displaystyle (f_ {j}, \ beta _ {j})}$ ${\ displaystyle (f_ {j}, \ beta _ {j})}$ по отдельности: пусть все остальные параметры фиксированы, и найдите " остаток », дисперсия вывода, не учитываемая этими другими параметрами, заданная как

ri = yi - ∑ l ≠ jfl (β l T xi) {\ displaystyle r_ {i} = y_ {i} - \ sum _ {l \ neq j} f_ {l} (\ beta _ {l} ^ {\ mathrm {T}} x_ {i})}

{\ displaystyle r_ {i} = y_ {i} - \ sum _ {l \ neq j } f_ {l} (\ beta _ {l} ^ {\ mathrm {T}} x_ {i})}

Задача минимизации функции ошибок теперь сводится к решению

мин. fj, β J S 'знак равно ∑ я знак равно 1 N [ри - fj (β J T xi)] 2 {\ displaystyle \ min _ {f_ {j}, \ beta _ {j}} S' = \ sum _ { i = 1} ^ {n} \ left [r_ {i} -f_ {j} (\ beta _ {j} ^ {\ mathrm {T}} x_ {i}) \ right] ^ {2}}

\min _{f_{j},\beta _{j}}S'=\sum _{i=1}^{n}\left[r_{i}-f_{j}(\beta _{j}^{\mathrm {T} }x_{i})\right]^{2}

для каждого j по очереди. Как правило, новые пары $(f j, β j) {\ displaystyle (f_ {j}, \ beta _ {j})}$ ${\ displaystyle (f_ {j}, \ beta _ {j})}$ добавляются в модель поэтапно.

Кроме того: ранее подогнанные пары могут быть скорректированы после того, как новые пары подгонки определены алгоритмом, известным как повторная подгонка, который влечет за собой пересмотр предыдущей пары, пересчет остатка с учетом того, как изменились другие пары, повторная установка чтобы учесть эту новую информацию, а затем циклически перебирать все подходящие пары таким образом, пока параметры не сойдутся. В результате этого процесса обычно получается модель, которая работает лучше с меньшим количеством подгонок, хотя обучение занимает больше времени, и обычно можно достичь той же производительности, пропустив подгонку и просто добавив больше подгонок к модели (увеличивая r).

Решение упрощенной функции ошибок для определения пары $(fj, β j) {\ displaystyle (f_ {j}, \ beta _ {j})}$ ${\ displaystyle (f_ {j}, \ beta _ {j})}$ может быть выполнено с попеременной оптимизацией, где сначала используется случайный $β j {\ displaystyle \ beta _ {j}}$ $\ beta _ {j}$ для проецирования $X {\ displaystyle X}$ $X$ в пространство 1D, и затем находится оптимальный $fj {\ displaystyle f_ {j}}$ $f_ {j}$ для описания взаимосвязи между этой проекцией и остатками с помощью вашего любимого метода регрессии графика рассеяния. Затем, если $fj {\ displaystyle f_ {j}}$ $f_ {j}$ остается постоянным, предполагая, что $fj {\ displaystyle f_ {j}}$ $f_ {j}$ является однажды дифференцируемым, оптимальное обновленное веса $β j {\ displaystyle \ beta _ {j}}$ $\ beta _ {j}$ можно найти с помощью метода Гаусса-Ньютона - квазиньютоновского метода, в котором часть гессиана с участием второй производной отбрасывается. Чтобы вывести это, сначала Тейлор расширил $fj (β j T xi) ≈ fj (β j, старый T xi) + fj ˙ (β j, старый T xi) (β j T xi - β j, старый T xi) {\ displaystyle f_ {j} (\ beta _ {j} ^ {T} x_ {i}) \ приблизительно f_ {j} (\ beta _ {j, old} ^ {T} x_ {i}) + {\ dot {f_ {j}}} (\ beta _ {j, old} ^ {T} x_ {i}) (\ beta _ {j} ^ {T} x_ {i} - \ beta _ {j, old} ^ {T} x_ {i})}$ ${\ displaystyle f_ {j} (\ beta _ {j} ^ {T} x_ {i}) \ приблизительно f_ {j} (\ beta _ {j, old} ^ {T} x_ {i}) + {\ dot {f_ {j}}} (\ beta _ {j, old} ^ {T} x_ {i}) (\ beta _ {j } ^ {T} x_ {i} - \ beta _ {j, old} ^ {T} x_ {i})}$ , затем снова подключите расширение к упрощенной функции ошибок $S '{\ displaystyle S'}$ $S'$ и произведем некоторые алгебраические манипуляции, чтобы представить его в виде

min β j S ′ ≈ ∑ i = 1 nfj ˙ (β j, old T xi) 2 ⏟ w [(β j, old T xi + ri - fj (β j, старый T xi) fj ˙ (β j, старый T xi) ⏟ b ^) - β j T xi] 2 {\ displaystyle \ min _ {\ beta _ {j}} S '\ приблизительно \ сумма _ {i = 1} ^ {n} \ underbrace {{\ dot {f_ {j}}} (\ beta _ {j, old} ^ {T} x_ {i}) ^ {2}} _ {w} {\ Bigg [} {\ bigg (} \ underbrace {\ beta _ {j, old} ^ {T} x_ {i} + {\ frac {r_ {i} -f_ {j} (\ beta _ {j, old} ^ {T} x_ {i})} {{\ dot {f_ {j}}} (\ beta _ {j, old} ^ {T} x_ {i})}}} _ {\ hat {b }} {\ bigg)} - \ beta _ {j} ^ {T} x_ {i} {\ Bigg]} ^ {2}}

\min _{\beta _{j}}S'\approx \sum _{i=1}^{n}\underbrace {{\dot {f_{j}}}(\beta _{j,old}^{T}x_{i})^{2}} _{w}{\Bigg [}{\bigg (}\underbrace {\beta _{j,old}^{T}x_{i}+{\frac {r_{i}-f_{j}(\beta _{j,old}^{T}x_{i})}{{\dot {f_{j}}}(\beta _{j,old}^{T}x_{i})}}} _{\hat {b}}{\bigg)}-\beta _{j}^{T}x_{i}{\Bigg ]}^{2}

Это взвешенных наименьших квадратов задача. Если мы решим все веса $w {\ displaystyle w}$ $w$ и поместим их в диагональную матрицу $W {\ displaystyle W}$ $W$ , сложим все новые цели $b ^ {\ displaystyle {\ hat {b}}}$ $\ hat {b}$ в вектор и использовать полную матрицу данных $X {\ displaystyle X}$ $X$ вместо единственный пример $xi {\ displaystyle x_ {i}}$ $x_ {i}$ , тогда оптимальное $β j {\ displaystyle \ beta _ {j}}$ $\ beta _ {j}$ дается закрытым -form

argmin β j ‖ b ^ → - X β j ‖ W 2 = (XTWX) - 1 XTW b ^ → {\ displaystyle {\ underset {\ beta _ {j}} {\ operatorname {arg \, min}}} {\ Big \ |} {\ vec {\ hat {b}}} - X \ beta _ {j} {\ Big \ |} _ {W} ^ {2} = (X ^ {\ mathrm {T}} WX) ^ {- 1} X ^ {\ mathrm {T}} W {\ vec {\ hat {b}}}}

{\ displaystyle {\ подмножество {\ beta _ {j}} {\ operatorname {arg \, min}}} {\ Big \ |} {\ vec {\ hat {b}}} - X \ beta _ {j} {\ Big \ | } _ {W} ^ {2} = (X ^ {\ mathrm {T}} WX) ^ {- 1} X ^ {\ mathrm {T}} W {\ vec {\ hat {b}}}}

Используйте этот обновленный $β j {\ displaystyle \ beta _ {j}}$ $\ beta _ {j}$ , чтобы найти новую проекцию $X {\ displaystyle X}$ $X$ и переустановить $fj {\ displaystyle f_ {j}}$ $f_ {j}$ к новому графику рассеяния. Затем используйте этот новый $fj {\ displaystyle f_ {j}}$ $f_ {j}$ для обновления $β j {\ displaystyle \ beta _ {j}}$ $\ beta _ {j}$ , разрешив указанное выше, и продолжайте этот чередующийся процесс до тех пор, пока $(fj, β j) {\ displaystyle (f_ {j}, \ beta _ {j})}$ ${\ displaystyle (f_ {j}, \ beta _ {j})}$ не сойдется.

Было показано, что на скорость сходимости, смещение и дисперсию влияет оценка $β j {\ displaystyle \ beta _ {j}}$ $\ beta _ {j}$ и $fj {\ displaystyle f_ {j}}$ $f_ {j}$ .

Обсуждение

Модель PPR принимает форму базовой аддитивной модели, но с дополнительным $β j {\ displaystyle \ beta _ {j}}$ $\ beta _ {j}$ компонент, поэтому каждый $fj {\ displaystyle f_ {j}}$ $f_ {j}$ соответствует диаграмме рассеяния $β j TXT {\ displaystyle \ beta _ {j} ^ { T} X ^ {T}}$ ${\ displaystyle \ beta _ {j} ^ {T} X ^ {T}}$ по сравнению с остатком (необъяснимая дисперсия) во время обучения, а не с использованием самих исходных входных данных. Это ограничивает проблему поиска каждого $fj {\ displaystyle f_ {j}}$ $f_ {j}$ до низкой размерности, делая ее решаемой с помощью обычных методов наименьших квадратов или подгонки сплайнов и обойдя проклятие размерности во время тренировки. Поскольку $fj {\ displaystyle f_ {j}}$ $f_ {j}$ берется из проекции $X {\ displaystyle X}$ $X$ , результат выглядит как ортогональный "гребень" в размер проекции, поэтому ${fj} {\ displaystyle \ {f_ {j} \}}$ $\ {f_ {j} \}$ часто называют «гребневыми функциями». Направления $β j {\ displaystyle \ beta _ {j}}$ $\ beta _ {j}$ выбираются для оптимизации соответствия их соответствующих функций гребня.

Обратите внимание: поскольку PPR пытается соответствовать проекциям данных, может быть трудно интерпретировать подобранную модель в целом, потому что каждая входная переменная была учтена сложным и многогранным образом. Это может сделать модель более полезной для прогнозирования, чем для понимания данных, хотя визуализация отдельных гребневых функций и рассмотрение того, какие проекции обнаруживает модель, могут дать некоторое понимание.

Преимущества оценки PPR

Она использует одномерные функции регрессии вместо их многомерной формы, таким образом эффективно справляясь с проклятием размерности
Одномерная регрессия позволяет проводить простую и эффективную оценку
По сравнению с обобщенными аддитивными моделями, PPR может оценивать гораздо более богатый класс функций
В отличие от методов локального усреднения (например, k-ближайших соседей ), PPR может игнорировать переменные с низкой объясняющей способностью.

Недостатки оценки PPR

PPR требует изучения M-мерного пространства параметров для оценки $β j {\ displaystyle \ beta _ {j}}$ $\ beta _ {j}$ .
Необходимо выберите параметр сглаживания для $fj {\ displaystyle f_ {j}}$ $f_ {j}$ .
Модель часто трудно интерпретировать

Расширения PPR

Альтернативные сглаживания, такие как радиальная функция, гармоническая функция и аддитивная функция, были предложены, и их эффективность зависит от используемых наборов данных.
Альтернативная оптимизация cr Также использовались критерии, такие как стандартные абсолютные отклонения и средние абсолютные отклонения.
Для упрощения вычислений можно использовать обыкновенные наименьшие квадраты, поскольку часто данные не имеют сильной нелинейности.
Нарезанная обратная регрессия (SIR) использовалась для выбора векторов направления для PPR.
Обобщенный PPR сочетает в себе регулярный PPR с итеративно взвешенными методом наименьших квадратов (IRLS) и функцию связи для оценки двоичные данные.

PPR и нейронные сети (NN)

И регрессия с прогнозированием, и модель нейронных сетей проецируют входной вектор на одномерную гиперплоскость, а затем применяют нелинейное преобразование входные переменные, которые затем добавляются линейным образом. Таким образом, оба следуют одним и тем же шагам, чтобы преодолеть проклятие размерности. Основное отличие состоит в том, что функции $fj {\ displaystyle f_ {j}}$ $f_ {j}$ , устанавливаемые в PPR, могут быть разными для каждой комбинации входных переменных и оцениваются по одной, а затем обновляются с веса, тогда как в NN все они указаны заранее и оцениваются одновременно.

Таким образом, оценка PPR более проста, чем NN, и преобразования переменных в PPR управляются данными, тогда как в NN эти преобразования фиксированы.

См. Также

Погоня за проекцией

Ссылки

Friedman, J.H. and Stuetzle, W. (1981) Прогрессивная регрессия. Журнал Американской статистической ассоциации, 76, 817–823.
Хэнд, Д., Маннила, Х. и Смит, П., (2001) Принципы интеллектуального анализа данных. MIT Press. ISBN 0-262-08290-X
Холл, П. (1988) Оценка направления, в котором набор данных является наиболее интересным, Probab. Области, связанные с теорией, 80, 51–77.
Хасти, Т. Дж., Тибширани, Р. Дж. И Фридман, Дж. Х. (2009). Элементы статистического обучения: интеллектуальный анализ данных, вывод и прогноз. Springer. ISBN 978-0-387-84857-0
Клинке, С. и Грассманн, Дж. (2000) «Прогрессивная регрессия» в сглаживании и регрессии: подходы, вычисления и приложение. Эд. Schimek, M.G.. Wiley Interscience.
Lingjarde, O.C. и Liestol, K. (1998) Обобщенная регрессия преследования проекций. SIAM Journal of Scientific Computing, 20, 844-857.