Регрессия прогнозирования

редактировать

В статистике, регрессия прогнозирования (PPR) - это статистическая модель, разработанная Джеромом Х. Фридманом и являющаяся расширением аддитивных моделей. Эта модель адаптирует аддитивные модели тем, что сначала проецирует матрицу данных из объясняющих переменных в оптимальном направлении, прежде чем применять сглаживающие функции к этим независимым переменным.

Содержание
  • 1 Обзор модели
  • 2 Оценка модели
  • 3 Обсуждение
  • 4 Преимущества оценки PPR
  • 5 Недостатки оценки PPR
  • 6 Расширения PPR
  • 7 PPR vs нейронные сети (NN)
  • 8 См. также
  • 9 Ссылки
Обзор модели

Модель состоит из линейных комбинаций из: нелинейных преобразований линейных комбинаций объясняющие переменные. Базовая модель имеет вид

yi = β 0 + ∑ j = 1 rfj (β j T xi) + ε, {\ displaystyle y_ {i} = \ beta _ {0} + \ sum _ {j = 1 } ^ {r} f_ {j} (\ beta _ {j} ^ {\ mathrm {T}} x_ {i}) + \ varepsilon,}{\ displaystyle y_ {i} = \ beta _ {0} + \ сумма _ {j = 1} ^ {r} f_ {j} (\ beta _ {j} ^ {\ mathrm {T}} x_ {i}) + \ varepsilon,}

где x i - это 1 × p строка матрицы плана, содержащая независимые переменные, например i, y i - это прогноз 1 × 1, {β j } - это набор r векторов (каждый - единичный вектор длины p), которые содержат неизвестные параметры, {f j } - это набор из r изначально неизвестных гладких функций, которые отображаются из ℝ → ℝ, а r - гиперпараметр. Хорошие значения для r можно определить с помощью перекрестной проверки или поэтапной стратегии, которая останавливается, когда соответствие модели не может быть значительно улучшено. Когда r приближается к бесконечности и с соответствующим набором функций {f j }, модель PPR является универсальной оценкой, поскольку она может аппроксимировать любую непрерывную функцию в ℝ.

Оценка модели

Для заданного набора данных {(yi, xi)} i = 1 n {\ displaystyle \ {(y_ {i}, x_ {i}) \} _ {i = 1} ^ {n}}{\ displaystyle \ {(y_ {i}, x_ {i}) \} _ {i = 1} ^ {n}} , цель состоит в том, чтобы минимизировать функцию ошибок

min fj, β j S = ∑ i = 1 n [yi - ∑ j = 1 rfj (β J T xi)] 2 {\ displaystyle \ min _ {f_ {j}, \ beta _ {j}} S = \ sum _ {i = 1} ^ {n} \ left [y_ {i} - \ sum _ {j = 1} ^ {r} f_ {j} (\ beta _ {j} ^ {\ mathrm {T}} x_ {i}) \ right] ^ {2}}{\ displaystyle \ min _ {f_ {j}, \ beta _ {j}} S = \ sum _ {i = 1} ^ {n} \ left [y_ {i} - \ sum _ {j = 1} ^ {r} f_ {j} (\ beta _ {j} ^ {\ mathrm {T}} x_ {i}) \ right] ^ {2}}

над функциями fj {\ displaystyle f_ {j}}f_ {j} и векторы β j {\ displaystyle \ beta _ {j}}\ beta _ {j} . Не существует метода для решения сразу по всем переменным, но его можно решить с помощью. Сначала рассмотрим каждую пару (fj, β j) {\ displaystyle (f_ {j}, \ beta _ {j})}{\ displaystyle (f_ {j}, \ beta _ {j})} по отдельности: пусть все остальные параметры фиксированы, и найдите " остаток », дисперсия вывода, не учитываемая этими другими параметрами, заданная как

ri = yi - ∑ l ≠ jfl (β l T xi) {\ displaystyle r_ {i} = y_ {i} - \ sum _ {l \ neq j} f_ {l} (\ beta _ {l} ^ {\ mathrm {T}} x_ {i})}{\ displaystyle r_ {i} = y_ {i} - \ sum _ {l \ neq j } f_ {l} (\ beta _ {l} ^ {\ mathrm {T}} x_ {i})}

Задача минимизации функции ошибок теперь сводится к решению

мин. fj, β J S 'знак равно ∑ я знак равно 1 N [ри - fj (β J T xi)] 2 {\ displaystyle \ min _ {f_ {j}, \ beta _ {j}} S' = \ sum _ { i = 1} ^ {n} \ left [r_ {i} -f_ {j} (\ beta _ {j} ^ {\ mathrm {T}} x_ {i}) \ right] ^ {2}}{\displaystyle \min _{f_{j},\beta _{j}}S'=\sum _{i=1}^{n}\left[r_{i}-f_{j}(\beta _{j}^{\mathrm {T} }x_{i})\right]^{2}}

для каждого j по очереди. Как правило, новые пары (f j, β j) {\ displaystyle (f_ {j}, \ beta _ {j})}{\ displaystyle (f_ {j}, \ beta _ {j})} добавляются в модель поэтапно.

Кроме того: ранее подогнанные пары могут быть скорректированы после того, как новые пары подгонки определены алгоритмом, известным как повторная подгонка, который влечет за собой пересмотр предыдущей пары, пересчет остатка с учетом того, как изменились другие пары, повторная установка чтобы учесть эту новую информацию, а затем циклически перебирать все подходящие пары таким образом, пока параметры не сойдутся. В результате этого процесса обычно получается модель, которая работает лучше с меньшим количеством подгонок, хотя обучение занимает больше времени, и обычно можно достичь той же производительности, пропустив подгонку и просто добавив больше подгонок к модели (увеличивая r).

Решение упрощенной функции ошибок для определения пары (fj, β j) {\ displaystyle (f_ {j}, \ beta _ {j})}{\ displaystyle (f_ {j}, \ beta _ {j})} может быть выполнено с попеременной оптимизацией, где сначала используется случайный β j {\ displaystyle \ beta _ {j}}\ beta _ {j} для проецирования X {\ displaystyle X}X в пространство 1D, и затем находится оптимальный fj {\ displaystyle f_ {j}}f_ {j} для описания взаимосвязи между этой проекцией и остатками с помощью вашего любимого метода регрессии графика рассеяния. Затем, если fj {\ displaystyle f_ {j}}f_ {j} остается постоянным, предполагая, что fj {\ displaystyle f_ {j}}f_ {j} является однажды дифференцируемым, оптимальное обновленное веса β j {\ displaystyle \ beta _ {j}}\ beta _ {j} можно найти с помощью метода Гаусса-Ньютона - квазиньютоновского метода, в котором часть гессиана с участием второй производной отбрасывается. Чтобы вывести это, сначала Тейлор расширил fj (β j T xi) ≈ fj (β j, старый T xi) + fj ˙ (β j, старый T xi) (β j T xi - β j, старый T xi) {\ displaystyle f_ {j} (\ beta _ {j} ^ {T} x_ {i}) \ приблизительно f_ {j} (\ beta _ {j, old} ^ {T} x_ {i}) + {\ dot {f_ {j}}} (\ beta _ {j, old} ^ {T} x_ {i}) (\ beta _ {j} ^ {T} x_ {i} - \ beta _ {j, old} ^ {T} x_ {i})}{\ displaystyle f_ {j} (\ beta _ {j} ^ {T} x_ {i}) \ приблизительно f_ {j} (\ beta _ {j, old} ^ {T} x_ {i}) + {\ dot {f_ {j}}} (\ beta _ {j, old} ^ {T} x_ {i}) (\ beta _ {j } ^ {T} x_ {i} - \ beta _ {j, old} ^ {T} x_ {i})} , затем снова подключите расширение к упрощенной функции ошибок S '{\ displaystyle S'}S'и произведем некоторые алгебраические манипуляции, чтобы представить его в виде

min β j S ′ ≈ ∑ i = 1 nfj ˙ (β j, old T xi) 2 ⏟ w [(β j, old T xi + ri - fj (β j, старый T xi) fj ˙ (β j, старый T xi) ⏟ b ^) - β j T xi] 2 {\ displaystyle \ min _ {\ beta _ {j}} S '\ приблизительно \ сумма _ {i = 1} ^ {n} \ underbrace {{\ dot {f_ {j}}} (\ beta _ {j, old} ^ {T} x_ {i}) ^ {2}} _ {w} {\ Bigg [} {\ bigg (} \ underbrace {\ beta _ {j, old} ^ {T} x_ {i} + {\ frac {r_ {i} -f_ {j} (\ beta _ {j, old} ^ {T} x_ {i})} {{\ dot {f_ {j}}} (\ beta _ {j, old} ^ {T} x_ {i})}}} _ {\ hat {b }} {\ bigg)} - \ beta _ {j} ^ {T} x_ {i} {\ Bigg]} ^ {2}}{\displaystyle \min _{\beta _{j}}S'\approx \sum _{i=1}^{n}\underbrace {{\dot {f_{j}}}(\beta _{j,old}^{T}x_{i})^{2}} _{w}{\Bigg [}{\bigg (}\underbrace {\beta _{j,old}^{T}x_{i}+{\frac {r_{i}-f_{j}(\beta _{j,old}^{T}x_{i})}{{\dot {f_{j}}}(\beta _{j,old}^{T}x_{i})}}} _{\hat {b}}{\bigg)}-\beta _{j}^{T}x_{i}{\Bigg ]}^{2}}

Это взвешенных наименьших квадратов задача. Если мы решим все веса w {\ displaystyle w}w и поместим их в диагональную матрицу W {\ displaystyle W}W , сложим все новые цели b ^ {\ displaystyle {\ hat {b}}}\ hat {b} в вектор и использовать полную матрицу данных X {\ displaystyle X}X вместо единственный пример xi {\ displaystyle x_ {i}}x_ {i} , тогда оптимальное β j {\ displaystyle \ beta _ {j}}\ beta _ {j} дается закрытым -form

argmin β j ‖ b ^ → - X β j ‖ W 2 = (XTWX) - 1 XTW b ^ → {\ displaystyle {\ underset {\ beta _ {j}} {\ operatorname {arg \, min}}} {\ Big \ |} {\ vec {\ hat {b}}} - X \ beta _ {j} {\ Big \ |} _ {W} ^ {2} = (X ^ {\ mathrm {T}} WX) ^ {- 1} X ^ {\ mathrm {T}} W {\ vec {\ hat {b}}}}{\ displaystyle {\ подмножество {\ beta _ {j}} {\ operatorname {arg \, min}}} {\ Big \ |} {\ vec {\ hat {b}}} - X \ beta _ {j} {\ Big \ | } _ {W} ^ {2} = (X ^ {\ mathrm {T}} WX) ^ {- 1} X ^ {\ mathrm {T}} W {\ vec {\ hat {b}}}}

Используйте этот обновленный β j {\ displaystyle \ beta _ {j}}\ beta _ {j} , чтобы найти новую проекцию X {\ displaystyle X}X и переустановить fj {\ displaystyle f_ {j}}f_ {j} к новому графику рассеяния. Затем используйте этот новый fj {\ displaystyle f_ {j}}f_ {j} для обновления β j {\ displaystyle \ beta _ {j}}\ beta _ {j} , разрешив указанное выше, и продолжайте этот чередующийся процесс до тех пор, пока (fj, β j) {\ displaystyle (f_ {j}, \ beta _ {j})}{\ displaystyle (f_ {j}, \ beta _ {j})} не сойдется.

Было показано, что на скорость сходимости, смещение и дисперсию влияет оценка β j {\ displaystyle \ beta _ {j}}\ beta _ {j} и fj {\ displaystyle f_ {j}}f_ {j} .

Обсуждение

Модель PPR принимает форму базовой аддитивной модели, но с дополнительным β j {\ displaystyle \ beta _ {j}}\ beta _ {j} компонент, поэтому каждый fj {\ displaystyle f_ {j}}f_ {j} соответствует диаграмме рассеяния β j TXT {\ displaystyle \ beta _ {j} ^ { T} X ^ {T}}{\ displaystyle \ beta _ {j} ^ {T} X ^ {T}} по сравнению с остатком (необъяснимая дисперсия) во время обучения, а не с использованием самих исходных входных данных. Это ограничивает проблему поиска каждого fj {\ displaystyle f_ {j}}f_ {j} до низкой размерности, делая ее решаемой с помощью обычных методов наименьших квадратов или подгонки сплайнов и обойдя проклятие размерности во время тренировки. Поскольку fj {\ displaystyle f_ {j}}f_ {j} берется из проекции X {\ displaystyle X}X , результат выглядит как ортогональный "гребень" в размер проекции, поэтому {fj} {\ displaystyle \ {f_ {j} \}}\ {f_ {j} \} часто называют «гребневыми функциями». Направления β j {\ displaystyle \ beta _ {j}}\ beta _ {j} выбираются для оптимизации соответствия их соответствующих функций гребня.

Обратите внимание: поскольку PPR пытается соответствовать проекциям данных, может быть трудно интерпретировать подобранную модель в целом, потому что каждая входная переменная была учтена сложным и многогранным образом. Это может сделать модель более полезной для прогнозирования, чем для понимания данных, хотя визуализация отдельных гребневых функций и рассмотрение того, какие проекции обнаруживает модель, могут дать некоторое понимание.

Преимущества оценки PPR
  • Она использует одномерные функции регрессии вместо их многомерной формы, таким образом эффективно справляясь с проклятием размерности
  • Одномерная регрессия позволяет проводить простую и эффективную оценку
  • По сравнению с обобщенными аддитивными моделями, PPR может оценивать гораздо более богатый класс функций
  • В отличие от методов локального усреднения (например, k-ближайших соседей ), PPR может игнорировать переменные с низкой объясняющей способностью.
Недостатки оценки PPR
  • PPR требует изучения M-мерного пространства параметров для оценки β j {\ displaystyle \ beta _ {j}}\ beta _ {j} .
  • Необходимо выберите параметр сглаживания для fj {\ displaystyle f_ {j}}f_ {j} .
  • Модель часто трудно интерпретировать
Расширения PPR
  • Альтернативные сглаживания, такие как радиальная функция, гармоническая функция и аддитивная функция, были предложены, и их эффективность зависит от используемых наборов данных.
  • Альтернативная оптимизация cr Также использовались критерии, такие как стандартные абсолютные отклонения и средние абсолютные отклонения.
  • Для упрощения вычислений можно использовать обыкновенные наименьшие квадраты, поскольку часто данные не имеют сильной нелинейности.
  • Нарезанная обратная регрессия (SIR) использовалась для выбора векторов направления для PPR.
  • Обобщенный PPR сочетает в себе регулярный PPR с итеративно взвешенными методом наименьших квадратов (IRLS) и функцию связи для оценки двоичные данные.
PPR и нейронные сети (NN)

И регрессия с прогнозированием, и модель нейронных сетей проецируют входной вектор на одномерную гиперплоскость, а затем применяют нелинейное преобразование входные переменные, которые затем добавляются линейным образом. Таким образом, оба следуют одним и тем же шагам, чтобы преодолеть проклятие размерности. Основное отличие состоит в том, что функции fj {\ displaystyle f_ {j}}f_ {j} , устанавливаемые в PPR, могут быть разными для каждой комбинации входных переменных и оцениваются по одной, а затем обновляются с веса, тогда как в NN все они указаны заранее и оцениваются одновременно.

Таким образом, оценка PPR более проста, чем NN, и преобразования переменных в PPR управляются данными, тогда как в NN эти преобразования фиксированы.

См. Также
Ссылки
Последняя правка сделана 2021-06-02 08:01:51
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте