В статистике, регрессия прогнозирования (PPR) - это статистическая модель, разработанная Джеромом Х. Фридманом и являющаяся расширением аддитивных моделей. Эта модель адаптирует аддитивные модели тем, что сначала проецирует матрицу данных из объясняющих переменных в оптимальном направлении, прежде чем применять сглаживающие функции к этим независимым переменным.
Модель состоит из линейных комбинаций из: нелинейных преобразований линейных комбинаций объясняющие переменные. Базовая модель имеет вид
где x i - это 1 × p строка матрицы плана, содержащая независимые переменные, например i, y i - это прогноз 1 × 1, {β j } - это набор r векторов (каждый - единичный вектор длины p), которые содержат неизвестные параметры, {f j } - это набор из r изначально неизвестных гладких функций, которые отображаются из ℝ → ℝ, а r - гиперпараметр. Хорошие значения для r можно определить с помощью перекрестной проверки или поэтапной стратегии, которая останавливается, когда соответствие модели не может быть значительно улучшено. Когда r приближается к бесконечности и с соответствующим набором функций {f j }, модель PPR является универсальной оценкой, поскольку она может аппроксимировать любую непрерывную функцию в ℝ.
Для заданного набора данных , цель состоит в том, чтобы минимизировать функцию ошибок
над функциями и векторы . Не существует метода для решения сразу по всем переменным, но его можно решить с помощью. Сначала рассмотрим каждую пару по отдельности: пусть все остальные параметры фиксированы, и найдите " остаток », дисперсия вывода, не учитываемая этими другими параметрами, заданная как
Задача минимизации функции ошибок теперь сводится к решению
для каждого j по очереди. Как правило, новые пары добавляются в модель поэтапно.
Кроме того: ранее подогнанные пары могут быть скорректированы после того, как новые пары подгонки определены алгоритмом, известным как повторная подгонка, который влечет за собой пересмотр предыдущей пары, пересчет остатка с учетом того, как изменились другие пары, повторная установка чтобы учесть эту новую информацию, а затем циклически перебирать все подходящие пары таким образом, пока параметры не сойдутся. В результате этого процесса обычно получается модель, которая работает лучше с меньшим количеством подгонок, хотя обучение занимает больше времени, и обычно можно достичь той же производительности, пропустив подгонку и просто добавив больше подгонок к модели (увеличивая r).
Решение упрощенной функции ошибок для определения пары может быть выполнено с попеременной оптимизацией, где сначала используется случайный для проецирования в пространство 1D, и затем находится оптимальный для описания взаимосвязи между этой проекцией и остатками с помощью вашего любимого метода регрессии графика рассеяния. Затем, если остается постоянным, предполагая, что является однажды дифференцируемым, оптимальное обновленное веса можно найти с помощью метода Гаусса-Ньютона - квазиньютоновского метода, в котором часть гессиана с участием второй производной отбрасывается. Чтобы вывести это, сначала Тейлор расширил , затем снова подключите расширение к упрощенной функции ошибок и произведем некоторые алгебраические манипуляции, чтобы представить его в виде
Это взвешенных наименьших квадратов задача. Если мы решим все веса и поместим их в диагональную матрицу , сложим все новые цели в вектор и использовать полную матрицу данных вместо единственный пример , тогда оптимальное дается закрытым -form
Используйте этот обновленный , чтобы найти новую проекцию и переустановить к новому графику рассеяния. Затем используйте этот новый для обновления , разрешив указанное выше, и продолжайте этот чередующийся процесс до тех пор, пока не сойдется.
Было показано, что на скорость сходимости, смещение и дисперсию влияет оценка и .
Модель PPR принимает форму базовой аддитивной модели, но с дополнительным компонент, поэтому каждый соответствует диаграмме рассеяния по сравнению с остатком (необъяснимая дисперсия) во время обучения, а не с использованием самих исходных входных данных. Это ограничивает проблему поиска каждого до низкой размерности, делая ее решаемой с помощью обычных методов наименьших квадратов или подгонки сплайнов и обойдя проклятие размерности во время тренировки. Поскольку берется из проекции , результат выглядит как ортогональный "гребень" в размер проекции, поэтому часто называют «гребневыми функциями». Направления выбираются для оптимизации соответствия их соответствующих функций гребня.
Обратите внимание: поскольку PPR пытается соответствовать проекциям данных, может быть трудно интерпретировать подобранную модель в целом, потому что каждая входная переменная была учтена сложным и многогранным образом. Это может сделать модель более полезной для прогнозирования, чем для понимания данных, хотя визуализация отдельных гребневых функций и рассмотрение того, какие проекции обнаруживает модель, могут дать некоторое понимание.
И регрессия с прогнозированием, и модель нейронных сетей проецируют входной вектор на одномерную гиперплоскость, а затем применяют нелинейное преобразование входные переменные, которые затем добавляются линейным образом. Таким образом, оба следуют одним и тем же шагам, чтобы преодолеть проклятие размерности. Основное отличие состоит в том, что функции , устанавливаемые в PPR, могут быть разными для каждой комбинации входных переменных и оцениваются по одной, а затем обновляются с веса, тогда как в NN все они указаны заранее и оцениваются одновременно.
Таким образом, оценка PPR более проста, чем NN, и преобразования переменных в PPR управляются данными, тогда как в NN эти преобразования фиксированы.