Часть серии по |
Регрессионный анализ |
---|
Модели |
Предварительный расчет |
Фон |
|
|
Регрессия частичных наименьших квадратов ( регрессия PLS) - это статистический метод, который имеет некоторое отношение к регрессии главных компонентов ; вместо того, чтобы находить гиперплоскости максимальной дисперсии между ответом и независимыми переменными, он находит модель линейной регрессии, проецируя предсказанные переменные и наблюдаемые переменные в новое пространство. Поскольку данные X и Y проецируются в новые пространства, семейство методов PLS известно как билинейные факторные модели. Дискриминантный анализ методом частичных наименьших квадратов (PLS-DA) - это вариант, используемый, когда Y является категориальным.
PLS используется для нахождения фундаментальных отношений между двумя матрицами ( X и Y), т. Е. Скрытого переменного подхода к моделированию ковариационных структур в этих двух пространствах. Модель PLS попытается найти многомерное направление в пространстве X, которое объясняет направление максимальной многомерной дисперсии в пространстве Y. Регрессия PLS особенно подходит, когда матрица предикторов имеет больше переменных, чем наблюдений, и когда существует мультиколлинеарность между значениями X. Напротив, стандартная регрессия в этих случаях потерпит неудачу (если она не регуляризована ).
Метод наименьших квадратов был введен шведским статистиком Германом О.А. Волдом, который затем разработал его вместе со своим сыном Сванте Волдом. Альтернативный термин для PLS (и более правильный согласно Сванте Уолду) - это проекция на скрытые структуры, но термин частичные наименьшие квадраты все еще доминирует во многих областях. Хотя первоначальные приложения были в социальных науках, регрессия PLS сегодня наиболее широко используется в хемометрике и смежных областях. Он также используется в биоинформатике, сенсометрии, нейробиологии и антропологии.
Общая базовая модель многомерного PLS такова:
где X - матрица предикторов, Y - матрица ответов; T и U - матрицы, которые представляют собой, соответственно, проекции X ( оценка X, матрица компонентов или факторов) и проекции Y ( оценки Y); P и Q представляют собой, соответственно, и ортогональные матрицы нагрузки ; а матрицы E и F являются членами ошибок, которые считаются независимыми и одинаково распределенными случайными нормальными величинами. В разбиения X и Y сделаны таким образом, чтобы максимизировать ковариации между Т и U.
Ряд вариантов PLS существуют для оценки коэффициента нагрузки и матрицы T, U, P и Q. Большинство из них строят оценки линейной регрессии между X и Y как. Некоторые алгоритмы PLS подходят только для случая, когда Y представляет собой вектор - столбец, в то время как другие решения в общем случае матрицы Y. Алгоритмы также различаются по тому, оценивают ли они фактор-матрицу T как ортогональную (то есть ортонормированную ) матрицу или нет. Окончательный прогноз будет одинаковым для всех этих разновидностей PLS, но компоненты будут отличаться.
PLS1 - широко используемый алгоритм, подходящий для случая вектора Y. Он оценивает T как ортонормированную матрицу. В псевдокоде это выражается ниже (заглавные буквы - это матрицы, строчные буквы - это векторы, если они с надстрочными индексами, и скаляры, если они с индексами)
1 function PLS1(X, y, l) 2 3 , an initial estimate of w. 4 for to 5 6 (note this is a scalar) 7 8 9 (note this is a scalar) 10 if 11 , break the for loop 12 if 13 14 15 end for 16 define W to be the matrix with columns . Do the same to form the P matrix and q vector. 17 18 19 return
Эта форма алгоритма не требует центрирования входных X и Y, так как это выполняется алгоритмом неявно. Этот алгоритм объектов «дефляция» матрицы X (вычитание), но дефляция вектора у не выполняется, так как не надо (можно доказать, что разваливающийся у дает те же результаты, не разваливающийся). Пользовательская переменная l - это ограничение на количество скрытых факторов в регрессии; если он равен рангу матрицы X, алгоритм даст оценки регрессии наименьших квадратов для B и
В 2002 году был опубликован новый метод, названный ортогональными проекциями скрытых структур (OPLS). В OPLS непрерывные переменные данные разделяются на прогнозирующую и некоррелированную информацию. Это приводит к улучшенной диагностике, а также к более легко интерпретируемой визуализации. Однако эти изменения только улучшают интерпретируемость, но не предсказуемость моделей PLS. L-PLS расширяет регрессию PLS до 3 связанных блоков данных. Аналогичным образом, OPLS-DA (Дискриминантный анализ) может применяться при работе с дискретными переменными, например, в исследованиях классификации и биомаркеров.
В 2015 году метод частичных наименьших квадратов был связан с процедурой, называемой трехпроходным регрессионным фильтром (3PRF). Предположим, что количество наблюдений и переменных велико, 3PRF (и, следовательно, PLS) асимптотически нормален для «лучшего» прогноза, подразумеваемого линейной моделью скрытых факторов. В данных о фондовых рынках было показано, что PLS обеспечивает точные прогнозы доходности и роста денежных потоков вне выборки.
Версия PLS, основанная на разложении по сингулярным значениям (SVD), обеспечивает эффективную с точки зрения памяти реализацию, которая может использоваться для решения многомерных задач, таких как связывание миллионов генетических маркеров с тысячами функций визуализации в визуализации генетики на аппаратном обеспечении потребительского уровня.
Корреляция PLS (PLSC) - еще одна методология, связанная с регрессией PLS, которая использовалась в нейровизуализации, а в последнее время и в спортивной науке, для количественной оценки силы взаимосвязи между наборами данных. Как правило, PLSC делит данные на два блока (подгруппы), каждый из которых содержит одну или несколько переменных, а затем использует декомпозицию по сингулярным значениям (SVD) для определения силы любой взаимосвязи (т. Е. Объема совместно используемой информации), которая может существовать между две компонентные подгруппы. Это достигается с помощью SVD для определения инерции (т. Е. Суммы сингулярных значений) ковариационной матрицы рассматриваемых подгрупп.
|journal=
( помощь )|journal=
( помощь )