В статистике, Байесовская линейная регрессия - это подход к линейной регрессия, в которой статистический анализ проводится в контексте байесовского вывода. Когда модель регрессии имеет ошибки, которые имеют нормальное распределение, и если предполагается конкретная форма предшествующего распределения, явные результаты доступны для апостериорные вероятностные распределения параметров модели.
Содержание
- 1 Настройка модели
- 2 С конъюгированными приорами
- 2.1 Предварительное распределение конъюгата
- 2.2 Апостериорное распределение
- 2.3 Доказательства модели
- 3 Другие случаи
- 4 См. Также
- 5 Примечания
- 6 Ссылки
- 7 Внешние ссылки
Настройка модели
Рассмотрим стандартную задачу линейной регрессии, в которой для мы указываем среднее значение условного распределения из задано вектор-предиктор :
где - вектор , а являются независимыми и одинаково нормально распределенными случайными величинами:
Это соответствует следующей функции правдоподобия :
Решение обычным методом наименьших квадратов используется для оценки вектора коэффициентов используя псевдообратную матрицу Мура – Пенроуза :
где - это матрица плана, каждая строка которой является вектором-предиктором ; и - столбец -vector .
Это частотный подход, и он предполагает, что их достаточно измерения, чтобы сказать что-то значимое о . В подходе байесовского данные дополняются дополнительной информацией в виде априорного распределения вероятностей. Априорное мнение о параметрах объединяется с функцией правдоподобия данных согласно теореме Байеса, чтобы получить апостериорное убеждение о параметрах и . Предварительная информация может принимать различные функциональные формы в зависимости от предметной области и информации, доступной априори.
С конъюгированным априорным распределением
Конъюгированное априорное распределение
Для произвольного априорного распределения не может быть аналитического решения для апостериорного распределения. В этом разделе мы рассмотрим так называемый сопряженный априорный, для которого апостериорное распределение может быть получено аналитически.
Предыдущее значение равно сопрягайте с этой функцией правдоподобия, если она имеет ту же функциональную форму относительно и . Поскольку логарифм правдоподобия квадратичен в , логарифм правдоподобия переписывается так, что правдоподобие становится нормальным в . Напишите
Вероятность теперь переписывается как
где
где - количество коэффициентов регрессии.
Это предполагает форму априорной:
где - это обратное гамма-распределение
В обозначениях, введенных в статье обратное гамма-распределение, это плотность распределение с и с и как предыдущие значения и соответственно. Эквивалентно, это также может быть описано как масштабированное обратное распределение хи-квадрат,
Далее условная априорная плотность является нормальным распределением,
В обозначениях нормального распределения условное априорное распределение равно
Апостериорное распределение
Если задано предыдущее, апостериорное распределение может быть выражено как
После некоторой перестановки апостериор можно переписать так, чтобы апостериорное среднее вектора параметров может быть выражено в терминах оценщика наименьших квадратов и априорное среднее , с силой априорной точности, указанной в матрице априорной точности
Чтобы обосновать, что действительно является апостериорным значит, квадратичные члены в экспоненте могут быть преобразованы в квадратичную форму в .
Теперь апостериор можно выразить как нормальное распределение, умноженное на обратное гамма-распределение :
Следовательно, апостериорное распределение можно параметризовать следующим образом.
где два фактора соответствуют плотности и распределения, параметры которых задаются как
Это можно интерпретировать как байесовское обучение, при котором параметры обновляются в соответствии со следующими уравнениями.
Образец свидетельства
свидетельство модели - вероятность данных для данной модели . Он также известен как предельное правдоподобие и как априорная прогностическая плотность. Здесь модель определяется функцией правдоподобия и предварительное распределение по параметрам, то есть . Свидетельства модели фиксируют одним числом, насколько хорошо такая модель объясняет наблюдения. Модельное свидетельство модели байесовской линейной регрессии, представленное в этом разделе, можно использовать для сравнения конкурирующих линейных моделей с помощью сравнения байесовских моделей. Эти модели могут различаться по количеству и значениям переменных-предикторов, а также по своим априорным значениям для параметров модели. Сложность модели уже учтена в доказательствах модели, потому что она исключает параметры путем интегрирования по всем возможным значениям и .
Этот интеграл можно вычислить аналитически, и решение дается в следующем уравнении.
Здесь обозначает гамма-функцию. Поскольку мы заранее выбрали сопряжение, маргинальное правдоподобие также можно легко вычислить, оценив следующее равенство для произвольных значений и .
Обратите внимание, что это уравнение является не чем иным, как перестановкой теоремы Байеса. Вставка формул для априорного, вероятностного и апостериорного значений и упрощение результирующего выражения приводит к аналитическому выражению, приведенному выше.
Другие случаи
В целом, аналитическое получение апостериорного распределения может оказаться невозможным или непрактичным. Однако можно аппроксимировать апостериор с помощью метода приближенного байесовского вывода, такого как выборка Монте-Карло или вариационная байесовская.
Особый случай называется гребневой регрессией.
Аналогичный анализ может быть выполнен для общего случая многомерной регрессии, и частично он обеспечивает байесовскую оценку ковариационных матриц : см. Байесовская многомерная линейная регрессия.
См. Также
Примечания
- ^Промежуточные этапы этого вычисления можно найти у О'Хагана (1994) в начале главы о линейных моделях.
- ^Промежуточные этапы описаны у Fahrmeir et al. (2009) на странице 188.
- ^Промежуточные этапы этого вычисления можно найти у О'Хагана (1994) на странице 257.
- ^Карлин и Луис (2008) и Гельман и др. (2003) объясняют, как использовать методы выборки для байесовской линейной регрессии.
Ссылки
- Box, G. E. P. ; Тяо, Г. К. (1973). Байесовский вывод в статистическом анализе. Вайли. ISBN 0-471-57428-7.
- Carlin, Bradley P.; Луи, Томас А. (2008). Байесовские методы анализа данных, третье издание. Бока-Ратон, Флорида: Чепмен и Холл / CRC. ISBN 1-58488-697-8.
- Fahrmeir, L.; Кнейб, Т.; Ланг, С. (2009). Регресс. Modelle, Methoden und Anwendungen (второе изд.). Гейдельберг: Springer. DOI : 10.1007 / 978-3-642-01837-4. ISBN 978-3-642-01836-7.
- Форнальски К.В.; Парзыч Г.; Пылак М.; Satuła D.; Добжиньски Л. (2010). «Применение байесовских рассуждений и метода максимальной энтропии к некоторым задачам реконструкции». Acta Physica Polonica A. 117 (6): 892–899. doi : 10.12693 / APhysPolA.117.892.
- Форнальски, Кшиштоф В. (2015). «Приложения робастного байесовского регрессионного анализа». Международный журнал науки о системах общества. 7 (4): 314–333. doi : 10.1504 / IJSSS.2015.073223.
- Гельман, Эндрю ; Карлин, Джон Б.; Стерн, Хэл С.; Рубин, Дональд Б. (2003). Байесовский анализ данных, второе издание. Бока-Ратон, Флорида: Чепмен и Холл / CRC. ISBN 1-58488-388-X.
- Гольдштейн, Майкл; Wooff, Дэвид (2007). Линейная статистика, теория и методы Байеса. Вайли. ISBN 978-0-470-01562-9.
- Минка, Томас П. (2001) Байесовская линейная регрессия, веб-страница исследований Microsoft
- Росси, Питер E.; Алленби, Грег М.; Маккалок, Роберт (2006). Байесовская статистика и маркетинг. Джон Вили и сыновья. ISBN 0470863676.
- О'Хаган, Энтони (1994). Байесовский вывод. Продвинутая теория статистики Кендалла. 2B (Первое изд.). Холстед. ISBN 0-340-52922-9.
- Sivia, D.S.; Скиллинг, Дж. (2006). Анализ данных - байесовский учебник (второе изд.). Oxford University Press.
- Уолтер, Геро; Августин, Томас (2009). «Байесовская линейная регрессия - различные сопряженные модели и их (не) чувствительность к конфликту предшествующих данных» (PDF). Технический отчет № 069, Статистический факультет Мюнхенского университета.
Внешние ссылки