Гауссовский процесс

редактировать
Статистическая модель, в которой каждая точка в непрерывном пространстве ввода связана с нормально распределенной случайной величиной

В теория вероятностей и статистика, гауссовский процесс - это стохастический процесс (набор случайных величин, индексированных по времени или пространству), так что каждый конечный набор этих случайных величин имеет многомерное нормальное распределение, то есть каждая конечная линейная комбинация из них имеет нормальное распределение. Распределение гауссовского процесса - это совместное распределение всех этих (бесконечно многих) случайных величин, и, как таковое, это распределение по функциям с непрерывной областью определения, например время или пространство.

Алгоритм машинного обучения, включающий гауссовский процесс, использует ленивое обучение и меру сходства между точками (функция ядра) для прогнозирования значения невидимой точки на основе данных обучения. Прогноз - это не только оценка для этой точки, но и информация о неопределенности - это одномерное распределение Гаусса. Для прогнозирования с несколькими выходами используются многомерные гауссовские процессы, для которых многомерное распределение Гаусса является предельным распределением в каждой точке.

Для некоторых функций ядра матричная алгебра может использоваться для вычисления прогнозов с использованием метода кригинга. Когда используется параметризованное ядро, программное обеспечение оптимизации обычно используется для соответствия гауссовской модели процесса.

Концепция гауссовских процессов названа в честь Карла Фридриха Гаусса, потому что она основана на понятии гауссова распределения (нормальное распределение ). Гауссовские процессы можно рассматривать как бесконечномерное обобщение многомерных нормальных распределений.

Гауссовские процессы полезны в статистическом моделировании, используя свойства, унаследованные от нормального распределения. Например, если случайный процесс моделируется как гауссовский процесс, распределения различных производных величин могут быть получены явно. Такие величины включают среднее значение процесса за определенный период времени и ошибку при оценке среднего значения с использованием значений выборки за небольшой набор времен. Хотя точные модели часто плохо масштабируются по мере увеличения объема данных, было разработано несколько методов аппроксимации , которые часто сохраняют хорошую точность, резко сокращая время вычислений.

Содержание

  • 1 Определение
  • 2 Дисперсия
  • 3 Стационарность
  • 4 Пример
  • 5 Ковариационные функции
    • 5.1 Обычные ковариационные функции
  • 6 Непрерывность
    • 6.1 Стационарный случай
  • 7 Броуновское движение как интеграл гауссовских процессов
  • 8 Закон нуля или единицы Дрисколла
  • 9 Гауссовские процессы с линейными ограничениями
  • 10 Приложения
    • 10.1 Прогнозирование гауссовских процессов или Кригинг
    • 10.2 Байесовские нейронные сети как Гауссовские процессы
  • 11 Вычислительные проблемы
  • 12 См. Также
  • 13 Ссылки
  • 14 Внешние ссылки
    • 14.1 Программное обеспечение
    • 14.2 Видеоуроки

Определение

Непрерывное время случайный процесс {X t; t ∈ T} {\ displaystyle \ left \ {X_ {t}; t \ in T \ right \}}\left\{X_{t};t\in T\right\}гауссовский тогда и только тогда, когда для каждого конечного множества из индексов t 1,…, tk {\ displaystyle t_ {1}, \ ldots, t_ {k}}t_{1},\ldots,t_{k}в наборе индексов T {\ displaystyle T}T

Икс t 1,…, tk = (X t 1,…, X tk) {\ displaystyle \ mathbf {X} _ {t_ {1}, \ ldots, t_ {k}} = (X_ {t_ {1}}, \ ldots, X_ {t_ {k}})}{\displaystyle \mathbf {X} _{t_{1},\ldots,t_{k}}=(X_{t_{1}},\ldots,X_{t_{k}})}

- это многомерная гауссовская случайная величина. Это то же самое, что сказать каждая линейная комбинация (X t 1,…, X tk) {\ displaystyle (X_ {t_ {1}}, \ ldots, X_ {t_ {k}})}{\displaystyle (X_{t_{1}},\ldots,X_{t_{k}})}имеет одномерное нормальное (или гауссово) распределение.

Используя характеристические функции случайных величин, свойство Гаусса можно сформулировать следующим образом: {X t; t ∈ T} {\ displaystyle \ left \ {X_ {t}; t \ in T \ right \}}\left\{X_{t};t\in T\right\}является гауссовским тогда и только тогда, когда для каждого конечного набора индексов t 1, …, Tk {\ displaystyle t_ {1}, \ ldots, t_ {k}}t_{1},\ldots,t_{k}, есть вещественные σ ℓ j {\ displaystyle \ sigma _ {\ ell j}}\sigma _{\ell j}, μ ℓ {\ displaystyle \ mu _ {\ ell}}\mu _{\ell }с σ jj>0 {\ displaystyle \ sigma _ {jj}>0}{\displaystyle \sigma _{jj}>0} таким образом, что следующее равенство выполняется для всех s 1, s 2,…, sk ∈ R {\ displaystyle s_ {1}, s_ {2}, \ ldots, s_ {k} \ in \ mathbb {R}}{\displaystyle s_{1},s_{2},\ldots,s_{k}\in \mathbb {R} }

E ⁡ (exp ⁡ (i ∑ ℓ знак равно 1 кс ℓ Икс T ℓ)) знак равно ехр ⁡ (- 1 2 ∑ ℓ, J σ ℓ js ℓ sj + я ∑ ℓ μ ℓ s ℓ) {\ displaystyle \ operatorname {E} \ left (\ exp \ left (i \ \ sum _ {\ ell = 1} ^ {k} s _ {\ ell} \ \ mathbf {X} _ {t _ {\ ell}} \ right) \ right) = \ exp \ left (- { \ frac {1} {2}} \, \ sum _ {\ ell, j} \ sigma _ {\ ell j} s _ {\ ell} s_ {j} + i \ sum _ {\ ell} \ mu _ { \ ell} s _ {\ ell} \ right)}{\displaystyle \operatorname {E} \left(\exp \left(i\ \sum _{\ell =1}^{k}s_{\ell }\ \mathbf {X} _{t_{\ell }}\right)\right)=\exp \left(-{\frac {1}{2}}\,\sum _{\ell,j}\sigma _{\ell j}s_{\ell }s_{j}+i\sum _{\ell }\mu _{\ell }s_{\ell }\right)}.

где i {\ displaystyle i}iобозначает мнимую единицу такую, что i 2 = - 1 {\ displaystyle i ^ {2} = - 1}{\displaystyle i^{2}=-1}.

Числа σ ℓ j {\ displaystyle \ sigma _ {\ ell j}}\sigma _{\ell j}и μ ℓ {\ displaystyle \ mu _ {\ ell}}\mu _{\ell }могут быть показаны быть ковариациями и означает переменных в процессе.

Дисперсия

Дисперсия гауссовского процесса конечна в любой момент t {\ displaystyle t}t, формально

var ⁡ [X (t)] = E ⁡ [| X (t) - E ⁡ [X (t)] | 2] < ∞ for all t ∈ T {\displaystyle \operatorname {var} [X(t)]=\operatorname {E} [|X(t)-\operatorname {E} [X(t)]|^{2}]<\infty \quad {\text{for all }}t\in T}{\displaystyle \operatorname {var} [X(t)]=\operatorname {E} [|X(t)-\operatorname {E} [X(t)]|^{2}]<\infty \quad {\text{for all }}t\in T}.

Стационарность

Для общих стохастических процессов стационарность в строгом смысле подразумевает стационарность в широком смысле, но не каждый стационарный случайный процесс в широком смысле является строгим. стационарный. Однако для гауссовского стохастического процесса эти два понятия эквивалентны.

Гауссовский случайный процесс является стационарным в строгом смысле слова тогда и только тогда, когда он является стационарным в широком смысле.

Пример

Существует явное представление для стационарных гауссовских процессов. Простой пример этого представления:

X t = cos ⁡ (at) ξ 1 + sin ⁡ (at) ξ 2 {\ displaystyle X_ {t} = \ cos (at) \ xi _ {1} + \ sin (at) \ xi _ {2}}{\displaystyle X_{t}=\cos(at)\xi _{1}+\sin(at)\xi _{2}}

где ξ 1 {\ displaystyle \ xi _ {1}}\xi _{1}и ξ 2 {\ displaystyle \ xi _ {2} }\xi _{2}- независимые случайные величины со стандартным нормальным распределением .

Ковариационные функции

Ключевым фактом гауссовских процессов является то, что они могут быть полностью определены их статистикой второго порядка. Таким образом, если предполагается, что гауссовский процесс имеет нулевое среднее значение, определение ковариационной функции полностью определяет поведение процесса. Важно отметить, что неотрицательная определенность этой функции делает возможным ее спектральное разложение с использованием разложения Карунена – Лоэва. Основные аспекты, которые могут быть определены с помощью ковариационной функции, - это процесс «стационарность, изотропия, гладкость и периодичность.

относится к стационарности. к поведению процесса относительно разделения любых двух точек x {\ displaystyle x}xи x ′ {\ displaystyle x '}x'. Если процесс стационарный, он зависит от их разделения, x - x ′ {\ displaystyle x-x '}{\displaystyle x-x'}, а если процесс нестационарный, он зависит от фактического положения точек x {\ displaystyle x}xи x ′ {\ displaystyle x '}x'. Например, частный случай процесса Орнштейна – Уленбека, процесса броуновского движения, является стационарным.

Если процесс зависит только от | х - х ′ | {\ displaystyle | x-x '|}|x-x'|, евклидово расстояние (не направление) между x {\ displaystyle x}xи x ′ {\ displaystyle x '}x', то процесс считается изотропным. Процесс, который одновременно является стационарным и изотропным, считается однородным ; на практике эти свойства отражают различия (или, скорее, их отсутствие) в поведении процесса с учетом местоположения наблюдателя.

В конечном итоге гауссовские процессы переводятся как априорные функции, и гладкость этих априорных значений может быть индуцирована ковариационной функцией. Если мы ожидаем, что для «ближайших» входных точек x {\ displaystyle x}xи x ′ {\ displaystyle x '}x'их соответствующие выходные точки y {\ displaystyle y}yи y ′ {\ displaystyle y '}y'тоже должны быть «рядом», тогда предположение о непрерывности присутствует. Если мы хотим учесть значительное смещение, мы могли бы выбрать более грубую ковариационную функцию. Крайними примерами такого поведения являются ковариационная функция Орнштейна – Уленбека и квадрат экспоненты, где первая никогда не дифференцируема, а вторая - бесконечно дифференцируема.

Периодичность означает создание периодических закономерностей в поведении процесса. Формально это достигается отображением входных данных x {\ displaystyle x}xв двумерный вектор u (x) = (cos ⁡ (x), sin ⁡ (x)) {\ displaystyle u (x) = \ left (\ cos (x), \ sin (x) \ right)}{\displaystyle u(x)=\left(\cos(x),\sin(x)\right)}.

Обычные ковариационные функции

Влияние выбора различных ядер на априорное распределение функций гауссовского процесса. Слева - квадрат экспоненциального ядра. Средний - броуновский. Правая квадратичная.

Существует ряд общих ковариационных функций:

  • Константа: KC (x, x ′) = C {\ displaystyle K _ {\ operatorname {C}} (x, x ') = C}{\displaystyle K_{\operatorname {C} }(x,x')=C}
  • Линейный: KL (x, x ′) = x T x ′ {\ displaystyle K _ {\ operatorname {L}} (x, x ') = x ^ {T} x'}{\displaystyle K_{\operatorname {L} }(x,x')=x^{T}x'}
  • белый гауссовский шум: K GN (x, x ′) = σ 2 δ x, x ′ {\ displaystyle K _ {\ operatorname {GN}} (x, x ') = \ sigma ^ {2} \ delta _ {x, x '}}{\displaystyle K_{\operatorname {GN} }(x,x')=\sigma ^{2}\delta _{x,x'}}
  • Квадрат экспоненты: K SE (x, x ′) = exp ⁡ (- | d | 2 2 ℓ 2) {\ displaystyle K _ {\ operatorname {SE}} (x, x ') = \ exp {\ Big (} - {\ frac {| d | ^ {2}} {2 \ ell ^ {2}}} {\ Big)}}{\displaystyle K_{\operatorname {SE} }(x,x')=\exp {\Big (}-{\frac {|d|^{2}}{2\ell ^{2}}}{\Big)}}
  • Орнштейн – Уленбек: К OU (x, x ') = ехр ⁡ (- | d | {) {\ displaystyle K _ {\ operatorname {OU}} (x, x') = \ exp \ left (- {\ frac {| d |} {\ ell}} \ right)}{\displaystyle K_{\operatorname {OU} }(x,x')=\exp \left(-{\frac {|d|}{\ell }}\right)}
  • Матерн: K Matern (x, x ′) = 2 1 - ν Γ (ν) (2 ν | d | ℓ) ν K ν (2 ν | d | ℓ) {\ displaystyle K _ {\ operatorname {Matern}} (x, x ') = {\ frac {2 ^ {1- \ nu}} {\ Gamma (\ nu)}} {\ Big ( } {\ frac {{\ sqrt {2 \ nu}} | d |} {\ ell}} {\ Big)} ^ {\ nu} K _ {\ nu} {\ Big (} {\ frac {{\ sqrt {2 \ nu} } | d |} {\ ell}} {\ Big)}}{\displaystyle K_{\operatorname {Matern} }(x,x')={\frac {2^{1-\nu }}{\Gamma (\nu)}}{\Big (}{\frac {{\sqrt {2\nu }}|d|}{\ell }}{\Big)}^{\nu }K_{\nu }{\Big (}{\frac {{\sqrt {2\nu }}|d|}{\ell }}{\Big)}}
  • Периодический: KP (x, x ′) = exp ⁡ (- 2 sin 2 ⁡ (d 2) ℓ 2) {\ displaystyle K _ {\ operatorname {P}} (x, x ') = \ exp \ left (- {\ frac {2 \ sin ^ {2} \ left ({\ frac {d} {2}} \ right)} { \ ell ^ {2}}} \ right)}{\displaystyle K_{\operatorname {P} }(x,x')=\exp \left(-{\frac {2\sin ^{2}\left({\frac {d}{2}}\right)}{\ell ^{2}}}\right)}
  • Рациональный квадратичный: K RQ (x, x ′) = (1 + | d | 2) - α, α ≥ 0 {\ Displaystyle K _ {\ operatorname {RQ}} (x, x ') = (1+ | d | ^ {2}) ^ {- \ alpha}, \ quad \ alpha \ geq 0}{\displaystyle K_{\operatorname {RQ} }(x,x')=(1+|d|^{2})^{-\alpha },\quad \alpha \geq 0}

Здесь d = x - x ′ {\ displaystyle d = x-x '}d=x-x'. Параметр ℓ {\ displaystyle \ ell}\ell - это характерный масштаб длины процесса (практически, «насколько близко» две точки x {\ displaystyle x}xи x ′ {\ displaystyle x '}x'должны существенно влиять друг на друга), δ {\ displaystyle \ delta}\delta - это Дельта Кронекера и σ {\ displaystyle \ sigma}\sigma стандартное отклонение шумовых флуктуаций. Кроме того, K ν {\ displaystyle K _ {\ nu}}K_{\nu }- это модифицированная функция Бесселя порядка ν {\ displaystyle \ nu}\nu и Γ (ν) {\ displaystyle \ Gamma (\ nu)}\Gamma (\nu)- это гамма-функция, оцениваемая как ν {\ displaystyle \ nu}\nu . Важно отметить, что сложная ковариационная функция может быть определена как линейная комбинация других более простых ковариационных функций для включения различных представлений о текущем наборе данных.

Очевидно, что выводимые результаты зависят от значений гиперпараметров θ {\ displaystyle \ theta}\theta (например, ℓ {\ displaystyle \ ell}\ell и σ {\ displaystyle \ sigma}\sigma ), определяющие поведение модели. Популярным выбором для θ {\ displaystyle \ theta}\theta является предоставление максимальных апостериорных (MAP) оценок его с некоторыми выбранными априорными. Если априор очень близок к однородному, это то же самое, что максимизировать предельное правдоподобие процесса; маргинализация выполняется по наблюдаемым значениям процесса y {\ displaystyle y}y. Этот подход также известен как максимальное правдоподобие II, максимизация свидетельств или эмпирический байесовский.

непрерывность

Для гауссовского процесса непрерывность вероятности эквивалентна среднему значению. -квадратная непрерывность, и непрерывность с вероятностью один эквивалентна непрерывности выборки. Последнее подразумевает, но не подразумевает непрерывность вероятности. Непрерывность вероятности сохраняется тогда и только тогда, когда среднее значение и автоковариация являются непрерывными функциями. В отличие от этого, непрерывность выборки была сложной задачей даже для стационарных гауссовских процессов (как, вероятно, первым заметил Андрей Колмогоров ), и более сложной задачей для более общих процессов. Как обычно, под типовым непрерывным процессом понимается процесс, допускающий выборочную непрерывную модификацию.

Стационарный случай

Для стационарного гауссовского процесса X = (X t) t ∈ R, {\ displaystyle X = (X_ {t}) _ {t \ in \ mathbb {R}},}{\displaystyle X=(X_{t})_{t\in \mathbb {R} },}некоторые условия на его спектр достаточны для непрерывности выборки, но не являются необходимыми. Необходимое и достаточное условие, иногда называемое теоремой Дадли-Фернике, включает функцию σ {\ displaystyle \ sigma}\sigma , определенную как

σ (h) = E (X (t + h) - Икс (т)) 2 {\ displaystyle \ sigma (h) = {\ sqrt {\ mathbb {E} {\ big (} X (t + h) -X (t) {\ big)} ^ {2} }}}{\displaystyle \sigma (h)={\sqrt {\mathbb {E} {\big (}X(t+h)-X(t){\big)}^{2}}}}

(правая часть не зависит от t {\ displaystyle t}tиз-за стационарности). Непрерывность X {\ displaystyle X}Xпо вероятности эквивалентна непрерывности σ {\ displaystyle \ sigma}\sigma при 0. {\ displaystyle 0.}{\displaystyle 0.}При сходимости σ (h) {\ displaystyle \ sigma (h)}{\displaystyle \sigma (h)}к 0 {\ displaystyle 0}{\displaystyle 0}(поскольку h → 0 {\ displaystyle h \ to 0}{\displaystyle h\to 0}) слишком медленный, непрерывность образца X {\ displaystyle X}Xможет не работать. Имеет значение сходимость следующих интегралов:

I (σ) = ∫ 0 1 σ (h) h log ⁡ (1 / h) dh = ∫ 0 ∞ 2 σ (e - x 2) dx, {\ displaystyle I ( \ sigma) = \ int _ {0} ^ {1} {\ frac {\ sigma (h)} {h {\ sqrt {\ log (1 / h)}}}} \, dh = \ int _ {0 } ^ {\ infty} 2 \ sigma (\ mathbb {e} ^ {- x ^ {2}}) \, dx,}{\displaystyle I(\sigma)=\int _{0}^{1}{\frac {\sigma (h)}{h{\sqrt {\log(1/h)}}}}\,dh=\int _{0}^{\infty }2\sigma (\mathbb {e} ^{-x^{2}})\,dx,}

эти два интеграла равны согласно интегрированию заменой час = е - x 2, {\ displaystyle h = \ mathbb {e} ^ {- x ^ {2}},}{\displaystyle h=\mathbb {e} ^{-x^{2}},}x = log ⁡ (1 / h). {\ displaystyle \ textstyle x = {\ sqrt {\ log (1 / h)}}.}{\displaystyle \textstyle x={\sqrt {\log(1/h)}}.}Первое подынтегральное выражение не обязательно должно быть ограничено как h → 0 +, {\ displaystyle h \ to 0+,}{\displaystyle h\to 0+,}, поэтому интеграл может сходиться (I (σ) < ∞ {\displaystyle I(\sigma)<\infty }{\displaystyle I(\sigma)<\infty }) или расходиться (I (σ) = ∞ {\ displaystyle I (\ sigma) = \ infty}{\displaystyle I(\sigma)=\infty }). Например, σ (e - x 2) = 1 xa {\ displaystyle \ sigma (\ mathbb {e} ^ {- x ^ {2}}) = {\ tfrac {1} {x ^ {a} }}}{\displaystyle \sigma (\mathbb {e} ^{-x^{2}})={\tfrac {1}{x^{a}}}}для большого x, {\ displaystyle x,}x,то есть σ (h) = (log ⁡ (1 / h)) - a / 2 {\ displaystyle \ sigma (h) = (\ log (1 / h)) ^ {- a / 2}}{\displaystyle \sigma (h)=(\log(1/h))^{-a/2}}для малых h, {\ displaystyle h,}h,получается I (σ) < ∞ {\displaystyle I(\sigma)<\infty }{\displaystyle I(\sigma)<\infty }, когда a>1, {\ displaystyle a>1,}a>1, и I (σ) = ∞ {\ displaystyle I (\ sigma) = \ infty}{\displaystyle I(\sigma)=\infty }когда 0 < a ≤ 1. {\displaystyle 0{\displaystyle 0<a\leq 1.}В этих двух случаях функция σ {\ displaystyle \ sigma}\sigma увеличивается на [0, ∞), { \ displaystyle [0, \ infty),}{\displaystyle [0,\infty),}, но обычно это не так. Более того, условие

(∗) {\ displaystyle (*)}(*)существует ε>0 {\ displaystyle \ varepsilon>0}\varepsilon>0 таким образом, чтобы σ {\ displaystyle \ sigma}\sigma был монотонным на [0, ε] {\ displaystyle [0, \ varepsilon]}{\displaystyle [0,\varepsilon ]}

не следует из непрерывности σ {\ displaystyle \ sigma}\sigma и очевидных отношений σ (h) ≥ 0 {\ displaystyle \ sigma (h) \ geq 0}{\displaystyle \sigma (h)\geq 0}(для всех h {\ displaystyle h}h) и σ (0) = 0. {\ displaystyle \ sigma (0) = 0.}{\displaystyle \sigma (0)=0.}

Теорема 1. Пусть σ {\ displaystyle \ sigma}\sigma непрерывно и удовлетворяет (∗). {\ displaystyle (*).}{\displaystyle (*).}Тогда условие I (σ) < ∞ {\displaystyle I(\sigma)<\infty }{\displaystyle I(\sigma)<\infty }необходимо и достаточно для непрерывности выборки X. {\ displaystyle X.}X.

Немного истории. Ксавье Ферник объявил о достаточности в 1964 году, но первое доказательство было опубликовано Ричардом М. Дадли в 1967 году. Необходимость была доказана Майклом Б. Маркусом и Лоуренсом Шеппом в 1970 году.

Существуют образцы непрерывных процессов X {\ displaystyle X}Xтакие, что I (σ) = ∞; {\ displaystyle I (\ sigma) = \ infty;}{\displaystyle I(\sigma)=\infty ;}они нарушают условие (∗). {\ displaystyle (*).}{\displaystyle (*).}Примером, найденным Маркусом и Шеппом, является случайный лакунарный ряд Фурье

X t = ∑ n = 1 ∞ cn (ξ n cos ⁡ λ nt + η N грех ⁡ λ nt), {\ displaystyle X_ {t} = \ sum _ {n = 1} ^ {\ infty} c_ {n} (\ xi _ {n} \ cos \ lambda _ {n} t + \ eta _ {n} \ sin \ lambda _ {n} t),}{\displaystyle X_{t}=\sum _{n=1}^{\infty }c_{n}(\xi _{n}\cos \lambda _{n}t+\eta _{n}\sin \lambda _{n}t),}

где ξ 1, η 1, ξ 2, η 2,… {\ displaystyle \ xi _ {1}, \ eta _ {1}, \ xi _ {2}, \ eta _ {2}, \ dots}{\displaystyle \xi _{1},\eta _{1},\xi _{2},\eta _{2},\dots }- независимые случайные величины со стандартным нормальным распределением ; частоты 0 < λ 1 < λ 2 < … {\displaystyle 0<\lambda _{1}<\lambda _{2}<\dots }{\displaystyle 0<\lambda _{1}<\lambda _{2}<\dots }- быстрорастущая последовательность; и коэффициенты cn>0 {\ displaystyle c_ {n}>0}{\displaystyle c_{n}>0} удовлетворяет ∑ ncn < ∞. {\displaystyle \textstyle \sum _{n}c_{n}<\infty.}{\displaystyle \textstyle \sum _{n}c_{n}<\infty.}Последнее соотношение подразумевает E ∑ ncn (| ξ n | + | η nc |) = E (| ξ n | + | η n |) = const ⋅ ∑ ncn < ∞, {\displaystyle \textstyle \mathbb {E} \sum _{n}c_{n}(|\xi _{n}|+|\eta _{n}|)=\sum _{n}c_{n}\mathbb {E} (|\xi _{n}|+|\eta _{n}|)={\text{const}}\cdot \sum _{n}c_{n}<\infty,}{\displaystyle \textstyle \mathbb {E} \sum _{n}c_{n}(|\xi _{n}|+|\eta _{n}|)=\sum _{n}c_{n}\mathbb {E} (|\xi _{n}|+|\eta _{n}|)={\text{const}}\cdot \sum _{n}c_{n}<\infty,}откуда ∑ ncn (| ξ n | + | η n |) < ∞ {\displaystyle \sum _{n}c_{n}(|\xi _{n}|+|\eta _{n}|)<\infty }{\displaystyle \sum _{n}c_{n}(|\xi _{n}|+|\eta _{n}|)<\infty }почти наверняка, что обеспечивает равномерную сходимость ряда Фурье почти наверняка и непрерывность выборки X. {\ displaystyle X.}X.

Автокорреляция случайного лакунарного ряда Фурье

Его функция автоковариации

EX t X t + h = ∑ n Знак равно 1 ∞ сп 2 соз ⁡ λ nh {\ displaystyle \ mathbb {E} X_ {t} X_ {t + h} = \ sum _ {n = 1} ^ {\ infty} c_ {n} ^ {2} \ cos \ lambda _ {n} h}{\displaystyle \mathbb {E} X_{t}X_{t+h}=\sum _{n=1}^{\infty }c_{n}^{2}\cos \lambda _{n}h}

нигде не является монотонным (см. рисунок), как и соответствующая функция σ, {\ displaystyle \ sigma,}\sigma,

σ (h) = 2 EX t Икс T - 2 EX t Икс T + час знак равно 2 ∑ N знак равно 1 ∞ сп 2 грех 2 ⁡ λ NH 2, {\ Displaystyle \ sigma ( h) = {\ sqrt {2 \ mathbb {E} X_ {t} X_ {t} -2 \ mathbb {E} X_ {t} X_ {t + h}}} = 2 {\ sqrt {\ sum _ { n = 1} ^ {\ infty} c_ {n} ^ {2} \ sin ^ {2} {\ frac {\ lambda _ {n} h} {2}}}}.}{\displaystyle \sigma (h)={\sqrt {2\mathbb {E} X_{t}X_{t}-2\mathbb {E} X_{t}X_{t+h}}}=2{\sqrt {\sum _{n=1}^{\infty }c_{n}^{2}\sin ^{2}{\frac {\lambda _{n}h}{2} }}}.}

Броуновское движение как интеграл гауссовских процессов

A винеровский процесс (он же броуновское движение) является интегралом обобщенного гауссовского процесса белого шума. Это не стационарный, но он имеет стационарные приращения.

Процесс Орнштейна – Уленбека - это стационарный гауссовский процесс.

Броуновский мост является (как и процесс Орнштейна – Уленбека) примером гауссовского процесса, приращения которого не независимы.

дробное броуновское движение - гауссовский процесс, ковариационная функция которого является обобщением функции винеровского процесса.

Закон нуля или единицы Дрисколла

Закон нуля или единицы Дрисколла - это результат, характеризующий выборочные функции, сгенерированные гауссовским процессом.

Пусть f {\ displaystyle f}fбудет гауссовским процессом со средним нулем {X t; t ∈ T} {\ displaystyle \ left \ {X_ {t}; t \ in T \ right \}}\left\{X_{t};t\in T\right\}с неотрицательно определенной ковариационной функцией K {\ displaystyle K}K. Пусть H (R) {\ displaystyle {\ mathcal {H}} (R)}{\displaystyle {\mathcal {H}}(R)}будет гильбертовым пространством с воспроизводящим ядром с положительно определенным ядром R {\ displaystyle R}R.

Тогда

lim n → ∞ tr ⁡ [K n R n - 1] < ∞ {\displaystyle \lim _{n\to \infty }\operatorname {tr} [K_{n}R_{n}^{-1}]<\infty }{\displaystyle \lim _{n\to \infty }\operatorname {tr} [K_{n}R_{n}^{-1}]<\infty },

где K n {\ displaystyle K_ {n}}K_{n}и R n {\ displaystyle R_ {n}}R_{n}- ковариационные матрицы всех возможных пар точек n {\ displaystyle n}n, подразумевает

Pr [f ∈ H (R)] = 1 {\ Displaystyle \ Pr [е \ in {\ mathcal {H}} (R)] = 1}{\displaystyle \Pr[f\in {\mathcal {H}}(R)]=1}.

Более того,

lim n → ∞ tr ⁡ [K n R n - 1] = ∞ {\ displaystyle \ lim _ {n \ to \ infty} \ operatorname {tr} [K_ {n} R_ {n} ^ {- 1}] = \ infty}{\displaystyle \lim _{n\to \infty }\operatorname {tr} [K_{n}R_{n}^{-1}]=\infty }

подразумевает

Pr [f ∈ H (R)] = 0 {\ displaystyle \ Pr [f \ in {\ mathcal {H}} (R)] = 0}{\displaystyle \Pr[f\in {\mathcal {H}}(R)]=0}.

Это имеет важные последствия, когда K = R {\ displaystyle K = R}{\displaystyle K=R}, поскольку

lim n → ∞ tr ⁡ [R n R n - 1] = lim n → ∞ tr ⁡ [I] = lim n → ∞ n = ∞ {\ displaystyle \ lim _ {n \ to \ infty} \ operatorname {tr} [R_ {n} R_ {n} ^ {- 1}] = \ lim _ {n \ to \ infty} \ operatorname {tr} [I] = \ lim _ {п \ to \ infty} n = \ infty}{\displaystyle \lim _{n\to \infty }\operatorname {tr} [R_{n}R_{n}^{-1}]=\lim _{n\to \infty }\operatorname {tr} [I]=\lim _{n\to \infty }n=\infty }.

Таким образом, почти все выборочные пути гауссовского процесса с нулевым средним и положительно определенным ядром K {\ displaystyle K}Kбудут лежать вне гильбертово пространство H (K) {\ displaystyle {\ mathcal {H}} (K)}{\displaystyle {\mathcal {H}}(K)}.

Гауссовские процессы с линейными ограничениями

Для многих приложений, представляющих интерес, некоторые уже существующие знания о системе под рукой уже дан. Рассмотрим, например, случай, когда выход гауссова процесса соответствует магнитному полю; здесь реальное магнитное поле ограничено уравнениями Максвелла, и было бы желательно включить это ограничение в формализм гауссовского процесса, поскольку это, вероятно, улучшило бы точность алгоритма.

Метод включения линейных ограничений в гауссовские процессы уже существует:

Рассмотрим функцию вывода (с векторным значением) f (x) {\ displaystyle f (x)}f(x), который, как известно, подчиняется линейному ограничению (например, FX {\ displaystyle {\ mathcal {F}} _ {X}}{\mathcal {F}}_{X}- линейный оператор)

FX ( f (x)) = 0. {\ displaystyle {\ mathcal {F}} _ {X} (f (x)) = 0.}{\displaystyle {\mathcal {F}}_{X}(f(x))=0.}

Тогда ограничение FX {\ displaystyle {\ mathcal {F }} _ {X}}{\mathcal {F}}_{X}можно выполнить, выбрав f (x) = GX (g (x)) {\ displaystyle f (x) = {\ mathcal {G}} _ { X} (g (x))}{\displaystyle f(x)={\mathcal {G}}_{ X}(g(x))}, где g (x) ∼ GP (μ g, K g) {\ displaystyle g (x) \ sim {\ mathcal {GP}} ( \ mu _ {g}, K_ {g})}{\displaystyle g(x)\sim {\mathcal {GP}}(\mu _{g},K_{g})}моделируется как гауссовский процесс, и нахождение GX {\ displaystyle {\ mathcal {G}} _ {X}}{\displaystyle {\mathcal {G}}_{X}}ул.

F X (G X (g)) = 0 ∀ g. {\ displaystyle {\ mathcal {F}} _ {X} ({\ mathcal {G}} _ {X} (g)) = 0 \ qquad \ forall g.}{\displaystyle {\mathcal {F}}_{X}({\mathcal {G}}_{X}(g))=0\qquad \forall g.}

Учитывая GX {\ displaystyle {\ mathcal {G}} _ {X}}{\displaystyle {\mathcal {G}}_{X}}и, используя тот факт, что гауссовские процессы замкнуты относительно линейных преобразований, гауссовский процесс для f {\ displaystyle f}fподчинение ограничению FX {\ displaystyle {\ mathcal {F}} _ {X}}{\mathcal {F}}_{X}становится

f (x) = GX g ∼ GP (GX μ g, GXK g GX ′ T). {\ displaystyle f (x) = {\ mathcal {G}} _ {X} g \ sim {\ mathcal {GP}} ({\ mathcal {G}} _ {X} \ mu _ {g}, {\ mathcal {G}} _ {X} K_ {g} {\ mathcal {G}} _ {X '} ^ {T}).}{\displaystyle f(x)={\mathcal {G}}_{X}g\sim {\mathcal {GP}}({\mathcal {G}}_{X}\mu _{g},{\mathcal {G}}_{X}K_{g}{\mathcal {G}}_{X'}^{T}).}

Следовательно, линейные ограничения могут быть закодированы в среднее значение и функцию ковариации Гауссовский процесс.

Приложения

Пример регрессии (прогнозирования) гауссовского процесса по сравнению с другими моделями регрессии.

Гауссовский процесс может использоваться как априорное распределение вероятностей по функциям в Байесовском выводе. Учитывая любой набор из N точек в желаемой области ваших функций, возьмите многомерный гауссовский, параметр ковариации matrix которого является матрицей Грама из ваших N точек с некоторыми желаемое ядро ​​ и образец из этого гауссовского. Для решения задачи прогнозирования с несколькими выходами была разработана регрессия гауссовского процесса для векторнозначной функции. В этом методе строится «большая» ковариация, которая описывает корреляции между всеми входными и выходными переменными, взятыми в N точках в желаемой области. Этот подход был подробно разработан для матричнозначных гауссовских процессов и обобщен для процессов с «более тяжелыми хвостами», таких как процессы Стьюдента.

Вывод непрерывных значений с помощью предшествующего гауссовского процесса известен как регрессия гауссовского процесса, или кригинг ; Расширение регрессии гауссовского процесса на несколько целевых переменных известно как кокригинг. Таким образом, гауссовские процессы полезны как мощный инструмент нелинейной многомерной интерполяции. Гауссовская регрессия процесса может быть дополнительно расширена для решения задач обучения как в контролируемой (например, вероятностной классификации), так и неконтролируемой (например, множественном обучении ) структурах обучения.

Гауссовские процессы также могут использоваться, например, в контексте смешения моделей экспертов. Основное обоснование такой структуры обучения состоит в предположении, что данное отображение не может быть хорошо охвачено единственной гауссовой моделью процесса. Вместо этого пространство наблюдения разделено на подмножества, каждое из которых характеризуется своей функцией отображения; каждый из них изучается через разные компоненты гауссовского процесса в постулируемой смеси.

Прогнозирование гауссовского процесса или кригинга

Гауссовская регрессия процесса (прогноз) с квадратом экспоненциального ядра. Левый график взят из предыдущего распределения функций. Середина - это рисунки сзади. Справа - среднее предсказание с затененным одним стандартным отклонением.

Что касается общей задачи регрессии гауссовского процесса (кригинга), предполагается, что для гауссовского процесса f {\ displaystyle f}fнаблюдается в координатах x {\ displaystyle x}xвектор значений f (x) {\ displaystyle f (x)}f(x)- это всего лишь одна выборка из многомерного Гауссово распределение размерности, равное количеству наблюдаемых координат n {\ displaystyle n}n. Следовательно, в предположении распределения с нулевым средним f (x) ∼ N (0, K (θ, x, x ')) {\ displaystyle f (x) \ sim N (0, K (\ theta, x, x '))}{\displaystyle f(x)\sim N(0,K(\theta,x,x'))}, где K (θ, x, x ′) {\ displaystyle K (\ theta, x, x')}{\displaystyle K(\theta,x,x')}- ковариационная матрица между всеми возможными парами (x, x ') {\ displaystyle (x, x')}{\displaystyle (x,x')}для данного набора гиперпараметров θ. Таким образом, логарифмическое маргинальное правдоподобие составляет:

log ⁡ p (f (x) ∣ θ, x) = - 1 2 f (x) TK (θ, x, x ′) - 1 f (x ′) - 1 2 журнал ⁡ det (К (θ, x, x ')) - N 2 журнал ⁡ 2 π {\ displaystyle \ log p (f (x) \ mid \ theta, x) = - {\ frac {1} {2 }} f (x) ^ {T} K (\ theta, x, x ') ^ {- 1} f (x') - {\ frac {1} {2}} \ log \ det (K (\ theta, x, x ')) - {\ frac {n} {2}} \ log 2 \ pi}{\displaystyle \log p(f(x)\mid \theta,x)=-{\frac {1}{2}}f(x)^{T}K(\theta,x,x')^{-1}f(x')-{\frac {1}{2}}\log \det(K(\theta,x,x'))-{\frac {n}{2}}\log 2\pi }

и максимизация этого предельного правдоподобия к θ обеспечивает полную спецификацию гауссовского процесса f. Здесь можно вкратце отметить, что первый член соответствует штрафному члену за неспособность модели соответствовать наблюдаемым значениям, а второй член - штрафному члену, который увеличивается пропорционально сложности модели. После задания θ для прогнозирования ненаблюдаемых значений f (x ∗) {\ displaystyle f (x ^ {*})}f(x^{*})в координатах x * остается только взять образцы из прогнозируемого распределения. п (y ∗ ∣ x ∗, f (x), x) знак равно N (y ∗ ∣ A, B) {\ displaystyle p (y ^ {*} \ mid x ^ {*}, f (x), x) = N (y ^ {*} \ mid A, B)}{\displaystyle p(y^{*}\mid x^{*},f(x),x)=N(y^{*}\mid A,B)}где апостериорная средняя оценка A определяется как

A = K (θ, x ∗, x) K (θ, Икс, Икс ') - 1 е (Икс) {\ Displaystyle A = K (\ theta, x ^ {*}, x) K (\ theta, x, x') ^ {- 1} f (x)}A=K(\theta,x^{*},x)K(\theta,x,x')^{-1}f(x)

, а апостериорная оценка дисперсии B определяется как:

B = K (θ, x ∗, x ∗) - K (θ, x ∗, x) K (θ, x, x ′) - 1 K (θ, x *, x) T {\ displaystyle B = K (\ theta, x ^ {*}, x ^ {*}) - K (\ theta, x ^ {*}, x) K (\ theta, x, x ') ^ {- 1} K (\ theta, x ^ {*}, x) ^ {T}}B=K(\theta,x^{*},x^{*})-K(\theta,x^{*},x)K(\theta,x,x')^{-1}K(\theta,x^{*},x)^{T}

где K (θ, x ∗, x) {\ displaystyle K (\ theta, x ^ {*}, x)}{\displaystyle K(\theta,x^{*},x)}- ковариация между новой координатой оценки x * и всеми другими наблюдаемыми координатами x для данного вектора гиперпараметров θ, K (θ, x, х ') {\ Displaystyle K (\ theta, x, x ')}{\displaystyle K(\theta,x,x')}и f (x) {\ displaystyle f (x)}f(x)определены, как и раньше, а K (θ, x ∗, x ∗) {\ displaystyle K (\ theta, x ^ {*}, x ^ {*})}{\displaystyle K(\theta,x^{*},x^{*})}- дисперсия в точке x *, определяемая θ. Важно отметить, что практически апостериорная средняя оценка f (x ∗) {\ displaystyle f (x ^ {*})}f(x^{*})(«точечная оценка») представляет собой просто линейную комбинацию наблюдения f (x) {\ displaystyle f (x)}f(x); аналогичным образом дисперсия f (x ∗) {\ displaystyle f (x ^ {*})}f(x^{*})фактически не зависит от наблюдений f (x) {\ displaystyle f (x)}f(x). Известным узким местом в прогнозировании гауссовского процесса является то, что вычислительная сложность вывода и оценки правдоподобия является кубической по количеству точек | x |, и как таковая может стать невозможной для больших наборов данных. Работает над разреженными гауссовскими процессами, которые обычно основаны на идее построения репрезентативного набора для данного процесса f, пытается обойти эту проблему.

Байесовские нейронные сети как гауссовские процессы

Байесовские нейронные сети сети - это особый тип байесовской сети, который является результатом вероятностной обработки моделей глубокого обучения и искусственной нейронной сети и назначения априорного распределения к их параметрам . Вычисления в искусственных нейронных сетях обычно организованы в последовательные слои искусственных нейронов. Количество нейронов в слое называется шириной слоя. По мере увеличения ширины слоя многие байесовские нейронные сети сводятся к гауссовскому процессу с закрытой формой композиционным ядром. Этот гауссовский процесс называется гауссовским процессом нейронной сети (NNGP). Он позволяет более эффективно оценивать прогнозы байесовских нейронных сетей и предоставляет аналитический инструмент для понимания моделей глубокого обучения.

Вычислительные проблемы

В практических приложениях гауссовские модели процессов часто оцениваются на сетке, что приводит к многомерному нормальному распределению. Использование этих моделей для прогнозирования или оценки параметров с использованием максимального правдоподобия требует оценки многомерной гауссовой плотности, которая включает в себя вычисление детерминанта и обратной матрицы ковариационной матрицы. Обе эти операции имеют кубическую вычислительную сложность, а это означает, что даже для сеток небольшого размера обе операции могут иметь непомерно высокие вычислительные затраты. Этот недостаток привел к разработке множества методов аппроксимации..

См. Также

References

External links

Software

Video tutorials

Последняя правка сделана 2021-05-21 13:13:05
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте