Универсальная аппроксимационная теорема

редактировать

Нейронная сеть с прямой связью с 1 скрытым слоем может аппроксимировать непрерывные функции

В математическая теория искусственных нейронных сетей, теоремы универсального приближения - это результаты, которые устанавливают плотность алгоритмически сгенерированного класса функций в заданном функциональном пространстве интерес. Как правило, эти результаты относятся к возможностям аппроксимации архитектуры с прямой связью в пространстве непрерывных функций между двумя евклидовыми пространствами, а аппроксимация относится к компактной сходимости топология. Однако есть также множество результатов между неевклидовыми пространствами и другими обычно используемыми архитектурами и, в более общем смысле, алгоритмически сгенерированными наборами функций, такими как архитектура сверточной нейронной сети (CNN), радиальный базис- функции или нейронные сети с определенными свойствами. Большинство универсальных аппроксимационных теорем можно разделить на два класса. Первый количественно оценивает аппроксимирующие возможности нейронных сетей с произвольным количеством искусственных нейронов (случай «произвольной ширины»), а второй фокусируется на случае с произвольным количеством скрытых слоев, каждый из которых содержит ограниченное количество искусственных нейронов («произвольная глубина» " кейс).

Универсальные аппроксимационные теоремы подразумевают, что нейронные сети могут представлять широкий спектр интересных функций, если им заданы соответствующие веса. С другой стороны, они обычно не обеспечивают конструкцию грузов, а просто заявляют, что такая конструкция возможна.

Содержание

1 История
2 Случай произвольной ширины
3 Случай произвольной глубины
4 См. Также
5 Ссылки

История

Одна из первых версий случай произвольной ширины был доказан Джорджем Цибенко в 1989 году для сигмоидальных функций активации. Курт Хорник показал в 1991 году, что это не конкретный выбор функции активации, а сама многослойная архитектура с прямой связью, которая дает нейронным сетям возможность быть универсальными аппроксиматорами. Моше Лешно и др. В 1993 г., а затем Аллан Пинкус в 1999 г. показали, что свойство универсального приближения, как оно определено в, эквивалентно наличию неполиномиальной функции активации.

Случай произвольной глубины также изучался рядом авторов, такими как Чжоу Лу и др. В 2017 г., Борис Ханин и Марк Селлке в 2018 г., Патрик Кидгер и Терри Лайонс в 2020 г.

Существует несколько расширений теоремы, например, до функций прерывистой активации, некомпактных доменов, сертифицированных сетей и альтернативных сетевых архитектур и топологий.

Случай произвольной ширины

Классическая форма универсальной аппроксимационной теоремы для произвольной ширины и ограниченной глубины выглядит следующим образом. Он расширяет классические результаты Георгия Цибенко и.

Исправьте непрерывную функцию $σ: R → R {\ displaystyle \ sigma: \ mathbb {R} \ rightarrow \ mathbb {R}}$ ${\ displaystyle \ sigma: \ mathbb {R} \ rightarrow \ mathbb {R}}$ (функция активации) и положительные целые числа $d, D {\ displaystyle d, D}$ ${\ displaystyle d, D}$ . Функция $σ {\ displaystyle \ sigma}$ $\ sigma$ не является полиномом тогда и только тогда, когда для каждой непрерывной функции $f: R d → RD {\ displaystyle f : \ mathbb {R} ^ {d} \ to \ mathbb {R} ^ {D}}$ ${\ displaystyle f: \ mathbb {R} ^ {d} \ to \ mathbb {R} ^ {D}}$ (целевая функция), каждое компактное подмножество $K {\ displaystyle K }$ $K$ из $R d {\ displaystyle \ mathbb {R} ^ {d}}$ $\ mathbb {R} ^ {d}$ и каждые $ϵ>0 {\ displaystyle \ epsilon>0}$ $\epsilon>0$ существует непрерывная функция $f ϵ: R d → RD {\ displaystyle f _ {\ epsilon}: \ mathbb {R} ^ {d} \ to \ mathbb {R} ^ {D}}$ ${\ displaystyle f _ {\ epsilon} : \ mathbb {R} ^ {d} \ to \ mathbb {R} ^ {D}}$ ( слой вывода) с представлением

f ϵ = W 2 ∘ σ ∙ W 1, {\ displaystyle f _ {\ epsilon} = W_ {2} \ circ \ sigma \ bullet W_ {1},}

{\ displaystyle f _ {\ epsilon} = W_ {2} \ circ \ sigma \ bullet W_ {1},}

где $W 2, W 1 {\ displaystyle W_ {2}, W_ {1}}$ ${\ displaystyle W_ {2}, W_ {1}}$ составные аффинные карты и $∙ {\ displaystyle \ bullet}$ $\ bullet$ обозначает покомпонентную композицию, так что приложение граница приближения

sup x ∈ K ‖ f (x) - f ϵ (x) ‖ < ε {\displaystyle \sup _{x\in K}\,\|f(x)-f_{\epsilon }(x)\|<\varepsilon }

{\ displaystyle \ sup _ {x \ in K} \, \ | е (х) -f _ {\ epsilon} (х) \ | <\ varepsilon}

выполняется для любого $ϵ {\ displaystyle \ epsilon}$ $\ epsilon$ сколь угодно малого (расстояние от $f {\ displaystyle f}$ $f$ to $f ϵ {\ displaystyle f _ {\ epsilon}}$ $f _ {\ epsilon}$ может быть бесконечно маленьким).

Теорема утверждает, что результат первого слоя $f ϵ {\ displaystyle f _ {\ epsilon}}$ $f _ {\ epsilon}$ может аппроксимировать любую хорошо управляемую функцию $f {\ displaystyle f}$ $f$ . Такую функцию с хорошим поведением можно также аппроксимировать сетью большей глубины, используя ту же конструкцию для первого слоя и аппроксимируя функцию идентичности с более поздними уровнями.

Случай произвольной глубины

«Двойственные» версии теоремы рассматривают сети ограниченной ширины и произвольной глубины. Вариант универсальной аппроксимационной теоремы для случая произвольной глубины был доказан Чжоу Лу и др. в 2017 г. Они показали, что сети шириной n + 4 с функциями активации ReLU могут аппроксимировать любую интегрируемую функцию Лебега в n-мерном входном пространстве относительно $L 1 {\ displaystyle L ^ {1}}$ $L^{1}$ distance, если разрешено увеличение глубины сети. Также было показано, что существует ограниченная выразительная сила, если ширина меньше или равна n. Все интегрируемые функции Лебега, за исключением набора с нулевой мерой, не могут быть аппроксимированы сетями ReLU ширины n. В той же статье было показано, что сети ReLU шириной n + 1 достаточно для аппроксимации любой непрерывной функции n-мерных входных переменных:

Универсальная аппроксимационная теорема (Расстояние L1, активация ReLU, произвольная глубина). Для любой интегрируемой по Лебегу функции $f: R n → R {\ displaystyle f: \ mathbb {R} ^ {n} \ rightarrow \ mathbb {R}}$ ${\ displaystyle f: \ mathbb {R} ^ {n} \ rightarrow \ mathbb {R}}$ и любой $ϵ>0 {\ displaystyle \ epsilon>0}$ $\epsilon>0$ , существует полностью подключенная сеть ReLU $A {\ displaystyle {\ mathcal {A}}}$ ${ \ displaystyle {\ mathcal {A}}}$ с шириной $dm ≤ n + 4 {\ displaystyle d_ {m} \ leq {n + 4}}$ ${\ displaystyle d_ {m} \ leq {п + 4}}$ , так что функция $FA {\ displaystyle F_ { \ mathcal {A}}}$ ${\ displaystyle F _ {\ mathcal {A}}}$ , представленный этой сетью, удовлетворяет

∫ R n | f (x) - FA (x) | dx < ϵ {\displaystyle \int _{\mathbb {R} ^{n}}\left|f(x)-F_{\mathcal {A}}(x)\right|\mathrm {d} x<\epsilon }

{\ displaystyle \ int _ {\ mathbb {R} ^ {n}} \ left | f (x) -F _ {\ mathcal {A}} (x) \ right | \ mathrm {d} x <\ epsilon}

Другой вариант был предложен Патриком Кидгером и Терри Лайонсом в 2020:

Универсальная аппроксимационная теорема (неаффинная активация, произвольная глубина). Пусть $φ: R → R {\ displaystyle \ varphi: \ mathbb {R} \ to \ mathbb {R}}$ ${ \ displaystyle \ varphi: \ mathbb {R} \ to \ mathbb {R}}$ быть любой неаффинной непрерывной функцией, которая непрерывно дифференцируема хотя бы в одной точке, с nonze производная ro в этой точке. Пусть $K ⊆ R n {\ displaystyle K \ substeq \ mathbb {R} ^ {n}}$ ${\ displaystyle K \ substeq \ mathbb {R} ^ {n}}$ будет компактным. Пространство вещественных векторнозначных непрерывных функций на $K {\ displaystyle K}$ $K$ обозначается $C (K; R m) {\ displaystyle C (K; \ mathbb {R}) ^ {m})}$ ${\ displaystyle С (К; \ mathbb {R} ^ {m})}$ . Пусть $N {\ displaystyle {\ mathcal {N}}}$ ${\ mathcal {N}}$ обозначает пространство нейронных сетей прямого распространения с входными нейронами $n {\ displaystyle n}$ $n$ , $m {\ displaystyle m}$ $m$ выходных нейронов и произвольное количество скрытых слоев, каждый с $n + m + 2 {\ displaystyle n + m + 2}$ ${\ displaystyle n + m + 2}$ нейронами, так что каждый скрытый нейрон имеет функцию активации $φ {\ displaystyle \ varphi}$ $\ varphi$ , а каждый выходной нейрон имеет идентификатор в качестве своей функции активации. Затем для любого $ε>0 {\ displaystyle \ varepsilon>0}$ $\varepsilon>0$ и любой $f ∈ C (K; R m) {\ displaystyle f \ in C (K; \ mathbb {R} ^ {m})}$ ${\ displaystyle f \ in C (K; \ mathbb {R} ^ {m})}$ , существует $F ∈ N {\ displaystyle F \ in {\ mathcal {N}}}$ ${\ displaystyle F \ in {\ mathcal {N}}}$ такое, что

| F (x) - f (x) | < ε {\displaystyle |F(x)-f(x)|<\varepsilon }

| F (x) - f (x) | <\ varepsilon

для всех $x ∈ K {\ displaystyle x \ in K}$ ${\ displaystyle x \ in K}$ .

Другими словами, $N {\ displaystyle {\ mathcal {N}}}$ ${\ mathcal {N}}$ равно плотный в $C (K; R m) {\ displaystyle C (K; \ mathbb {R} ^ {m})}$ ${\ displaystyle С (К; \ mathbb {R} ^ {m})}$ относительно равномерной нормы.

Определенные необходимые условия для случая ограниченной ширины и произвольной глубины были установлены, но все еще существует разрыв между известными достаточными и необходимыми условиями.

См. Также

Ссылки