Универсальная аппроксимационная теорема

редактировать
Нейронная сеть с прямой связью с 1 скрытым слоем может аппроксимировать непрерывные функции

В математическая теория искусственных нейронных сетей, теоремы универсального приближения - это результаты, которые устанавливают плотность алгоритмически сгенерированного класса функций в заданном функциональном пространстве интерес. Как правило, эти результаты относятся к возможностям аппроксимации архитектуры с прямой связью в пространстве непрерывных функций между двумя евклидовыми пространствами, а аппроксимация относится к компактной сходимости топология. Однако есть также множество результатов между неевклидовыми пространствами и другими обычно используемыми архитектурами и, в более общем смысле, алгоритмически сгенерированными наборами функций, такими как архитектура сверточной нейронной сети (CNN), радиальный базис- функции или нейронные сети с определенными свойствами. Большинство универсальных аппроксимационных теорем можно разделить на два класса. Первый количественно оценивает аппроксимирующие возможности нейронных сетей с произвольным количеством искусственных нейронов (случай «произвольной ширины»), а второй фокусируется на случае с произвольным количеством скрытых слоев, каждый из которых содержит ограниченное количество искусственных нейронов («произвольная глубина» " кейс).

Универсальные аппроксимационные теоремы подразумевают, что нейронные сети могут представлять широкий спектр интересных функций, если им заданы соответствующие веса. С другой стороны, они обычно не обеспечивают конструкцию грузов, а просто заявляют, что такая конструкция возможна.

Содержание
  • 1 История
  • 2 Случай произвольной ширины
  • 3 Случай произвольной глубины
  • 4 См. Также
  • 5 Ссылки
История

Одна из первых версий случай произвольной ширины был доказан Джорджем Цибенко в 1989 году для сигмоидальных функций активации. Курт Хорник показал в 1991 году, что это не конкретный выбор функции активации, а сама многослойная архитектура с прямой связью, которая дает нейронным сетям возможность быть универсальными аппроксиматорами. Моше Лешно и др. В 1993 г., а затем Аллан Пинкус в 1999 г. показали, что свойство универсального приближения, как оно определено в, эквивалентно наличию неполиномиальной функции активации.

Случай произвольной глубины также изучался рядом авторов, такими как Чжоу Лу и др. В 2017 г., Борис Ханин и Марк Селлке в 2018 г., Патрик Кидгер и Терри Лайонс в 2020 г.

Существует несколько расширений теоремы, например, до функций прерывистой активации, некомпактных доменов, сертифицированных сетей и альтернативных сетевых архитектур и топологий.

Случай произвольной ширины

Классическая форма универсальной аппроксимационной теоремы для произвольной ширины и ограниченной глубины выглядит следующим образом. Он расширяет классические результаты Георгия Цибенко и.

Исправьте непрерывную функцию σ: R → R {\ displaystyle \ sigma: \ mathbb {R} \ rightarrow \ mathbb {R}}{\ displaystyle \ sigma: \ mathbb {R} \ rightarrow \ mathbb {R}} (функция активации) и положительные целые числа d, D {\ displaystyle d, D}{\ displaystyle d, D} . Функция σ {\ displaystyle \ sigma}\ sigma не является полиномом тогда и только тогда, когда для каждой непрерывной функции f: R d → RD {\ displaystyle f : \ mathbb {R} ^ {d} \ to \ mathbb {R} ^ {D}}{\ displaystyle f: \ mathbb {R} ^ {d} \ to \ mathbb {R} ^ {D}} (целевая функция), каждое компактное подмножество K {\ displaystyle K }K из R d {\ displaystyle \ mathbb {R} ^ {d}}\ mathbb {R} ^ {d} и каждые ϵ>0 {\ displaystyle \ epsilon>0}\epsilon>0 существует непрерывная функция f ϵ: R d → RD {\ displaystyle f _ {\ epsilon}: \ mathbb {R} ^ {d} \ to \ mathbb {R} ^ {D}}{\ displaystyle f _ {\ epsilon} : \ mathbb {R} ^ {d} \ to \ mathbb {R} ^ {D}} ( слой вывода) с представлением

f ϵ = W 2 ∘ σ ∙ W 1, {\ displaystyle f _ {\ epsilon} = W_ {2} \ circ \ sigma \ bullet W_ {1},}{\ displaystyle f _ {\ epsilon} = W_ {2} \ circ \ sigma \ bullet W_ {1},}

где W 2, W 1 {\ displaystyle W_ {2}, W_ {1}}{\ displaystyle W_ {2}, W_ {1}} составные аффинные карты и ∙ {\ displaystyle \ bullet}\ bullet обозначает покомпонентную композицию, так что приложение граница приближения

sup x ∈ K ‖ f (x) - f ϵ (x) ‖ < ε {\displaystyle \sup _{x\in K}\,\|f(x)-f_{\epsilon }(x)\|<\varepsilon }{\ displaystyle \ sup _ {x \ in K} \, \ | е (х) -f _ {\ epsilon} (х) \ | <\ varepsilon}

выполняется для любого ϵ {\ displaystyle \ epsilon}\ epsilon сколь угодно малого (расстояние от f {\ displaystyle f}f to f ϵ {\ displaystyle f _ {\ epsilon}}f _ {\ epsilon} может быть бесконечно маленьким).

Теорема утверждает, что результат первого слоя f ϵ {\ displaystyle f _ {\ epsilon}}f _ {\ epsilon} может аппроксимировать любую хорошо управляемую функцию f {\ displaystyle f}f . Такую функцию с хорошим поведением можно также аппроксимировать сетью большей глубины, используя ту же конструкцию для первого слоя и аппроксимируя функцию идентичности с более поздними уровнями.

Случай произвольной глубины

«Двойственные» версии теоремы рассматривают сети ограниченной ширины и произвольной глубины. Вариант универсальной аппроксимационной теоремы для случая произвольной глубины был доказан Чжоу Лу и др. в 2017 г. Они показали, что сети шириной n + 4 с функциями активации ReLU могут аппроксимировать любую интегрируемую функцию Лебега в n-мерном входном пространстве относительно L 1 {\ displaystyle L ^ {1}}L^{1}distance, если разрешено увеличение глубины сети. Также было показано, что существует ограниченная выразительная сила, если ширина меньше или равна n. Все интегрируемые функции Лебега, за исключением набора с нулевой мерой, не могут быть аппроксимированы сетями ReLU ширины n. В той же статье было показано, что сети ReLU шириной n + 1 достаточно для аппроксимации любой непрерывной функции n-мерных входных переменных:

Универсальная аппроксимационная теорема (Расстояние L1, активация ReLU, произвольная глубина). Для любой интегрируемой по Лебегу функции f: R n → R {\ displaystyle f: \ mathbb {R} ^ {n} \ rightarrow \ mathbb {R}}{\ displaystyle f: \ mathbb {R} ^ {n} \ rightarrow \ mathbb {R}} и любой ϵ>0 {\ displaystyle \ epsilon>0}\epsilon>0 , существует полностью подключенная сеть ReLU A {\ displaystyle {\ mathcal {A}}}{ \ displaystyle {\ mathcal {A}}} с шириной dm ≤ n + 4 {\ displaystyle d_ {m} \ leq {n + 4}}{\ displaystyle d_ {m} \ leq {п + 4}} , так что функция FA {\ displaystyle F_ { \ mathcal {A}}}{\ displaystyle F _ {\ mathcal {A}}} , представленный этой сетью, удовлетворяет

∫ R n | f (x) - FA (x) | dx < ϵ {\displaystyle \int _{\mathbb {R} ^{n}}\left|f(x)-F_{\mathcal {A}}(x)\right|\mathrm {d} x<\epsilon }{\ displaystyle \ int _ {\ mathbb {R} ^ {n}} \ left | f (x) -F _ {\ mathcal {A}} (x) \ right | \ mathrm {d} x <\ epsilon}

Другой вариант был предложен Патриком Кидгером и Терри Лайонсом в 2020:

Универсальная аппроксимационная теорема (неаффинная активация, произвольная глубина). Пусть φ: R → R {\ displaystyle \ varphi: \ mathbb {R} \ to \ mathbb {R}}{ \ displaystyle \ varphi: \ mathbb {R} \ to \ mathbb {R}} быть любой неаффинной непрерывной функцией, которая непрерывно дифференцируема хотя бы в одной точке, с nonze производная ro в этой точке. Пусть K ⊆ R n {\ displaystyle K \ substeq \ mathbb {R} ^ {n}}{\ displaystyle K \ substeq \ mathbb {R} ^ {n}} будет компактным. Пространство вещественных векторнозначных непрерывных функций на K {\ displaystyle K}K обозначается C (K; R m) {\ displaystyle C (K; \ mathbb {R}) ^ {m})}{\ displaystyle С (К; \ mathbb {R} ^ {m})} . Пусть N {\ displaystyle {\ mathcal {N}}}{\ mathcal {N}} обозначает пространство нейронных сетей прямого распространения с входными нейронами n {\ displaystyle n}n , m {\ displaystyle m}m выходных нейронов и произвольное количество скрытых слоев, каждый с n + m + 2 {\ displaystyle n + m + 2}{\ displaystyle n + m + 2} нейронами, так что каждый скрытый нейрон имеет функцию активации φ {\ displaystyle \ varphi}\ varphi , а каждый выходной нейрон имеет идентификатор в качестве своей функции активации. Затем для любого ε>0 {\ displaystyle \ varepsilon>0}\varepsilon>0 и любой f ∈ C (K; R m) {\ displaystyle f \ in C (K; \ mathbb {R} ^ {m})}{\ displaystyle f \ in C (K; \ mathbb {R} ^ {m})} , существует F ∈ N {\ displaystyle F \ in {\ mathcal {N}}}{\ displaystyle F \ in {\ mathcal {N}}} такое, что

| F (x) - f (x) | < ε {\displaystyle |F(x)-f(x)|<\varepsilon }| F (x) - f (x) | <\ varepsilon

для всех x ∈ K {\ displaystyle x \ in K}{\ displaystyle x \ in K} .

Другими словами, N {\ displaystyle {\ mathcal {N}}}{\ mathcal {N}} равно плотный в C (K; R m) {\ displaystyle C (K; \ mathbb {R} ^ {m})}{\ displaystyle С (К; \ mathbb {R} ^ {m})} относительно равномерной нормы.

Определенные необходимые условия для случая ограниченной ширины и произвольной глубины были установлены, но все еще существует разрыв между известными достаточными и необходимыми условиями.

См. Также
Ссылки
Последняя правка сделана 2021-06-20 13:31:06
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте