В математическая теория искусственных нейронных сетей, теоремы универсального приближения - это результаты, которые устанавливают плотность алгоритмически сгенерированного класса функций в заданном функциональном пространстве интерес. Как правило, эти результаты относятся к возможностям аппроксимации архитектуры с прямой связью в пространстве непрерывных функций между двумя евклидовыми пространствами, а аппроксимация относится к компактной сходимости топология. Однако есть также множество результатов между неевклидовыми пространствами и другими обычно используемыми архитектурами и, в более общем смысле, алгоритмически сгенерированными наборами функций, такими как архитектура сверточной нейронной сети (CNN), радиальный базис- функции или нейронные сети с определенными свойствами. Большинство универсальных аппроксимационных теорем можно разделить на два класса. Первый количественно оценивает аппроксимирующие возможности нейронных сетей с произвольным количеством искусственных нейронов (случай «произвольной ширины»), а второй фокусируется на случае с произвольным количеством скрытых слоев, каждый из которых содержит ограниченное количество искусственных нейронов («произвольная глубина» " кейс).
Универсальные аппроксимационные теоремы подразумевают, что нейронные сети могут представлять широкий спектр интересных функций, если им заданы соответствующие веса. С другой стороны, они обычно не обеспечивают конструкцию грузов, а просто заявляют, что такая конструкция возможна.
Одна из первых версий случай произвольной ширины был доказан Джорджем Цибенко в 1989 году для сигмоидальных функций активации. Курт Хорник показал в 1991 году, что это не конкретный выбор функции активации, а сама многослойная архитектура с прямой связью, которая дает нейронным сетям возможность быть универсальными аппроксиматорами. Моше Лешно и др. В 1993 г., а затем Аллан Пинкус в 1999 г. показали, что свойство универсального приближения, как оно определено в, эквивалентно наличию неполиномиальной функции активации.
Случай произвольной глубины также изучался рядом авторов, такими как Чжоу Лу и др. В 2017 г., Борис Ханин и Марк Селлке в 2018 г., Патрик Кидгер и Терри Лайонс в 2020 г.
Существует несколько расширений теоремы, например, до функций прерывистой активации, некомпактных доменов, сертифицированных сетей и альтернативных сетевых архитектур и топологий.
Классическая форма универсальной аппроксимационной теоремы для произвольной ширины и ограниченной глубины выглядит следующим образом. Он расширяет классические результаты Георгия Цибенко и.
Исправьте непрерывную функцию (функция активации) и положительные целые числа . Функция не является полиномом тогда и только тогда, когда для каждой непрерывной функции (целевая функция), каждое компактное подмножество из и каждые существует непрерывная функция ( слой вывода) с представлением
где составные аффинные карты и обозначает покомпонентную композицию, так что приложение граница приближения
выполняется для любого сколь угодно малого (расстояние от to может быть бесконечно маленьким).
Теорема утверждает, что результат первого слоя может аппроксимировать любую хорошо управляемую функцию . Такую функцию с хорошим поведением можно также аппроксимировать сетью большей глубины, используя ту же конструкцию для первого слоя и аппроксимируя функцию идентичности с более поздними уровнями.
«Двойственные» версии теоремы рассматривают сети ограниченной ширины и произвольной глубины. Вариант универсальной аппроксимационной теоремы для случая произвольной глубины был доказан Чжоу Лу и др. в 2017 г. Они показали, что сети шириной n + 4 с функциями активации ReLU могут аппроксимировать любую интегрируемую функцию Лебега в n-мерном входном пространстве относительно distance, если разрешено увеличение глубины сети. Также было показано, что существует ограниченная выразительная сила, если ширина меньше или равна n. Все интегрируемые функции Лебега, за исключением набора с нулевой мерой, не могут быть аппроксимированы сетями ReLU ширины n. В той же статье было показано, что сети ReLU шириной n + 1 достаточно для аппроксимации любой непрерывной функции n-мерных входных переменных:
Универсальная аппроксимационная теорема (Расстояние L1, активация ReLU, произвольная глубина). Для любой интегрируемой по Лебегу функции и любой , существует полностью подключенная сеть ReLU с шириной , так что функция , представленный этой сетью, удовлетворяет
Другой вариант был предложен Патриком Кидгером и Терри Лайонсом в 2020:
Универсальная аппроксимационная теорема (неаффинная активация, произвольная глубина). Пусть быть любой неаффинной непрерывной функцией, которая непрерывно дифференцируема хотя бы в одной точке, с nonze производная ro в этой точке. Пусть будет компактным. Пространство вещественных векторнозначных непрерывных функций на обозначается . Пусть обозначает пространство нейронных сетей прямого распространения с входными нейронами , выходных нейронов и произвольное количество скрытых слоев, каждый с нейронами, так что каждый скрытый нейрон имеет функцию активации , а каждый выходной нейрон имеет идентификатор в качестве своей функции активации. Затем для любого и любой , существует такое, что
для всех .
Другими словами, равно плотный в относительно равномерной нормы.
Определенные необходимые условия для случая ограниченной ширины и произвольной глубины были установлены, но все еще существует разрыв между известными достаточными и необходимыми условиями.