Нейронная сеть с прямой связью

редактировать
В сети с прямой связью информация всегда перемещается в одном направлении; он никогда не идет назад.

A нейронная сеть с прямой связью - это искусственная нейронная сеть, в которой соединения между узлами не образуют цикла. Таким образом, он отличается от своего потомка: рекуррентные нейронные сети.

Нейронные сети с прямой связью были первым и самым простым типом изобретенных искусственных нейронных сетей. В этой сети информация движется только в одном направлении - вперед - от входных узлов через скрытые узлы (если таковые имеются) и к выходным узлам. В сети нет циклов или петель.

Содержание

  • 1 Однослойный перцептрон
  • 2 Многослойный перцептрон
  • 3 Другие сети с прямой связью
  • 4 См. Также
  • 5 Ссылки
  • 6 Внешние ссылки

Однослойный персептрон

Простейший вид нейронной сети - это однослойная сеть персептрона, которая состоит из одного слоя выходных узлов; входы подаются непосредственно на выходы через серию весов. Сумма произведений весов и входов вычисляется в каждом узле, и если значение превышает некоторый порог (обычно 0), нейрон срабатывает и принимает активированное значение (обычно 1); в противном случае он принимает деактивированное значение (обычно -1). Нейроны с такой функцией активации также называются искусственными нейронами или линейными пороговыми единицами. В литературе термин перцептрон часто относится к сетям, состоящим только из одного из этих блоков. Похожий нейрон был описан Уорреном Маккалоком и Уолтером Питтсом в 1940-х годах.

Персептрон может быть создан с использованием любых значений для активированного и деактивированного состояний, если пороговое значение находится между ними.

Персептроны можно обучить с помощью простого алгоритма обучения, который обычно называется правилом дельты. Он вычисляет ошибки между рассчитанными выходными и выборочными выходными данными и использует их для корректировки весов, тем самым реализуя форму градиентного спуска.

Однослойные персептроны способны обучаться только линейно разделимым узоры; в 1969 г. в известной монографии, озаглавленной Персептроны, Марвин Мински и Сеймур Паперт показали, что это невозможно для однослойной сети перцептронов. чтобы изучить функцию XOR (тем не менее, было известно, что многослойные перцептроны способны производить любую возможную логическую функцию).

Хотя вычислительная мощность одного порогового блока весьма ограничена, было показано, что сети параллельных пороговых блоков могут аппроксимировать любую непрерывную функцию из компактного интервала действительных чисел в интервал [-1,1]. Этот результат можно найти у Питера Ауэра и «Правила обучения для очень простых универсальных аппроксиматоров, состоящих из одного слоя перцептронов».

Однослойная нейронная сеть может вычислять непрерывный выходной сигнал вместо пошаговая функция. Распространенным выбором является так называемая логистическая функция :

f (x) = 1 1 + e - x {\ displaystyle f (x) = {\ frac {1} {1 + e ^ {- x} }}}{\ displaystyle f (x) = {\ frac {1} {1 + e ^ {- x}}}}

При таком выборе одноуровневая сеть идентична модели логистической регрессии, широко используемой в статистическом моделировании. логистическая функция является одной из семейства функций, называемых сигмовидными функциями, потому что их S-образные графики напоминают строчные буквы последней буквы греческой буквы сигма. Он имеет непрерывную производную, что позволяет использовать его в обратном распространении. Эта функция также предпочтительна, потому что ее производная легко вычисляется:

f '(x) = f (x) (1 - f (x)) {\ displaystyle f' (x) = f (x) (1-f (x))}{\displaystyle f'(x)=f(x)(1-f(x))}.

(Тот факт, что f удовлетворяет приведенному выше дифференциальному уравнению, можно легко показать, применив цепное правило .)

Если функция активации однослойной нейронной сети равна по модулю 1, тогда эта сеть может решить задачу XOR только с ОДНИМ нейроном.

f (x) = x mod 1 {\ displaystyle f (x) = x \ mod 1}{\ displaystyle f (x) = x \ mod 1}
f '(x) = 1 {\ displaystyle f' (x) = 1}{\displaystyle f'(x)=1}

Мульти- layer perceptron

Двухслойная нейронная сеть, способная вычислять XOR. Числа в нейронах представляют собой явный порог каждого нейрона (который можно разложить так, чтобы все нейроны имели одинаковый порог, обычно 1). Цифры, отмеченные стрелками, представляют вес входных данных. Эта сеть предполагает, что если порог не достигнут, выводится ноль (не -1). Обратите внимание, что нижний уровень входных данных не всегда считается уровнем реальной нейронной сети.

Этот класс сетей состоит из нескольких уровней вычислительных блоков, обычно связанных между собой прямым способом. Каждый нейрон в одном слое имеет направленные связи с нейронами следующего слоя. Во многих приложениях устройства этих сетей применяют сигмовидную функцию в качестве функции активации.

универсальная аппроксимационная теорема для нейронных сетей гласит, что каждая непрерывная функция, которая отображает интервалы действительных чисел в некоторый выходной интервал действительных чисел, может быть сколь угодно точно аппроксимирована многослойным персептроном с помощью всего лишь один скрытый слой. Этот результат справедлив для широкого диапазона функций активации, например для сигмоидальных функций.

В многоуровневых сетях используются различные методы обучения, наиболее популярными из которых являются обратное распространение. Здесь выходные значения сравниваются с правильным ответом для вычисления значения некоторой предопределенной функции ошибок. Затем с помощью различных методов ошибка возвращается по сети. Используя эту информацию, алгоритм регулирует веса каждого соединения, чтобы уменьшить значение функции ошибок на небольшую величину. После повторения этого процесса в течение достаточно большого количества циклов обучения сеть обычно сходится к некоторому состоянию, в котором ошибка вычислений мала. В этом случае можно сказать, что сеть усвоила определенную целевую функцию. Для правильной настройки весов применяется общий метод нелинейной оптимизации, который называется градиентным спуском. Для этого сеть вычисляет производную функции ошибок по весам сети и изменяет веса таким образом, чтобы ошибка уменьшалась (таким образом, снижаясь на поверхности функции ошибок). По этой причине обратное распространение может применяться только в сетях с дифференцируемыми функциями активации.

В общем, проблема обучения сети хорошей работе, даже на выборках, которые не использовались в качестве обучающих выборок, является довольно тонкой проблемой, требующей дополнительных методов. Это особенно важно для случаев, когда доступно очень ограниченное количество обучающих выборок. Опасность состоит в том, что сеть переполняет обучающие данные и не может уловить истинный статистический процесс, генерирующий данные. Теория вычислительного обучения связана с обучением классификаторов на ограниченном количестве данных. В контексте нейронных сетей простая эвристика , называемая ранняя остановка, часто гарантирует, что сеть будет хорошо обобщаться на примеры, не входящие в обучающий набор.

Другими типичными проблемами алгоритма обратного распространения являются скорость сходимости и возможность попадания в локальный минимум функции ошибок. Сегодня существуют практические методы, которые делают обратное распространение в многослойных перцептронах предпочтительным инструментом для многих задач машинного обучения.

Можно также использовать серию независимых нейронных сетей, регулируемых каким-то посредником, подобное поведение происходит в мозгу. Эти нейроны могут работать по отдельности и обрабатывать большую задачу, а результаты могут быть окончательно объединены.

Другие сети с прямой связью

В более общем плане можно использовать любой направленный ациклический граф для сети прямого распространения, где некоторые узлы (без родителей) обозначены как входы, а некоторые узлы (без дочерних) обозначены как выходы. Их можно рассматривать как многослойные сети, в которых некоторые края пропускают слои, либо считая слои назад от выходов или вперед от входов. Могут использоваться различные функции активации, и могут быть отношения между весами, как в сверточных нейронных сетях.

. Примеры других сетей с прямой связью включают в себя сети с радиальными базисными функциями, которые используют другую функцию активации.

Иногда многослойный перцептрон используется в широком смысле для обозначения любой нейронной сети прямого распространения, в то время как в других случаях он ограничивается конкретными (например, с определенными функциями активации или с полностью связанными слоями, или обучен алгоритм перцептрона).

См. Также

Ссылки

Внешние ссылки

Последняя правка сделана 2021-05-20 12:58:43
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте