Рекурсивная нейронная сеть

редактировать

Тип нейронной сети, которая использует рекурсию

A рекурсивная нейронная сеть - это разновидность глубокой нейронной сети, созданная с применением того же набора весов рекурсивно по структурированному входу, чтобы произвести структурированное предсказание по входным структурам переменного размера или скалярное предсказание на нем, путем обхода заданной структуры в топологическом порядке. Рекурсивный нейронные сети, иногда обозначаемые сокращенно как RvNN, были успешными, например, в обучении последовательности и древовидных структур в обработке естественного языка, в основном непрерывных представлениях фраз и предложений. ed по встраиванию слов. RvNN были впервые введены для изучения распределенных представлений структуры, таких как логические термины. Модели и общие структуры разрабатывались в дальнейшей работе с 1990-х годов.

Содержание

1 Архитектуры
- 1.1 Базовый
- 1.2 Рекурсивная каскадная корреляция (RecCC)
- 1.3 Неконтролируемая RNN
- 1.4 Тензор
2 Обучение
- 2.1 Стохастический градиентный спуск
3 Свойства
4 Связанные модели
- 4.1 Рекуррентные нейронные сети
- 4.2 Древовидные сети эхо-состояний
- 4.3 Расширение графов
5 Ссылки

Архитектуры

Базовый

Простая рекурсивная архитектура нейронной сети

В самой простой архитектуре узлы объединяются в родительские с помощью весовой матрицы, которая является общей для всей сети, и нелинейности например tanh. Если c 1 и c 2 представляют собой n-мерное векторное представление узлов, их родительский элемент также будет n-мерным вектором, вычисляемым как

$p 1, 2 = tanh ⁡ (W [c 1; c 2]) {\ displaystyle p_ {1,2} = \ tanh \ left (W [c_ {1}; c_ {2}] \ right)}$ $p_ {1,2} = \ tanh \ left (W [c_ {1}; c_ {2}] \ right)$

где W - обученный $n × 2 n {\ displaystyle n \ times 2n}$ $n \ times 2n$ весовая матрица.

Эта архитектура с некоторыми улучшениями использовалась для успешного синтаксического анализа естественных сцен и синтаксического анализа предложений естественного языка.

Рекурсивная каскадная корреляция (RecCC)

RecCC представляет собой конструктивный подход нейронной сети для работы с древовидными доменами с новаторскими приложениями в области химии и расширением до направленных ациклических графов.

Неконтролируемая RNN

В 2004 году была представлена структура для неконтролируемой RNN.

Тензор

Рекурсивные нейронные тензорные сети используют одну тензорную композиционную функцию для всех узлов в дереве.

Обучение

Стохастический градиент descent

Как правило, стохастический градиентный спуск (SGD) используется для обучения сети. Градиент вычисляется с использованием обратного распространения через структуру (BPTS), варианта обратного распространения во времени, используемого для рекуррентных нейронных сетей.

Свойства

Универсальное приближение возможность RNN над деревьями была доказана в литературе.

Родственные модели

Рекуррентные нейронные сети

Рекуррентные нейронные сети рекурсивные искусственные нейронные сети с определенная структура: линейная цепь. В то время как рекурсивные нейронные сети работают с любой иерархической структурой, комбинируя дочерние представления с родительскими представлениями, рекуррентные нейронные сети работают с линейной прогрессией времени, комбинируя предыдущий временной шаг и скрытое представление в представление для текущего временного шага.

Сети состояний эхосигнала дерева

Эффективный подход к реализации рекурсивных нейронных сетей дается сетью состояний эха дерева в рамках парадигмы вычислений резервуара.

Расширение до графов

Расширения до графов включают графическую нейронную сеть (GNN), нейронную сеть для графов (NN4G) и, в последнее время, сверточные нейронные сети для графиков.

Литература