В контексте искусственных нейронных сетей, выпрямитель является функцией активации, определяемой как положительная часть аргумента:
где x является входом в нейрон. Это также известно как функция пилообразного изменения и аналогична полуволновому выпрямлению в электротехнике.
Эта функция активации впервые была введена в динамическую сеть Ханлозером и др. в 2000 г. с сильной биологической мотивацией и математическим обоснованием. Это было впервые продемонстрировано в 2011 году, чтобы обеспечить лучшее обучение более глубоких сетей по сравнению с широко используемыми функциями активации до 2011 года, например, логистической сигмоидой (которая основана на теории вероятностей ; см. логистическая регрессия ) и ее более практичный аналог, гиперболический тангенс. Выпрямитель, по состоянию на 2017 год, является самой популярной функцией активации для глубоких нейронных сетей.
Блок, использующий выпрямитель, также называется выпрямленным линейным блоком (ReLU ).
Rectified линейные блоки находят применение в компьютерном зрении и распознавании речи с использованием глубоких нейронных сетей и вычислительной нейробиологии.
Исправляющие функции активации использовались для разделения специфического возбуждения и неспецифического торможения в пирамиде нейронной абстракции, которая обучалась контролируемым образом выучить несколько задач компьютерного зрения. В 2011 году было показано, что использование выпрямителя в качестве нелинейности позволяет обучать глубокие контролируемые нейронные сети без необходимости неконтролируемого предварительного обучения. Выпрямленные линейные блоки, по сравнению с сигмовидной функцией или аналогичными функциями активации, позволяют более быстрое и эффективное обучение глубоких нейронных архитектур на больших и сложных наборах данных.
GELU - это плавное приближение к выпрямителю. Он имеет немонотонный «выпуклость», когда x < 0, and it serves as the default activation for models such as BERT.
,
где Φ (x) - кумулятивная функция распределения стандартного нормального распределения.
SiLU (сигмоидальная линейная единица) - еще одно гладкое приближение, впервые представленное в статье GELU..
гладкое приближение к выпрямитель - это аналитическая функция
которая называется функцией softplus или SmoothReLU.
Может быть включен параметр резкости :
Производной softplus является логистическая функция. Начиная с параметрической версии,
Логистическая сигмоидальная функция представляет собой гладкую аппроксимацию производной выпрямителя, Пошаговая функция Хевисайда.
Многопараметрическое обобщение softplus с одной переменной - это LogSumExp с первым аргументом, установленным на ноль:
Функция LogSumExp:
и его градиент равен softmax ; softmax с первым аргументом, установленным в ноль, является многовариантным обобщением логистической функции. И LogSumExp, и softmax используются в машинном обучении.
Leaky ReLUs допускает небольшой положительный градиент, когда блок неактивен.
Параметрическое ReLU (PReLU) развивает эту идею, превращая коэффициент утечки в параметр, который изучается вместе с другими нейронными -параметры сети.
Обратите внимание, что для a ≤ 1 это эквивалентно
и, таким образом, имеет отношение к сетям "maxout".
Expone Обычные линейные устройства стараются приблизить среднее значение активации к нулю, что ускоряет обучение. Было показано, что ELU могут получить более высокую точность классификации, чем ReLU.
где - это гиперпараметр, который должен быть настроен, а является ограничением.