Функция Swish

редактировать

Функция swish - это математическая функция, определяемая следующим образом:

{\ displaystyle \ operatorname {swish} (x): = x \ times \ operatorname {sigmoid} (\ beta x) = {\ frac {x} {1 + e ^ {- \ beta x}}}.}

{\ displaystyle \ operatorname {swish} (x): = x \ times \ operatorname {sigmoid} (\ beta x) = {\ frac {x} {1 + e ^ {- \ beta x}}}.}

где β либо постоянный, либо обучаемый параметр в зависимости от модели. При β = 1 функция становится эквивалентной функции сигмовзвешенной линейной единицы (SiL), используемой в обучении с подкреплением, тогда как при β = 0 функция превращается в масштабированную линейную функцию f ( x) = x / 2. При β → ∞ сигмовидный компонент приближается к функции 0–1, поэтому взмах становится похожим на функцию ReLU. Таким образом, его можно рассматривать как сглаживающую функцию, которая нелинейно интерполирует между линейной функцией и функцией ReLU.

Приложения

В 2017 году, после анализа данных ImageNet, исследователи из Google заявили, что использование этой функции в качестве функции активации в искусственных нейронных сетях улучшает производительность по сравнению с ReLU и сигмоидными функциями. Считается, что одна из причин улучшения заключается в том, что функция swish помогает облегчить проблему исчезающего градиента во время обратного распространения.

Рекомендации