Функция swish - это математическая функция, определяемая следующим образом:
где β либо постоянный, либо обучаемый параметр в зависимости от модели. При β = 1 функция становится эквивалентной функции сигмовзвешенной линейной единицы (SiL), используемой в обучении с подкреплением, тогда как при β = 0 функция превращается в масштабированную линейную функцию f ( x) = x / 2. При β → ∞ сигмовидный компонент приближается к функции 0–1, поэтому взмах становится похожим на функцию ReLU. Таким образом, его можно рассматривать как сглаживающую функцию, которая нелинейно интерполирует между линейной функцией и функцией ReLU.
В 2017 году, после анализа данных ImageNet, исследователи из Google заявили, что использование этой функции в качестве функции активации в искусственных нейронных сетях улучшает производительность по сравнению с ReLU и сигмоидными функциями. Считается, что одна из причин улучшения заключается в том, что функция swish помогает облегчить проблему исчезающего градиента во время обратного распространения.