LogSumExp (LSE) (также называемый RealSoftMax или многопараметрический softplus ) представляет собой функцию сглаженного максимума - сглаживания приближения к функции максимума, которая в основном используется алгоритмами машинного обучения. Она определяется как логарифм суммы экспонент аргументов:
В тропический анализ, это сумма в логарифмическом полукольце.
Домен функции LogSumExp: , реальное пространство координат, и его диапазон равен , вещественная линия. Чем больше значения или их отклонение, тем точнее становится приближение. Функция LogSumExp является выпуклой и строго монотонно возрастает везде в своей области (но не строго выпуклой везде).
LSE является сглаженным максимумом, потому что, применяя аппроксимацию касательной линии если один член, намного больше остальных, второй член мал, потому что в знаменателе есть , и получается:
Действительно, существуют следующие жесткие границы (если , иначе первое неравенство не является строгим):
Верхняя граница является равенством тогда и только тогда, когда все равны.
Это потому, что (сумма - это не более чем максимальное значение каждый раз), а для положительных чисел для любого термина, включая максимум (так как он добавляет положительные числа), и фактически является строгим, если (поскольку вы добавляете положительное число). Комбинируя с логарифмами и показателями степени, получаем:
Нижний граница выполняется только для , в противном случае она строгая, но приближается, когда все аргументы, кроме одного, приближаются к отрицательной бесконечности, а верхняя граница достигается, когда все аргументы равны.
Запись частные производные:
Это можно вычислить с помощью логарифмического дифференцирования.
Выражение частных производных в виде вектора с градиентом дает функцию softmax, многопараметрический аналог логистической функции .
выпуклое сопряжение LogSumExp - это трюк с отрицательной энтропией.
Функция LSE часто встречается, когда обычные арифметические вычисления выполняются в логарифмической шкале, как в логарифмической вероятности.
Подобно операциям умножения в линейном масштабе, которые становятся простыми сложениями в логарифмическая шкала, операция сложения в линейной шкале становится LSE в логарифмической шкале.
Общей целью использования вычислений в лог-области является повышение точности и избежание проблем с переполнением и переполнением, когда очень маленькие или очень большие числа представлены напрямую (то есть в линейной области) с использованием чисел с плавающей запятой ограниченной точности.
К сожалению, использование LSE напрямую в этом случае может снова вызвать проблемы переполнения / потери значимости. Поэтому вместо этого должен использоваться следующий эквивалент (особенно, когда точность приведенного выше приближения «max» недостаточна). Поэтому многие математические библиотеки, такие как IT ++, предоставляют подпрограмму LSE по умолчанию и используют эту формулу для внутренних целей.
где
LSE является выпуклой, но не строго выпуклой. Мы можем определить строго выпуклую функцию типа log-sum-exp, добавив дополнительный аргумент, установленный в ноль:
Эта функция является собственным генератором Брегмана (строго выпуклой и дифференцируемой). Он встречается в машинном обучении, например, как кумулянт полиномиального / биномиального семейства.