В теории информации, перекрестная энтропия между двумя распределениями вероятностей и для одного и того же базового набора событий измеряет среднее количество бит необходимо для идентификации события, извлеченного из набора, если схема кодирования, используемая для набора, оптимизирована для оценочного распределения вероятностей , а не для истинного распределения .
Содержание
- 1 Определение
- 2 Мотивация
- 3 Оценка
- 4 Отношение к логарифмической вероятности
- 5 Минимизация перекрестной энтропии
- 6 Перекрестная энтропия функция потерь и логистическая регрессия
- 7 См. также
- 8 Ссылки
- 9 Внешние ссылки
Определение
Кросс-энтропия распределения относительно распределения по заданному набору определяется как fo llows:
- ,
где - оператор ожидаемого значения по отношению к распределению . Определение может быть сформулировано с использованием расхождения Кульбака – Лейблера из из (также известного как относительная энтропия относительно ).
- ,
где - это энтропия из .
для дискретные распределения вероятностей и с той же поддержкой это означает
| | (уравнение 1) |
Ситуация для Непрерывные распределения аналогичны. Мы должны предположить, что и являются абсолютно непрерывными по отношению к некоторой ссылке measure (обычно - это мера Лебега на a Борель σ-алгебра ). Пусть и будут функциями плотности вероятности и по отношению к . Тогда
и, следовательно,
| | (уравнение 2) |
Примечание. Обозначение также используется для другой концепции, совместная энтропия из и .
Мотивация
В теории информации, теорема Крафт-Макмиллана устанавливает, что любая напрямую декодируемая схема кодирования для кодирования сообщения идентифицирует одно значение из набор возможностей можно рассматривать как представление неявного распределения вероятностей более , где - длина кода для в битах. Следовательно, перекрестная энтропия может быть интерпретирована как ожидаемая длина сообщения для данных, когда предполагается неправильное распределение , в то время как данные фактически следуют распределению . Вот почему математическое ожидание берется из истинного распределения вероятностей , а не для . Действительно, ожидаемая длина сообщения при истинном распределении равна,
Оценка
Во многих ситуациях необходимо измерить кросс-энтропию, но распределение неизвестно. Примером является языковое моделирование, где модель создается на основе обучающего набора , а затем ее перекрестная энтропия измеряется на тестовом наборе. чтобы оценить, насколько точна модель при прогнозировании тестовых данных. В этом примере - это истинное распределение слов в любом корпусе, а - это распределение слов как и предсказано моделью. Поскольку истинное распределение неизвестно, кросс-энтропию нельзя вычислить напрямую. В этих случаях оценка кросс-энтропии вычисляется по следующей формуле:
где - это размер набора тестов, а - вероятность события оценивается по обучающей выборке. Сумма рассчитывается по . Это оценка Монте-Карло истинной кросс-энтропии, где тестовый набор обрабатывается как образцы из .
Отношение к log- вероятность
В задачах классификации мы хотим оценить вероятность различных результатов. Если оценочная вероятность результата равна , а частота (эмпирическая вероятность) результата в обучающем наборе равно , и имеется N условно независимых образцов в обучающем наборе, то вероятность обучающего набора равна
, поэтому логарифмическая вероятность, деленная на равно
так что максимизация вероятности - это то же самое, что минимизация перекрестной энтропии.
Минимизация перекрестной энтропии
Минимизация перекрестной энтропии часто используется при оптимизации и оценке вероятности редких событий. При сравнении распределения с фиксированным эталонным распределением перекрестная энтропия и расхождение KL идентичны с точностью до аддитивной константы (поскольку фиксировано): оба принимают свои минимальные значения, когда , что равно для расхождения KL и для кросс-энтропии. В технической литературе принцип минимизации дивергенции KL («Принцип минимальной информации о различении » Кульбака) часто называют Принципом минимальной кросс-энтропии (MCE) или Minxent .
Однако, как обсуждалось в статье Дивергенция Кульбака – Лейблера, иногда распределение является фиксированным априорным эталонным распределением, а Распределение оптимизировано, чтобы быть как можно ближе к с учетом некоторых ограничений. В этом случае две минимизации не эквивалентны. Это привело к некоторой двусмысленности в литературе, и некоторые авторы пытались разрешить несогласованность, переопределив кросс-энтропию как , а не .
Функция потерь кросс-энтропии и логистическая регрессия
кросс-энтропия может использоваться для определения функции потерь в машинном обучении и оптимизации. Истинная вероятность - это истинная метка, а данное распределение - это прогнозируемое значение текущей модели.
Более конкретно, рассмотрим логистическую регрессию, которая (среди прочего) может использоваться для классификации наблюдений на два возможных класса (часто просто помечаются как и ). Выходные данные модели для данного наблюдения с учетом вектора входных характеристик можно интерпретировать как вероятность, которая служит основой для классификации наблюдения. Вероятность моделируется с помощью логистической функции где - некоторая функция входного вектора , обычно просто линейная функция. Вероятность выхода определяется как
где вектор весов оптимизирован через некоторый подходящий алгоритм, такой как градиентный спуск. Точно так же дополнительная вероятность найти результат просто дается как
Установив нашу нотацию, и , мы можем использовать кросс-энтропию, чтобы получить меру несходства между и :
Логистика Регрессия обычно оптимизирует потери журнала для всех наблюдений, на которых она обучается, что аналогично оптимизации средней перекрестной энтропии в выборке. Например, предположим, что у нас есть выборок, каждая из которых проиндексирована . Среднее значение функции потерь тогда определяется как:
где , с логистической функцией, как и раньше.
Логистические потери иногда называют кросс-энтропийными потерями. Это также известно как потеря журнала (в этом случае двоичная метка часто обозначается {-1, + 1}).
Примечание: Градиент потери кросс-энтропии для логистической регрессии такой же как градиент квадрата ошибки потери для Линейной регрессии. То есть, определим
Тогда у нас есть результат
Доказательство состоит в следующем. Для любого имеем
Аналогичным образом мы в итоге получаем желаемый результат.
См. Также
Ссылки
Внешние ссылки