Перекрестная энтропия

редактировать

В теории информации, перекрестная энтропия между двумя распределениями вероятностей $p {\ displaystyle p}$ $p$ и $q {\ displaystyle q}$ $q$ для одного и того же базового набора событий измеряет среднее количество бит необходимо для идентификации события, извлеченного из набора, если схема кодирования, используемая для набора, оптимизирована для оценочного распределения вероятностей $q {\ displaystyle q}$ $q$ , а не для истинного распределения $p {\ displaystyle p}$ $p$ .

Содержание

1 Определение
2 Мотивация
3 Оценка
4 Отношение к логарифмической вероятности
5 Минимизация перекрестной энтропии
6 Перекрестная энтропия функция потерь и логистическая регрессия
7 См. также
8 Ссылки
9 Внешние ссылки

Определение

Кросс-энтропия распределения $q {\ displaystyle q}$ $q$ относительно распределения $p {\ displaystyle p}$ $p$ по заданному набору определяется как fo llows:

H (p, q) = - E p ⁡ [журнал ⁡ q] {\ displaystyle H (p, q) = - \ operatorname {E} _ {p} [\ log q]}

{\ displaystyle H (p, q) = - \ operatorname { E} _ {p} [\ log q]}

где $E p [⋅] {\ displaystyle E_ {p} [\ cdot]}$ ${\ displaystyle E_ {p} [\ cdot]}$ - оператор ожидаемого значения по отношению к распределению $p {\ displaystyle p}$ $p$ . Определение может быть сформулировано с использованием расхождения Кульбака – Лейблера $DKL (p ‖ q) {\ displaystyle D _ {\ mathrm {KL}} (p \ | q)}$ $D _ {{{\ mathrm {KL}}}} (p \ | q)$ из $p {\ displaystyle p}$ $p$ из $q {\ displaystyle q}$ $q$ (также известного как относительная энтропия $q {\ displaystyle q}$ $q$ относительно $p {\ displaystyle p}$ $p$ ).

ЧАС (п, д) знак равно ЧАС (п) + DKL (п ‖ q) {\ Displaystyle Н (р, д) = Н (р) + D _ {\ mathrm {KL}} (р \ | q) }

{\ displaystyle H (p, q) = H (p) + D _ {\ mathrm {KL }} (п \ | q)}

где $H (p) {\ displaystyle H (p)}$ $H(p)$ - это энтропия из $p {\ displaystyle p}$ $p$ .

для дискретные распределения вероятностей $p {\ displaystyle p}$ $p$ и $q {\ displaystyle q}$ $q$ с той же поддержкой $Икс {\ Displaystyle {\ mathcal {X}}}$ ${\ mathcal {X}}$ это означает

H (p, q) = - ∑ x ∈ X p (x) log ⁡ q (x) {\ displaystyle H (p, q) = - \ sum _ {x \ in {\ mathcal {X}}} p (x) \, \ log q (x)}

{\ displaystyle H (p, q) = - \ sum _ {x \ in {\ mathcal {X} }} p (x) \, \ log q (x)}

(уравнение 1)

Ситуация для Непрерывные распределения аналогичны. Мы должны предположить, что $p {\ displaystyle p}$ $p$ и $q {\ displaystyle q}$ $q$ являются абсолютно непрерывными по отношению к некоторой ссылке measure $r {\ displaystyle r}$ $r$ (обычно $r {\ displaystyle r}$ $r$ - это мера Лебега на a Борель σ-алгебра ). Пусть $P {\ displaystyle P}$ $P$ и $Q {\ displaystyle Q}$ $Q$ будут функциями плотности вероятности $p {\ displaystyle p}$ $p$ и $q {\ displaystyle q}$ $q$ по отношению к $r {\ displaystyle r}$ $r$ . Тогда

- ∫ XP (x) журнал ⁡ Q (x) dr (x) = E p ⁡ [- log ⁡ Q] {\ displaystyle - \ int _ {\ mathcal {X}} P (x) \, \ log Q (x) \, dr (x) = \ operatorname {E} _ {p} [- \ log Q]}

{\ displaystyle - \ int _ {\ mathcal {X}} P (x) \, \ log Q (x) \, dr (x) = \ operatorname {E} _ {p} [- \ log Q]}

и, следовательно,

H (p, q) = - ∫ XP (x) журнал ⁡ Q (Икс) dr (Икс) {\ Displaystyle H (p, q) = - \ int _ {\ mathcal {X}} P (x) \, \ log Q (x) \, dr (x)}

{\ displaystyle H (p, q) = - \ int _ {\ mathcal {X}} P (x) \, \ log Q (x) \, dr (x)}

(уравнение 2)

Примечание. Обозначение $H (p, q) {\ displaystyle H (p, q)}$ $H (p, q)$ также используется для другой концепции, совместная энтропия из $p {\ displaystyle p}$ $p$ и $q {\ displaystyle q}$ $q$ .

Мотивация

В теории информации, теорема Крафт-Макмиллана устанавливает, что любая напрямую декодируемая схема кодирования для кодирования сообщения идентифицирует одно значение $xi {\ displaystyle x_ {i}}$ $x_ {i}$ из набор возможностей ${x 1,..., xn} {\ displaystyle \ {x_ {1},..., x_ {n} \}}$ ${\ displaystyle \ {x_ {1},..., x_ {n} \}}$ можно рассматривать как представление неявного распределения вероятностей $q (xi) = (1 2) li {\ displaystyle q (x_ {i}) = \ left ({\ frac {1} {2}} \ right) ^ {l_ {i}}}$ ${\ displaystyle q (x_ {i}) = \ left ({\ frac {1} {2}} \ right) ^ {l_ {i}}}$ более ${x 1,..., xn} {\ displaystyle \ {x_ {1},..., x_ {n} \}}$ ${\ displaystyle \ {x_ {1},..., x_ {n} \}}$ , где $li {\ displaystyle l_ {i}}$ $l_ {i}$ - длина кода для $xi {\ displaystyle x_ {i}}$ $x_ {i}$ в битах. Следовательно, перекрестная энтропия может быть интерпретирована как ожидаемая длина сообщения для данных, когда предполагается неправильное распределение $q {\ displaystyle q}$ $q$ , в то время как данные фактически следуют распределению $p {\ displaystyle p}$ $p$ . Вот почему математическое ожидание берется из истинного распределения вероятностей $p {\ displaystyle p}$ $p$ , а не для $q {\ displaystyle q}$ $q$ . Действительно, ожидаемая длина сообщения при истинном распределении $p {\ displaystyle p}$ $p$ равна,

E p ⁡ [l] = - E p ⁡ [ln ⁡ q (x) ln ⁡ (2)] = - E p ⁡ [журнал 2 ⁡ q (x)] = - ∑ xip (xi) журнал 2 ⁡ q (xi) = - ∑ xp (x) журнал 2 ⁡ q (x) = H (p, q) {\ displaystyle \ operatorname {E} _ {p} [l] = - \ operatorname {E} _ {p} \ left [{\ frac {\ ln {q (x)}} {\ ln (2)}} \ right] = - \ operatorname {E} _ {p} \ left [\ log _ {2} {q (x)} \ right] = - \ sum _ {x_ {i}} p (x_ { i}) \, \ log _ {2} {q (x_ {i})} = - \ sum _ {x} p (x) \, \ log _ {2} q (x) = H (p, q)}

{\ displaystyle \ operatorname {E} _ {p} [l] = - \ operatorname {E} _ {p} \ left [{\ frac {\ ln {q (x)}} {\ ln (2)}} \ right] = - \ operatorname {E} _ {p} \ left [\ log _ {2} {q (x)} \ right] = - \ sum _ {x_ {i}} p (x_ {i}) \, \ log _ {2} {q (x_ {i})} = - \ sum _ {x} p (x) \, \ log _ {2} q (x) = H (p, q)}

Оценка

Во многих ситуациях необходимо измерить кросс-энтропию, но распределение $p {\ displaystyle p}$ $p$ неизвестно. Примером является языковое моделирование, где модель создается на основе обучающего набора $T {\ displaystyle T}$ $T$ , а затем ее перекрестная энтропия измеряется на тестовом наборе. чтобы оценить, насколько точна модель при прогнозировании тестовых данных. В этом примере $p {\ displaystyle p}$ $p$ - это истинное распределение слов в любом корпусе, а $q {\ displaystyle q}$ $q$ - это распределение слов как и предсказано моделью. Поскольку истинное распределение неизвестно, кросс-энтропию нельзя вычислить напрямую. В этих случаях оценка кросс-энтропии вычисляется по следующей формуле:

H (T, q) = - ∑ i = 1 N 1 N log 2 ⁡ q (xi) {\ displaystyle H (T, q) = - \ sum _ {i = 1} ^ {N} {\ frac {1} {N}} \ log _ {2} q (x_ {i})}

H (T, q) = - \ sum _ {{i = 1}} ^ {N} {\ frac {1} {N}} \ log _ {2} q (x_ {i})

где $N {\ displaystyle N}$ $N$ - это размер набора тестов, а $q (x) {\ displaystyle q (x)}$ $q (x)$ - вероятность события $x {\ displaystyle x}$ $x$ оценивается по обучающей выборке. Сумма рассчитывается по $N {\ displaystyle N}$ $N$ . Это оценка Монте-Карло истинной кросс-энтропии, где тестовый набор обрабатывается как образцы из $p (x) {\ displaystyle p (x)}$ $p (x)$ .

Отношение к log- вероятность

В задачах классификации мы хотим оценить вероятность различных результатов. Если оценочная вероятность результата $i {\ displaystyle i}$ $i$ равна $qi {\ displaystyle q_ {i}}$ $q_ {i}$ , а частота (эмпирическая вероятность) результата $i {\ displaystyle i}$ $i$ в обучающем наборе равно $pi {\ displaystyle p_ {i}}$ $p_ {i}$ , и имеется N условно независимых образцов в обучающем наборе, то вероятность обучающего набора равна

∏ i (вероятность i) количества вхождений i = ∏ iqi N pi {\ displaystyle \ prod _ {i} ({\ t_dv {вероятность of}} i) ^ {{\ t_dv {количество вхождений}} i} = \ prod _ {i} q_ {i} ^ {Np_ {i}}}

{\ displaystyle \ prod _ {i} ({\ t_dv {вероятность}} i) ^ {{\ t_dv {количество вхождений}} i} = \ prod _ {i} q_ {i} ^ {Np_ {i}}}

, поэтому логарифмическая вероятность, деленная на $N {\ displaystyle N}$ $N$ равно

1 N log ⁡ ∏ iqi N pi = ∑ ipi log ⁡ qi = - H (p, q) {\ displaystyle {\ frac {1} { N}} \ log \ prod _ {i} q_ {i} ^ {Np_ {i}} = \ sum _ {i} p_ {i} \ log q_ {i} = - H (p, q)}

{\ displaystyle {\ frac {1} {N}} \ log \ prod _ {i} q_ {i} ^ {Np_ {i}} = \ sum _ {i} p_ {i} \ log q_ { я} = - H (p, q)}

так что максимизация вероятности - это то же самое, что минимизация перекрестной энтропии.

Минимизация перекрестной энтропии

Минимизация перекрестной энтропии часто используется при оптимизации и оценке вероятности редких событий. При сравнении распределения $q {\ displaystyle q}$ $q$ с фиксированным эталонным распределением $p {\ displaystyle p}$ $p$ перекрестная энтропия и расхождение KL идентичны с точностью до аддитивной константы (поскольку $p {\ displaystyle p}$ $p$ фиксировано): оба принимают свои минимальные значения, когда $p = q {\ displaystyle p = q}$ $p = q$ , что равно $0 {\ displaystyle 0}$ ${\ displaystyle 0}$ для расхождения KL и $H (p) {\ displaystyle \ mathrm {H} (p)}$ ${\ mathrm {H}} (p)$ для кросс-энтропии. В технической литературе принцип минимизации дивергенции KL («Принцип минимальной информации о различении » Кульбака) часто называют Принципом минимальной кросс-энтропии (MCE) или Minxent .

Однако, как обсуждалось в статье Дивергенция Кульбака – Лейблера, иногда распределение $q {\ displaystyle q}$ $q$ является фиксированным априорным эталонным распределением, а Распределение $p {\ displaystyle p}$ $p$ оптимизировано, чтобы быть как можно ближе к $q {\ displaystyle q}$ $q$ с учетом некоторых ограничений. В этом случае две минимизации не эквивалентны. Это привело к некоторой двусмысленности в литературе, и некоторые авторы пытались разрешить несогласованность, переопределив кросс-энтропию как $DKL (p ‖ q) {\ displaystyle D _ {\ mathrm {KL}} (p \ | q)}$ $D _ {{{\ mathrm {KL}}}} (p \ | q)$ , а не $H (p, q) {\ displaystyle H (p, q)}$ $H (p, q)$ .

Функция потерь кросс-энтропии и логистическая регрессия

кросс-энтропия может использоваться для определения функции потерь в машинном обучении и оптимизации. Истинная вероятность $pi {\ displaystyle p_ {i}}$ $p_ {i}$ - это истинная метка, а данное распределение $qi {\ displaystyle q_ {i}}$ $q_ {i}$ - это прогнозируемое значение текущей модели.

Более конкретно, рассмотрим логистическую регрессию, которая (среди прочего) может использоваться для классификации наблюдений на два возможных класса (часто просто помечаются как $0 {\ displaystyle 0}$ ${\ displaystyle 0}$ и $1 {\ displaystyle 1}$ $1$ ). Выходные данные модели для данного наблюдения с учетом вектора входных характеристик $x {\ displaystyle x}$ $x$ можно интерпретировать как вероятность, которая служит основой для классификации наблюдения. Вероятность моделируется с помощью логистической функции $g (z) = 1 / (1 + e - z) {\ displaystyle g (z) = 1 / (1 + e ^ {- z}))}$ $g (z) = 1 / (1 + e ^ {{- z}})$ где $z {\ displaystyle z}$ $z$ - некоторая функция входного вектора $x {\ displaystyle x}$ $x$ , обычно просто линейная функция. Вероятность выхода $y = 1 {\ displaystyle y = 1}$ $y = 1$ определяется как

qy = 1 = y ^ ≡ g (w ⋅ x) = 1 / (1 + e - вес ⋅ Икс), {\ Displaystyle Q_ {Y = 1} \ = \ {\ hat {Y}} \ \ Equiv \ g (\ mathbf {w} \ cdot \ mathbf {x}) \ = 1 / (1 + e ^ {- \ mathbf {w} \ cdot \ mathbf {x}}),}

{\ displaystyle q_ {y = 1} \ = \ {\ hat {y}} \ \ Equiv \ g (\ mathbf {w} \ cdot \ mathbf {x}) \ = 1 / (1 + e ^ {- \ mathbf {w} \ cdot \ mathbf {x}}),}

где вектор весов $w {\ displaystyle \ mathbf {w}}$ $\ mathbf {w}$ оптимизирован через некоторый подходящий алгоритм, такой как градиентный спуск. Точно так же дополнительная вероятность найти результат $y = 0 {\ displaystyle y = 0}$ $y = 0$ просто дается как

qy = 0 = 1 - y ^ {\ displaystyle q_ {y = 0} \ = \ 1 - {\ hat {y}}}

q _ {{y = 0}} \ = \ 1 - {\ hat {y}}

Установив нашу нотацию, $p ∈ {y, 1 - y} {\ displaystyle p \ in \ {y, 1-y \ }}$ $p \ in \ {y, 1-y \}$ и $q ∈ {y ^, 1 - y ^} {\ displaystyle q \ in \ {{\ hat {y}}, 1 - {\ hat {y}} \} }$ $q \ in \ {{\ hat {y}}, 1 - {\ hat {y} } \}$ , мы можем использовать кросс-энтропию, чтобы получить меру несходства между $p {\ displaystyle p}$ $p$ и $q {\ displaystyle q}$ $q$ :

H (п, д) знак равно - ∑ ipi журнал ⁡ qi знак равно - Y журнал ⁡ у ^ - (1 - у) журнал ⁡ (1 - у ^) {\ Displaystyle Н (р, д) \ = \ - \ сумма _ { i} p_ {i} \ log q_ {i} \ = \ -y \ log {\ hat {y}} - (1-y) \ log (1 - {\ hat {y}})}

H (p, q) \ = \ - \ сумма _ {i} p_ {i} \ log q_ {i} \ = \ -y \ log {\ hat {y}} - (1-y) \ log (1 - {\ hat {y}})

Логистика Регрессия обычно оптимизирует потери журнала для всех наблюдений, на которых она обучается, что аналогично оптимизации средней перекрестной энтропии в выборке. Например, предположим, что у нас есть $N {\ displaystyle N}$ $N$ выборок, каждая из которых проиндексирована $n = 1,…, N {\ displaystyle n = 1, \ dots, N}$ $n = 1, \ точки, N$ . Среднее значение функции потерь тогда определяется как:

J (w) = 1 N ∑ n = 1 NH (pn, qn) = - 1 N ∑ n = 1 N [yn log ⁡ y ^ n + (1 - yn) журнал ⁡ (1 - y ^ n)], {\ displaystyle {\ begin {align} J (\ mathbf {w}) \ = \ {\ frac {1} {N}} \ sum _ {n = 1} ^ {N} H (p_ {n}, q_ {n}) \ = \ - {\ frac {1} {N}} \ sum _ {n = 1} ^ {N} \ {\ bigg [ } y_ {n} \ log {\ hat {y}} _ {n} + (1-y_ {n}) \ log (1 - {\ hat {y}} _ {n}) {\ bigg]} \,, \ end {align}}}

{\ displaystyle {\ begin {align} J (\ mathbf {w}) \ = \ {\ frac {1} {N} } \ sum _ {n = 1} ^ {N} H (p_ {n}, q_ {n}) \ = \ - {\ frac {1} {N}} \ sum _ {n = 1} ^ {N } \ {\ bigg [} y_ {n} \ log {\ hat {y}} _ {n} + (1-y_ {n}) \ log (1 - {\ hat {y}} _ {n}) {\ bigg]} \,, \ конец {выровнено}}}

где $y ^ n ≡ g (w ⋅ xn) = 1 / (1 + e - w ⋅ xn) {\ displaystyle {\ hat {y}} _ { n} \ Equiv g (\ mathbf {w} \ cdot \ mathbf {x} _ {n}) = 1 / (1 + e ^ {- \ mathbf {w} \ cdot \ mathbf {x} _ {n}})}$ ${\ displaystyle {\ hat {y}} _ {n} \ Equiv g (\ mathbf {w} \ cdot \ mathbf {x} _ {n}) = 1 / (1 + e ^ {- \ mathbf {w} \ cdot \ mathbf {x} _ {n}})}$ , с $g (z) {\ displaystyle g (z)}$ $g (z)$ логистической функцией, как и раньше.

Логистические потери иногда называют кросс-энтропийными потерями. Это также известно как потеря журнала (в этом случае двоичная метка часто обозначается {-1, + 1}).

Примечание: Градиент потери кросс-энтропии для логистической регрессии такой же как градиент квадрата ошибки потери для Линейной регрессии. То есть, определим

$XT = (1 x 11… x 1 p 1 x 21… x 2 p… 1 xn 1… xnp) ∈ R n × (p + 1) {\ displaystyle X ^ {T} = { \ begin {pmatrix} 1 x_ {11} \ dots x_ {1p} \\ 1 x_ {21} \ dots x_ {2p} \\ \ dots \\ 1 x_ {n1} \ dots x_ {np} \\\ end {pmatrix}} \ in \ mathbb {R} ^ {n \ times (p + 1)}}$ ${\ displaystyle X ^ {T} = {\ begin {pmatrix} 1 x_ {11} \ dots x_ {1p} \\ 1 x_ {21} \ dots x_ {2p} \\ \ dots \\ 1 x_ {n1} \ dots x_ {np} \\\ end {pmatrix}} \ in \ mathbb {R} ^ {n \ times (p + 1)}}$

$yi ^ = f ^ (xi 1,…, xip) = 1 1 + exp (- β 0 - β 1 xi 1 - ⋯ - β pxip) {\ displaystyle {\ hat {y_ {i}}} = {\ hat {f}} (x_ {i1}, \ dots, x_ {ip}) = {\ frac { 1} {1 + exp (- \ beta _ {0} - \ beta _ {1} x_ {i1} - \ dots - \ beta _ {p} x_ {ip})}}$ ${\ displaystyle {\ hat {y_ {i}}} = {\ hat {f}} (x_ {i1}, \ dots, x_ {ip}) = {\ frac {1} {1 + exp (- \ beta _ {0} - \ beta _ {1} x_ {i1} - \ dots - \ beta _ {p} x_ {ip})}}}$

$L (β →) Знак равно - ∑ я знак равно 1 N [yi журнал ⁡ Y ^ я + (1 - yi) журнал ⁡ (1 - y ^ i)] {\ displaystyle L ({\ overrightarrow {\ beta}}) = - \ sum _ {i = 1} ^ {N} [y ^ {i} \ log {\ hat {y}} ^ {i} + (1-y ^ {i}) \ log (1 - {\ hat {y}} ^ {i})]}$ ${\ displaystyle L ({\ overrightarrow {\ beta}}) = - \ sum _ {i = 1} ^ {N} [y ^ {i} \ log {\ hat {y}} ^ {i} + (1-y ^ {i}) \ log (1 - {\ hat {y}} ^ {i})]}$

Тогда у нас есть результат

$∂ ∂ β → L (β →) = X (Y ^ - Y) {\ displaystyle {\ frac {\ partial} {\ partial {\ overrightarrow {\ beta}}}} L ({\ overrightarrow {\ beta}}) = X ({\ hat {Y}} - Y)}$ ${\ displaystyle {\ frac {\ partial} {\ partial {\ overrightarrow {\ beta}}}} L ({\ overrightarrow {\ beta}}) = X ({\ hat {Y}} - Y)}$

Доказательство состоит в следующем. Для любого $y ^ i {\ displaystyle {\ hat {y}} ^ {i}}$ ${\ displaystyle {\ hat {y}} ^ {i}}$ имеем

$∂ ∂ β 0 ln ⁡ 1 1 + e - β 0 + k 0 знак равно е - β 0 + к 0 1 + е - β 0 + к 0 {\ Displaystyle {\ frac {\ partial} {\ partial \ beta _ {0}}} \ ln {\ frac {1} {1+ e ^ {- \ beta _ {0} + k_ {0}}}} = {\ frac {e ^ {- \ beta _ {0} + k_ {0}}} {1 + e ^ {- \ beta _ {0} + k_ {0}}}}}$ ${\ displaystyle {\ frac {\ partial} {\ partial \ beta _ {0}}} \ ln {\ frac {1} {1 + e ^ {- \ beta _ {0} + k_ {0 }}}} = {\ frac {e ^ {- \ beta _ {0} + k_ {0}}} {1 + e ^ {- \ beta _ {0} + k_ {0}}}}}$

$∂ ∂ β 0 ln ⁡ (1 - 1 1 + e - β 0 + k 0) = - 1 1 + e - β 0 + k 0 {\ displaystyle {\ frac {\ partial} {\ partial \ beta _ {0}}} \ ln \ left (1 - {\ frac {1} {1 + e ^ {- \ beta _ {0} + k_ {0}} }} \ right) = {\ frac {-1} {1 + e ^ {- \ beta _ {0} + k_ {0}}}}}$ ${\ displaystyle {\ frac {\ partial} {\ partial \ beta _ {0}}} \ ln \ left (1 - {\ frac {1} {1 + e ^ {- \ beta _ {0} + k_ {0}}}} \ right) = {\ frac {-1 } {1 + e ^ {- \ beta _ {0} + k_ {0}}}}}$

$∂ ∂ β 0 L (β →) = - ∑ i = 1 N [yi ⋅ e - β 0 + k 0 1 + e - β 0 + k 0 - (1 - yi) 1 1 + e - β 0 + k 0] = - ∑ i = 1 N [yi - у ^ я] = ∑ я знак равно 1 N (у ^ я - йи) {\ Displaystyle {\ begin {align} {\ frac {\ partial} {\ partial \ beta _ {0}}} L ({\ overrightarrow { \ beta}}) = - \ sum _ {i = 1} ^ {N} \ left [{\ frac {y ^ {i} \ cdot e ^ {- \ beta _ {0} + k_ {0}} } {1 + e ^ {- \ beta _ {0} + k_ {0}}}} - (1-y ^ {i}) {\ frac {1} {1 + e ^ {- \ beta _ {0 } + k_ {0}}}} \ right] \\ = - \ sum _ {i = 1} ^ {N} [y ^ {i} - {\ hat {y}} ^ {i}] = \ сумма _ {i = 1} ^ {N} ({\ hat {y}} ^ {i} -y ^ {i}) \ end {align}}}$ ${\ displaystyle {\ begin {align} {\ frac {\ partial} {\ partial \ beta _ {0}}} L ({\ overrightarrow {\ beta}}) = - \ sum _ {i = 1} ^ {N} \ left [{\ frac {y ^ {i} \ cdot e ^ {- \ beta _ {0} + k_ {0}}} {1 + e ^ {- \ beta _ {0 } + k_ {0}}}} - (1-y ^ {i}) {\ frac {1} {1 + e ^ {- \ beta _ {0} + k_ {0}}}} \ right] \ \ = - \ sum _ {i = 1} ^ {N} [y ^ {i} - {\ hat {y}} ^ {i}] = \ sum _ {i = 1} ^ {N} ({\ hat {y}} ^ {i} -y ^ {i}) \ end {align}}}$

$∂ ∂ β 1 ln ⁡ 1 1 + e - β 1 xi 1 + k 1 = xi 1 ek 1 e β 1 xi 1 + ek 1 {\ displaystyle {\ frac {\ partial} {\ partial \ beta _ {1}}} \ ln {\ frac {1} {1 + e ^ {- \ beta _ {1} x_ {i1} + k_ {1}}}} = {\ frac {x_ {i1} e ^ {k_ {1}}} {e ^ {\ beta _ {1} x_ {i1}} + e ^ {k_ {1}}}} }$ ${\ displaystyle {\ frac {\ partial} {\ partial \ beta _ {1}}} \ ln {\ frac {1} {1 + e ^ {- \ beta _ {1} x_ {i1} + k_ {1}}}} = {\ frac {x_ {i1} e ^ {k_ {1}}} {e ^ {\ beta _ {1} x_ {i1}} + e ^ {k_ {1}}}}}$

$∂ ∂ β 1 пер ⁡ [1 - 1 1 + e - β 1 xi 1 + k 1] = - xi 1 e β 1 xi 1 e β 1 xi 1 + ek 1 {\ displaystyle {\ frac { \ partial} {\ partial \ beta _ {1}}} \ ln \ left [1 - {\ frac {1} {1 + e ^ {- \ beta _ {1} x_ {i1} + k_ {1}} }} \ right] = {\ frac {-x_ {i1} e ^ {\ beta _ {1} x_ {i1}}} {e ^ {\ beta _ {1} x_ {i1}} + e ^ {k_ {1}}}}}$ ${\ displaystyle {\ frac {\ partial} {\ partial \ beta _ {1}}} \ ln \ left [1- {\ frac {1} {1 + e ^ {- \ beta _ {1} x_ {i1} + k_ {1}}}} \ right] = {\ frac {-x_ {i1} e ^ {\ beta _ {1} x_ {i1}}} {e ^ {\ beta _ {1} x_ {i1}} + e ^ {k_ {1}}}}}$

$∂ ∂ β 1 L (β →) = - ∑ i = 1 N xi 1 (yi - y ^ i) = ∑ i = 1 N xi 1 (y ^ i - yi) {\ displaystyle {\ frac {\ partial} {\ partial \ beta _ {1}}} L ({\ overrightarrow {\ beta}}) = - \ sum _ {i = 1} ^ {N} x_ {i1} (y ^ {i} - {\ hat {y}} ^ {i}) = \ sum _ {i = 1} ^ {N} x_ {i1} ({\ hat {y}} ^ {i} -y ^ {i})}$ ${\ displaystyle {\ frac {\ partial} {\ partial \ beta _ {1}}} L ({\ overrightarrow {\ beta}}) = - \ sum _ {i = 1} ^ {N} x_ {i1} (y ^ {i} - {\ hat {y}} ^ {i}) = \ sum _ {i = 1} ^ {N} x_ {i1} ({\ hat {y} } ^ {i} -y ^ {i})}$

Аналогичным образом мы в итоге получаем желаемый результат.

См. Также

Ссылки

Внешние ссылки