Перекрестная энтропия

редактировать

В теории информации, перекрестная энтропия между двумя распределениями вероятностей p {\ displaystyle p}p и q {\ displaystyle q}q для одного и того же базового набора событий измеряет среднее количество бит необходимо для идентификации события, извлеченного из набора, если схема кодирования, используемая для набора, оптимизирована для оценочного распределения вероятностей q {\ displaystyle q}q , а не для истинного распределения p {\ displaystyle p}p .

Содержание
  • 1 Определение
  • 2 Мотивация
  • 3 Оценка
  • 4 Отношение к логарифмической вероятности
  • 5 Минимизация перекрестной энтропии
  • 6 Перекрестная энтропия функция потерь и логистическая регрессия
  • 7 См. также
  • 8 Ссылки
  • 9 Внешние ссылки
Определение

Кросс-энтропия распределения q {\ displaystyle q}q относительно распределения p {\ displaystyle p}p по заданному набору определяется как fo llows:

H (p, q) = - E p ⁡ [журнал ⁡ q] {\ displaystyle H (p, q) = - \ operatorname {E} _ {p} [\ log q]}{\ displaystyle H (p, q) = - \ operatorname { E} _ {p} [\ log q]} ,

где E p [⋅] {\ displaystyle E_ {p} [\ cdot]}{\ displaystyle E_ {p} [\ cdot]} - оператор ожидаемого значения по отношению к распределению p {\ displaystyle p}p . Определение может быть сформулировано с использованием расхождения Кульбака – Лейблера DKL (p ‖ q) {\ displaystyle D _ {\ mathrm {KL}} (p \ | q)}D _ {{{\ mathrm {KL}}}} (p \ | q) из p {\ displaystyle p}p из q {\ displaystyle q}q (также известного как относительная энтропия q {\ displaystyle q}q относительно p {\ displaystyle p}p ).

ЧАС (п, д) знак равно ЧАС (п) + DKL (п ‖ q) {\ Displaystyle Н (р, д) = Н (р) + D _ {\ mathrm {KL}} (р \ | q) }{\ displaystyle H (p, q) = H (p) + D _ {\ mathrm {KL }} (п \ | q)} ,

где H (p) {\ displaystyle H (p)}H(p)- это энтропия из p {\ displaystyle p}p .

для дискретные распределения вероятностей p {\ displaystyle p}p и q {\ displaystyle q}q с той же поддержкой Икс {\ Displaystyle {\ mathcal {X}}}{\ mathcal {X}} это означает

H (p, q) = - ∑ x ∈ X p (x) log ⁡ q (x) {\ displaystyle H (p, q) = - \ sum _ {x \ in {\ mathcal {X}}} p (x) \, \ log q (x)}{\ displaystyle H (p, q) = - \ sum _ {x \ in {\ mathcal {X} }} p (x) \, \ log q (x)}

(уравнение 1)

Ситуация для Непрерывные распределения аналогичны. Мы должны предположить, что p {\ displaystyle p}p и q {\ displaystyle q}q являются абсолютно непрерывными по отношению к некоторой ссылке measure r {\ displaystyle r}r (обычно r {\ displaystyle r}r - это мера Лебега на a Борель σ-алгебра ). Пусть P {\ displaystyle P}P и Q {\ displaystyle Q}Q будут функциями плотности вероятности p {\ displaystyle p}p и q {\ displaystyle q}q по отношению к r {\ displaystyle r}r . Тогда

- ∫ XP (x) журнал ⁡ Q (x) dr (x) = E p ⁡ [- log ⁡ Q] {\ displaystyle - \ int _ {\ mathcal {X}} P (x) \, \ log Q (x) \, dr (x) = \ operatorname {E} _ {p} [- \ log Q]}{\ displaystyle - \ int _ {\ mathcal {X}} P (x) \, \ log Q (x) \, dr (x) = \ operatorname {E} _ {p} [- \ log Q]}

и, следовательно,

H (p, q) = - ∫ XP (x) журнал ⁡ Q (Икс) dr (Икс) {\ Displaystyle H (p, q) = - \ int _ {\ mathcal {X}} P (x) \, \ log Q (x) \, dr (x)}{\ displaystyle H (p, q) = - \ int _ {\ mathcal {X}} P (x) \, \ log Q (x) \, dr (x)}

(уравнение 2)

Примечание. Обозначение H (p, q) {\ displaystyle H (p, q)}H (p, q) также используется для другой концепции, совместная энтропия из p {\ displaystyle p}p и q {\ displaystyle q}q .

Мотивация

В теории информации, теорема Крафт-Макмиллана устанавливает, что любая напрямую декодируемая схема кодирования для кодирования сообщения идентифицирует одно значение xi {\ displaystyle x_ {i}}x_ {i} из набор возможностей {x 1,..., xn} {\ displaystyle \ {x_ {1},..., x_ {n} \}}{\ displaystyle \ {x_ {1},..., x_ {n} \}} можно рассматривать как представление неявного распределения вероятностей q (xi) = (1 2) li {\ displaystyle q (x_ {i}) = \ left ({\ frac {1} {2}} \ right) ^ {l_ {i}}}{\ displaystyle q (x_ {i}) = \ left ({\ frac {1} {2}} \ right) ^ {l_ {i}}} более {x 1,..., xn} {\ displaystyle \ {x_ {1},..., x_ {n} \}}{\ displaystyle \ {x_ {1},..., x_ {n} \}} , где li {\ displaystyle l_ {i}}l_ {i} - длина кода для xi {\ displaystyle x_ {i}}x_ {i} в битах. Следовательно, перекрестная энтропия может быть интерпретирована как ожидаемая длина сообщения для данных, когда предполагается неправильное распределение q {\ displaystyle q}q , в то время как данные фактически следуют распределению p {\ displaystyle p}p . Вот почему математическое ожидание берется из истинного распределения вероятностей p {\ displaystyle p}p , а не для q {\ displaystyle q}q . Действительно, ожидаемая длина сообщения при истинном распределении p {\ displaystyle p}p равна,

E p ⁡ [l] = - E p ⁡ [ln ⁡ q (x) ln ⁡ (2)] = - E p ⁡ [журнал 2 ⁡ q (x)] = - ∑ xip (xi) журнал 2 ⁡ q (xi) = - ∑ xp (x) журнал 2 ⁡ q (x) = H (p, q) {\ displaystyle \ operatorname {E} _ {p} [l] = - \ operatorname {E} _ {p} \ left [{\ frac {\ ln {q (x)}} {\ ln (2)}} \ right] = - \ operatorname {E} _ {p} \ left [\ log _ {2} {q (x)} \ right] = - \ sum _ {x_ {i}} p (x_ { i}) \, \ log _ {2} {q (x_ {i})} = - \ sum _ {x} p (x) \, \ log _ {2} q (x) = H (p, q)}{\ displaystyle \ operatorname {E} _ {p} [l] = - \ operatorname {E} _ {p} \ left [{\ frac {\ ln {q (x)}} {\ ln (2)}} \ right] = - \ operatorname {E} _ {p} \ left [\ log _ {2} {q (x)} \ right] = - \ sum _ {x_ {i}} p (x_ {i}) \, \ log _ {2} {q (x_ {i})} = - \ sum _ {x} p (x) \, \ log _ {2} q (x) = H (p, q)}
Оценка

Во многих ситуациях необходимо измерить кросс-энтропию, но распределение p {\ displaystyle p}p неизвестно. Примером является языковое моделирование, где модель создается на основе обучающего набора T {\ displaystyle T}T , а затем ее перекрестная энтропия измеряется на тестовом наборе. чтобы оценить, насколько точна модель при прогнозировании тестовых данных. В этом примере p {\ displaystyle p}p - это истинное распределение слов в любом корпусе, а q {\ displaystyle q}q - это распределение слов как и предсказано моделью. Поскольку истинное распределение неизвестно, кросс-энтропию нельзя вычислить напрямую. В этих случаях оценка кросс-энтропии вычисляется по следующей формуле:

H (T, q) = - ∑ i = 1 N 1 N log 2 ⁡ q (xi) {\ displaystyle H (T, q) = - \ sum _ {i = 1} ^ {N} {\ frac {1} {N}} \ log _ {2} q (x_ {i})}H (T, q) = - \ sum _ {{i = 1}} ^ {N} {\ frac {1} {N}} \ log _ {2} q (x_ {i})

где N {\ displaystyle N}N - это размер набора тестов, а q (x) {\ displaystyle q (x)}q (x) - вероятность события x {\ displaystyle x}x оценивается по обучающей выборке. Сумма рассчитывается по N {\ displaystyle N}N . Это оценка Монте-Карло истинной кросс-энтропии, где тестовый набор обрабатывается как образцы из p (x) {\ displaystyle p (x)}p (x) .

Отношение к log- вероятность

В задачах классификации мы хотим оценить вероятность различных результатов. Если оценочная вероятность результата i {\ displaystyle i}i равна qi {\ displaystyle q_ {i}}q_ {i} , а частота (эмпирическая вероятность) результата i {\ displaystyle i}i в обучающем наборе равно pi {\ displaystyle p_ {i}}p_ {i} , и имеется N условно независимых образцов в обучающем наборе, то вероятность обучающего набора равна

∏ i (вероятность i) количества вхождений i = ∏ iqi N pi {\ displaystyle \ prod _ {i} ({\ t_dv {вероятность of}} i) ^ {{\ t_dv {количество вхождений}} i} = \ prod _ {i} q_ {i} ^ {Np_ {i}}}{\ displaystyle \ prod _ {i} ({\ t_dv {вероятность}} i) ^ {{\ t_dv {количество вхождений}} i} = \ prod _ {i} q_ {i} ^ {Np_ {i}}}

, поэтому логарифмическая вероятность, деленная на N {\ displaystyle N}N равно

1 N log ⁡ ∏ iqi N pi = ∑ ipi log ⁡ qi = - H (p, q) {\ displaystyle {\ frac {1} { N}} \ log \ prod _ {i} q_ {i} ^ {Np_ {i}} = \ sum _ {i} p_ {i} \ log q_ {i} = - H (p, q)}{\ displaystyle {\ frac {1} {N}} \ log \ prod _ {i} q_ {i} ^ {Np_ {i}} = \ sum _ {i} p_ {i} \ log q_ { я} = - H (p, q)}

так что максимизация вероятности - это то же самое, что минимизация перекрестной энтропии.

Минимизация перекрестной энтропии

Минимизация перекрестной энтропии часто используется при оптимизации и оценке вероятности редких событий. При сравнении распределения q {\ displaystyle q}q с фиксированным эталонным распределением p {\ displaystyle p}p перекрестная энтропия и расхождение KL идентичны с точностью до аддитивной константы (поскольку p {\ displaystyle p}p фиксировано): оба принимают свои минимальные значения, когда p = q {\ displaystyle p = q}p = q , что равно 0 {\ displaystyle 0}{\ displaystyle 0} для расхождения KL и H (p) {\ displaystyle \ mathrm {H} (p)}{\ mathrm {H}} (p) для кросс-энтропии. В технической литературе принцип минимизации дивергенции KL («Принцип минимальной информации о различении » Кульбака) часто называют Принципом минимальной кросс-энтропии (MCE) или Minxent .

Однако, как обсуждалось в статье Дивергенция Кульбака – Лейблера, иногда распределение q {\ displaystyle q}q является фиксированным априорным эталонным распределением, а Распределение p {\ displaystyle p}p оптимизировано, чтобы быть как можно ближе к q {\ displaystyle q}q с учетом некоторых ограничений. В этом случае две минимизации не эквивалентны. Это привело к некоторой двусмысленности в литературе, и некоторые авторы пытались разрешить несогласованность, переопределив кросс-энтропию как DKL (p ‖ q) {\ displaystyle D _ {\ mathrm {KL}} (p \ | q)}D _ {{{\ mathrm {KL}}}} (p \ | q) , а не H (p, q) {\ displaystyle H (p, q)}H (p, q) .

Функция потерь кросс-энтропии и логистическая регрессия

кросс-энтропия может использоваться для определения функции потерь в машинном обучении и оптимизации. Истинная вероятность pi {\ displaystyle p_ {i}}p_ {i} - это истинная метка, а данное распределение qi {\ displaystyle q_ {i}}q_ {i} - это прогнозируемое значение текущей модели.

Более конкретно, рассмотрим логистическую регрессию, которая (среди прочего) может использоваться для классификации наблюдений на два возможных класса (часто просто помечаются как 0 {\ displaystyle 0}{\ displaystyle 0} и 1 {\ displaystyle 1}1 ). Выходные данные модели для данного наблюдения с учетом вектора входных характеристик x {\ displaystyle x}x можно интерпретировать как вероятность, которая служит основой для классификации наблюдения. Вероятность моделируется с помощью логистической функции g (z) = 1 / (1 + e - z) {\ displaystyle g (z) = 1 / (1 + e ^ {- z}))}g (z) = 1 / (1 + e ^ {{- z}}) где z {\ displaystyle z}z- некоторая функция входного вектора x {\ displaystyle x}x , обычно просто линейная функция. Вероятность выхода y = 1 {\ displaystyle y = 1}y = 1 определяется как

qy = 1 = y ^ ≡ g (w ⋅ x) = 1 / (1 + e - вес ⋅ Икс), {\ Displaystyle Q_ {Y = 1} \ = \ {\ hat {Y}} \ \ Equiv \ g (\ mathbf {w} \ cdot \ mathbf {x}) \ = 1 / (1 + e ^ {- \ mathbf {w} \ cdot \ mathbf {x}}),}{\ displaystyle q_ {y = 1} \ = \ {\ hat {y}} \ \ Equiv \ g (\ mathbf {w} \ cdot \ mathbf {x}) \ = 1 / (1 + e ^ {- \ mathbf {w} \ cdot \ mathbf {x}}),}

где вектор весов w {\ displaystyle \ mathbf {w}}\ mathbf {w} оптимизирован через некоторый подходящий алгоритм, такой как градиентный спуск. Точно так же дополнительная вероятность найти результат y = 0 {\ displaystyle y = 0}y = 0 просто дается как

qy = 0 = 1 - y ^ {\ displaystyle q_ {y = 0} \ = \ 1 - {\ hat {y}}}q _ {{y = 0}} \ = \ 1 - {\ hat {y}}

Установив нашу нотацию, p ∈ {y, 1 - y} {\ displaystyle p \ in \ {y, 1-y \ }}p \ in \ {y, 1-y \} и q ∈ {y ^, 1 - y ^} {\ displaystyle q \ in \ {{\ hat {y}}, 1 - {\ hat {y}} \} }q \ in \ {{\ hat {y}}, 1 - {\ hat {y} } \} , мы можем использовать кросс-энтропию, чтобы получить меру несходства между p {\ displaystyle p}p и q {\ displaystyle q}q :

H (п, д) знак равно - ∑ ipi журнал ⁡ qi знак равно - Y журнал ⁡ у ^ - (1 - у) журнал ⁡ (1 - у ^) {\ Displaystyle Н (р, д) \ = \ - \ сумма _ { i} p_ {i} \ log q_ {i} \ = \ -y \ log {\ hat {y}} - (1-y) \ log (1 - {\ hat {y}})}H (p, q) \ = \ - \ сумма _ {i} p_ {i} \ log q_ {i} \ = \ -y \ log {\ hat {y}} - (1-y) \ log (1 - {\ hat {y}})

Логистика Регрессия обычно оптимизирует потери журнала для всех наблюдений, на которых она обучается, что аналогично оптимизации средней перекрестной энтропии в выборке. Например, предположим, что у нас есть N {\ displaystyle N}N выборок, каждая из которых проиндексирована n = 1,…, N {\ displaystyle n = 1, \ dots, N}n = 1, \ точки, N . Среднее значение функции потерь тогда определяется как:

J (w) = 1 N ∑ n = 1 NH (pn, qn) = - 1 N ∑ n = 1 N [yn log ⁡ y ^ n + (1 - yn) журнал ⁡ (1 - y ^ n)], {\ displaystyle {\ begin {align} J (\ mathbf {w}) \ = \ {\ frac {1} {N}} \ sum _ {n = 1} ^ {N} H (p_ {n}, q_ {n}) \ = \ - {\ frac {1} {N}} \ sum _ {n = 1} ^ {N} \ {\ bigg [ } y_ {n} \ log {\ hat {y}} _ {n} + (1-y_ {n}) \ log (1 - {\ hat {y}} _ {n}) {\ bigg]} \,, \ end {align}}}{\ displaystyle {\ begin {align} J (\ mathbf {w}) \ = \ {\ frac {1} {N} } \ sum _ {n = 1} ^ {N} H (p_ {n}, q_ {n}) \ = \ - {\ frac {1} {N}} \ sum _ {n = 1} ^ {N } \ {\ bigg [} y_ {n} \ log {\ hat {y}} _ {n} + (1-y_ {n}) \ log (1 - {\ hat {y}} _ {n}) {\ bigg]} \,, \ конец {выровнено}}}

где y ^ n ≡ g (w ⋅ xn) = 1 / (1 + e - w ⋅ xn) {\ displaystyle {\ hat {y}} _ { n} \ Equiv g (\ mathbf {w} \ cdot \ mathbf {x} _ {n}) = 1 / (1 + e ^ {- \ mathbf {w} \ cdot \ mathbf {x} _ {n}})}{\ displaystyle {\ hat {y}} _ {n} \ Equiv g (\ mathbf {w} \ cdot \ mathbf {x} _ {n}) = 1 / (1 + e ^ {- \ mathbf {w} \ cdot \ mathbf {x} _ {n}})} , с g (z) {\ displaystyle g (z)}g (z) логистической функцией, как и раньше.

Логистические потери иногда называют кросс-энтропийными потерями. Это также известно как потеря журнала (в этом случае двоичная метка часто обозначается {-1, + 1}).

Примечание: Градиент потери кросс-энтропии для логистической регрессии такой же как градиент квадрата ошибки потери для Линейной регрессии. То есть, определим

XT = (1 x 11… x 1 p 1 x 21… x 2 p… 1 xn 1… xnp) ∈ R n × (p + 1) {\ displaystyle X ^ {T} = { \ begin {pmatrix} 1 x_ {11} \ dots x_ {1p} \\ 1 x_ {21} \ dots x_ {2p} \\ \ dots \\ 1 x_ {n1} \ dots x_ {np} \\\ end {pmatrix}} \ in \ mathbb {R} ^ {n \ times (p + 1)}}{\ displaystyle X ^ {T} = {\ begin {pmatrix} 1 x_ {11} \ dots x_ {1p} \\ 1 x_ {21} \ dots x_ {2p} \\ \ dots \\ 1 x_ {n1} \ dots x_ {np} \\\ end {pmatrix}} \ in \ mathbb {R} ^ {n \ times (p + 1)}}

yi ^ = f ^ (xi 1,…, xip) = 1 1 + exp (- β 0 - β 1 xi 1 - ⋯ - β pxip) {\ displaystyle {\ hat {y_ {i}}} = {\ hat {f}} (x_ {i1}, \ dots, x_ {ip}) = {\ frac { 1} {1 + exp (- \ beta _ {0} - \ beta _ {1} x_ {i1} - \ dots - \ beta _ {p} x_ {ip})}}{\ displaystyle {\ hat {y_ {i}}} = {\ hat {f}} (x_ {i1}, \ dots, x_ {ip}) = {\ frac {1} {1 + exp (- \ beta _ {0} - \ beta _ {1} x_ {i1} - \ dots - \ beta _ {p} x_ {ip})}}}

L (β →) Знак равно - ∑ я знак равно 1 N [yi журнал ⁡ Y ^ я + (1 - yi) журнал ⁡ (1 - y ^ i)] {\ displaystyle L ({\ overrightarrow {\ beta}}) = - \ sum _ {i = 1} ^ {N} [y ^ {i} \ log {\ hat {y}} ^ {i} + (1-y ^ {i}) \ log (1 - {\ hat {y}} ^ {i})]}{\ displaystyle L ({\ overrightarrow {\ beta}}) = - \ sum _ {i = 1} ^ {N} [y ^ {i} \ log {\ hat {y}} ^ {i} + (1-y ^ {i}) \ log (1 - {\ hat {y}} ^ {i})]}

Тогда у нас есть результат

∂ ∂ β → L (β →) = X (Y ^ - Y) {\ displaystyle {\ frac {\ partial} {\ partial {\ overrightarrow {\ beta}}}} L ({\ overrightarrow {\ beta}}) = X ({\ hat {Y}} - Y)}{\ displaystyle {\ frac {\ partial} {\ partial {\ overrightarrow {\ beta}}}} L ({\ overrightarrow {\ beta}}) = X ({\ hat {Y}} - Y)}

Доказательство состоит в следующем. Для любого y ^ i {\ displaystyle {\ hat {y}} ^ {i}}{\ displaystyle {\ hat {y}} ^ {i}} имеем

∂ ∂ β 0 ln ⁡ 1 1 + e - β 0 + k 0 знак равно е - β 0 + к 0 1 + е - β 0 + к 0 {\ Displaystyle {\ frac {\ partial} {\ partial \ beta _ {0}}} \ ln {\ frac {1} {1+ e ^ {- \ beta _ {0} + k_ {0}}}} = {\ frac {e ^ {- \ beta _ {0} + k_ {0}}} {1 + e ^ {- \ beta _ {0} + k_ {0}}}}}{\ displaystyle {\ frac {\ partial} {\ partial \ beta _ {0}}} \ ln {\ frac {1} {1 + e ^ {- \ beta _ {0} + k_ {0 }}}} = {\ frac {e ^ {- \ beta _ {0} + k_ {0}}} {1 + e ^ {- \ beta _ {0} + k_ {0}}}}}

∂ ∂ β 0 ln ⁡ (1 - 1 1 + e - β 0 + k 0) = - 1 1 + e - β 0 + k 0 {\ displaystyle {\ frac {\ partial} {\ partial \ beta _ {0}}} \ ln \ left (1 - {\ frac {1} {1 + e ^ {- \ beta _ {0} + k_ {0}} }} \ right) = {\ frac {-1} {1 + e ^ {- \ beta _ {0} + k_ {0}}}}}{\ displaystyle {\ frac {\ partial} {\ partial \ beta _ {0}}} \ ln \ left (1 - {\ frac {1} {1 + e ^ {- \ beta _ {0} + k_ {0}}}} \ right) = {\ frac {-1 } {1 + e ^ {- \ beta _ {0} + k_ {0}}}}}

∂ ∂ β 0 L (β →) = - ∑ i = 1 N [yi ⋅ e - β 0 + k 0 1 + e - β 0 + k 0 - (1 - yi) 1 1 + e - β 0 + k 0] = - ∑ i = 1 N [yi - у ^ я] = ∑ я знак равно 1 N (у ^ я - йи) {\ Displaystyle {\ begin {align} {\ frac {\ partial} {\ partial \ beta _ {0}}} L ({\ overrightarrow { \ beta}}) = - \ sum _ {i = 1} ^ {N} \ left [{\ frac {y ^ {i} \ cdot e ^ {- \ beta _ {0} + k_ {0}} } {1 + e ^ {- \ beta _ {0} + k_ {0}}}} - (1-y ^ {i}) {\ frac {1} {1 + e ^ {- \ beta _ {0 } + k_ {0}}}} \ right] \\ = - \ sum _ {i = 1} ^ {N} [y ^ {i} - {\ hat {y}} ^ {i}] = \ сумма _ {i = 1} ^ {N} ({\ hat {y}} ^ {i} -y ^ {i}) \ end {align}}}{\ displaystyle {\ begin {align} {\ frac {\ partial} {\ partial \ beta _ {0}}} L ({\ overrightarrow {\ beta}}) = - \ sum _ {i = 1} ^ {N} \ left [{\ frac {y ^ {i} \ cdot e ^ {- \ beta _ {0} + k_ {0}}} {1 + e ^ {- \ beta _ {0 } + k_ {0}}}} - (1-y ^ {i}) {\ frac {1} {1 + e ^ {- \ beta _ {0} + k_ {0}}}} \ right] \ \ = - \ sum _ {i = 1} ^ {N} [y ^ {i} - {\ hat {y}} ^ {i}] = \ sum _ {i = 1} ^ {N} ({\ hat {y}} ^ {i} -y ^ {i}) \ end {align}}}

∂ ∂ β 1 ln ⁡ 1 1 + e - β 1 xi 1 + k 1 = xi 1 ek 1 e β 1 xi 1 + ek 1 {\ displaystyle {\ frac {\ partial} {\ partial \ beta _ {1}}} \ ln {\ frac {1} {1 + e ^ {- \ beta _ {1} x_ {i1} + k_ {1}}}} = {\ frac {x_ {i1} e ^ {k_ {1}}} {e ^ {\ beta _ {1} x_ {i1}} + e ^ {k_ {1}}}} }{\ displaystyle {\ frac {\ partial} {\ partial \ beta _ {1}}} \ ln {\ frac {1} {1 + e ^ {- \ beta _ {1} x_ {i1} + k_ {1}}}} = {\ frac {x_ {i1} e ^ {k_ {1}}} {e ^ {\ beta _ {1} x_ {i1}} + e ^ {k_ {1}}}}}

∂ ∂ β 1 пер ⁡ [1 - 1 1 + e - β 1 xi 1 + k 1] = - xi 1 e β 1 xi 1 e β 1 xi 1 + ek 1 {\ displaystyle {\ frac { \ partial} {\ partial \ beta _ {1}}} \ ln \ left [1 - {\ frac {1} {1 + e ^ {- \ beta _ {1} x_ {i1} + k_ {1}} }} \ right] = {\ frac {-x_ {i1} e ^ {\ beta _ {1} x_ {i1}}} {e ^ {\ beta _ {1} x_ {i1}} + e ^ {k_ {1}}}}}{\ displaystyle {\ frac {\ partial} {\ partial \ beta _ {1}}} \ ln \ left [1- {\ frac {1} {1 + e ^ {- \ beta _ {1} x_ {i1} + k_ {1}}}} \ right] = {\ frac {-x_ {i1} e ^ {\ beta _ {1} x_ {i1}}} {e ^ {\ beta _ {1} x_ {i1}} + e ^ {k_ {1}}}}}

∂ ∂ β 1 L (β →) = - ∑ i = 1 N xi 1 (yi - y ^ i) = ∑ i = 1 N xi 1 (y ^ i - yi) {\ displaystyle {\ frac {\ partial} {\ partial \ beta _ {1}}} L ({\ overrightarrow {\ beta}}) = - \ sum _ {i = 1} ^ {N} x_ {i1} (y ^ {i} - {\ hat {y}} ^ {i}) = \ sum _ {i = 1} ^ {N} x_ {i1} ({\ hat {y}} ^ {i} -y ^ {i})}{\ displaystyle {\ frac {\ partial} {\ partial \ beta _ {1}}} L ({\ overrightarrow {\ beta}}) = - \ sum _ {i = 1} ^ {N} x_ {i1} (y ^ {i} - {\ hat {y}} ^ {i}) = \ sum _ {i = 1} ^ {N} x_ {i1} ({\ hat {y} } ^ {i} -y ^ {i})}

Аналогичным образом мы в итоге получаем желаемый результат.

См. Также
Ссылки
Внешние ссылки
Последняя правка сделана 2021-05-16 09:44:05
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте