Неравенство Дженсена

редактировать
Неравенство Йенсена для аналитических функций см. В формуле Йенсена.

Неравенство Йенсена обобщает утверждение, что секущая выпуклой функции лежит над ее графиком. Файл: Convex 01.ogv Воспроизвести медиа Визуализация выпуклости и неравенства Дженсена

В математике, неравенство Йенсена, названный в честь датского математика Иоганна Jensen, связывающее значение выпуклой функции в качестве интеграла к интегралу от выпуклой функции. Это было доказано Йенсеном в 1906 году. Учитывая его общность, неравенство проявляется во многих формах в зависимости от контекста, некоторые из которых представлены ниже. В своей простейшей форме неравенство утверждает, что выпуклое преобразование среднего меньше или равно среднему значению, примененному после выпуклого преобразования; Это простое следствие, что обратное верно для вогнутых преобразований.

Неравенство Дженсено обобщает утверждение о том, что секущая выпуклой функции лежит выше на графике в функции, которая является неравенством Дженсена в течение двух точек: секущая линия состоит из взвешенных с помощью функции выпуклой (для т  ∈ [0,1]),

т ж ( Икс 1 ) + ( 1 - т ) ж ( Икс 2 ) , {\ Displaystyle tf (x_ {1}) + (1-t) f (x_ {2}),}

в то время как график функции является выпуклой функцией взвешенных средних,

ж ( т Икс 1 + ( 1 - т ) Икс 2 ) . {\ displaystyle f (tx_ {1} + (1-t) x_ {2}).}

Таким образом, неравенство Дженсена имеет вид

ж ( т Икс 1 + ( 1 - т ) Икс 2 ) т ж ( Икс 1 ) + ( 1 - т ) ж ( Икс 2 ) . {\ displaystyle f (tx_ {1} + (1-t) x_ {2}) \ leq tf (x_ {1}) + (1-t) f (x_ {2}).}

В контексте теории вероятностей это обычно формулируется в следующей форме: если X - случайная величина, а φ - выпуклая функция, то

φ ( E [ Икс ] ) E [ φ ( Икс ) ] . {\ displaystyle \ varphi (\ operatorname {E} [X]) \ leq \ operatorname {E} \ left [\ varphi (X) \ right].}

Разница между двумя сторонами неравенства называется разрывом Дженсена. E [ φ ( Икс ) ] - φ ( E [ Икс ] ) {\ Displaystyle \ OperatorName {E} \ left [\ varphi (X) \ right] - \ varphi \ left (\ operatorname {E} [X] \ right)}

СОДЕРЖАНИЕ

  • 1 Заявления
    • 1.1 Конечная форма
    • 1.2 Теоретико-меры и вероятностная форма
    • 1.3 Общее неравенство в вероятностной постановке
    • 1.4 Заостренная и обобщенная форма
  • 2 Доказательства
    • 2.1 Доказательство 1 (конечная форма)
    • 2.2 Доказательство 2 (теоретико-мерная форма)
    • 2.3 Доказательство 3 (общее неравенство в вероятностной постановке)
  • 3 Приложения и особые случаи
    • 3.1 Форма, включающая функцию плотности вероятности
    • 3.2 Пример: четные моменты случайной величины
    • 3.3 Альтернативная конечная форма
    • 3.4 Статистическая физика
    • 3.5 Теория информации
    • 3.6 Теорема Рао – Блэквелла
  • 4 См. Также
  • 5 Примечания
  • 6 Ссылки
  • 7 Внешние ссылки

Заявления

Классическая форма неравенства Дженсена включает несколько чисел и весов. Неравенство может быть сформулировано в самом общем виде, используя язык теории меры или (что то же самое) вероятностное. В вероятностной постановке неравенство может быть обобщено в полной мере.

Конечная форма

Для вещественной выпуклой функции, чисел в ее области определения и положительных весов неравенство Йенсена можно сформулировать как: φ {\ displaystyle \ varphi} Икс 1 , Икс 2 , , Икс п {\ Displaystyle x_ {1}, x_ {2}, \ ldots, x_ {n}} а я {\ displaystyle a_ {i}}

φ ( а я Икс я а я ) ( а я φ ( Икс я ) ) а я {\ displaystyle \ varphi \ left ({\ frac {\ sum a_ {i} x_ {i}} {\ sum a_ {i}}} \ right) \ leq {\ frac {\ sum (a_ {i} \ varphi) (x_ {i}))} {\ sum a_ {i}}}}

 

 

 

 

( 1)

и неравенство восстанавливается, если есть вогнутые, который φ {\ displaystyle \ varphi}

φ ( а я Икс я а я ) а я φ ( Икс я ) а я . {\ displaystyle \ varphi \ left ({\ frac {\ sum a_ {i} x_ {i}} {\ sum a_ {i}}} \ right) \ geq {\ frac {\ sum a_ {i} \ varphi ( x_ {i})} {\ sum a_ {i}}}.}

 

 

 

 

( 2)

Равенство имеет место тогда и только тогда, когда или является линейным в области, содержащей. Икс 1 знак равно Икс 2 знак равно знак равно Икс п {\ Displaystyle x_ {1} = x_ {2} = \ cdots = x_ {n}} φ {\ displaystyle \ varphi} Икс 1 , Икс 2 , , Икс п {\ Displaystyle x_ {1}, x_ {2}, \ cdots, x_ {n}}

Как частный случай, если веса все равны, то ( 1) и ( 2) становятся а я {\ displaystyle a_ {i}}

φ ( Икс я п ) φ ( Икс я ) п {\ displaystyle \ varphi \ left ({\ frac {\ sum x_ {i}} {n}} \ right) \ leq {\ frac {\ sum \ varphi (x_ {i})} {n}}}

 

 

 

 

( 3)

φ ( Икс я п ) φ ( Икс я ) п {\ displaystyle \ varphi \ left ({\ frac {\ sum x_ {i}} {n}} \ right) \ geq {\ frac {\ sum \ varphi (x_ {i})} {n}}}

 

 

 

 

( 4)

Например, функция журнал ( х) является вогнутым, так что подставляя в предыдущей формуле ( 4) устанавливает (логарифм) знакомых среднеарифметических / геометрических средних-неравенств : φ ( Икс ) знак равно бревно ( Икс ) {\ Displaystyle \ varphi (х) = \ журнал (х)}

бревно ( я знак равно 1 п Икс я п ) я знак равно 1 п бревно ( Икс я ) п или Икс 1 + Икс 2 + + Икс п п Икс 1 Икс 2 Икс п п {\ displaystyle \ log \! \ left ({\ frac {\ sum _ {i = 1} ^ {n} x_ {i}} {n}} \ right) \ geq {\ frac {\ sum _ {i = 1} ^ {n} \ log \! \ Left (x_ {i} \ right)} {n}} \ quad {\ text {или}} \ quad {\ frac {x_ {1} + x_ {2} + \ cdots + x_ {n}} {n}} \ geq {\ sqrt [{n}] {x_ {1} \ cdot x_ {2} \ cdots x_ {n}}}}

Обычное приложение имеет x как функцию другой переменной (или набора переменных) t, то есть. Все это прямо переносится на общий непрерывный случай: веса a i заменяются неотрицательной интегрируемой функцией f  ( x), такой как распределение вероятностей, а суммы заменяются интегралами. Икс я знак равно грамм ( т я ) {\ Displaystyle х_ {я} = г (т_ {я})}

Теоретико-мерная и вероятностная форма

Пусть будет вероятностное пространство, то есть. Если это реальная значной функция, - интегрируема, и если это функция выпукла на вещественной прямой, то: ( Ω , А , μ ) {\ displaystyle (\ Omega, A, \ mu)} μ ( Ω ) знак равно 1 {\ Displaystyle \ му (\ Омега) = 1} грамм {\ displaystyle g} μ {\ displaystyle \ mu} φ {\ displaystyle \ varphi}

φ ( Ω грамм d μ ) Ω φ грамм d μ . {\ displaystyle \ varphi \ left (\ int _ {\ Omega} g \, d \ mu \ right) \ leq \ int _ {\ Omega} \ varphi \ circ g \, d \ mu.}

В реальном анализе нам может потребоваться оценка

φ ( а б ж ( Икс ) d Икс ) , {\ displaystyle \ varphi \ left (\ int _ {a} ^ {b} f (x) \, dx \ right),}

где, и - неотрицательная интегрируемая по Лебегу функция. В этом случае мера Лебега не обязательно должна быть единицей. Однако путем интегрирования путем подстановки интервал можно масштабировать так, чтобы он имел единицу измерения. Тогда можно применить неравенство Дженсена, чтобы получить а , б р {\ displaystyle a, b \ in \ mathbb {R}} ж : [ а , б ] р {\ displaystyle f \ двоеточие [a, b] \ to \ mathbb {R}} [ а , б ] {\ Displaystyle [а, б]}

φ ( 1 б - а а б ж ( Икс ) d Икс ) 1 б - а а б φ ( ж ( Икс ) ) d Икс . {\ displaystyle \ varphi \ left ({\ frac {1} {ba}} \ int _ {a} ^ {b} f (x) \, dx \ right) \ leq {\ frac {1} {ba}} \ int _ {a} ^ {b} \ varphi (f (x)) \, dx.}

Тот же результат можно эквивалентно сформулировать в контексте теории вероятностей, просто изменив обозначения. Пусть - вероятностное пространство, X - интегрируемая вещественная случайная величина, а φ - выпуклая функция. Потом: ( Ω , F , п ) {\ displaystyle (\ Omega, {\ mathfrak {F}}, \ operatorname {P})}

φ ( E [ Икс ] ) E [ φ ( Икс ) ] . {\ displaystyle \ varphi \ left (\ operatorname {E} [X] \ right) \ leq \ operatorname {E} \ left [\ varphi (X) \ right].}

В этих условиях вероятности, мера μ предназначена как вероятность, интеграл по отношению к М в качестве ожидаемого значения и функции в качестве случайной величины X. п {\ displaystyle \ operatorname {P}} E {\ displaystyle \ operatorname {E}} грамм {\ displaystyle g}

Заметим, что равенство выполняется тогда и только тогда, когда φ - линейная функция на некотором выпуклом множестве такая, что (что следует из рассмотрения теоретико-мерного доказательства ниже). А {\ displaystyle A} п ( Икс А ) знак равно 1 {\ Displaystyle \ mathrm {P} (Х \ в А) = 1}

Общее неравенство в вероятностной постановке

В более общем смысле, пусть T - реальное топологическое векторное пространство, а X - T -значная интегрируемая случайная величина. В этой общей постановке, интегрируемые означает, что существует элемент в Т, такой, что для любого элемента г в сопряженном пространстве от T:, и. Тогда для любой измеримой функции выпуклой ф и любой суб- а-алгебры из: E [ Икс ] {\ displaystyle \ operatorname {E} [X]} E | z , Икс | lt; {\ Displaystyle \ OperatorName {E} | \ langle z, X \ rangle | lt;\ infty} z , E [ Икс ] знак равно E [ z , Икс ] {\ displaystyle \ langle z, \ operatorname {E} [X] \ rangle = \ operatorname {E} [\ langle z, X \ rangle]} грамм {\ Displaystyle {\ mathfrak {G}}} F {\ displaystyle {\ mathfrak {F}}}

φ ( E [ Икс грамм ] ) E [ φ ( Икс ) грамм ] . {\ displaystyle \ varphi \ left (\ operatorname {E} \ left [X \ mid {\ mathfrak {G}} \ right] \ right) \ leq \ operatorname {E} \ left [\ varphi (X) \ mid { \ mathfrak {G}} \ right].}

Здесь означает математическое ожидание, обусловленное σ-алгеброй. Это общее утверждение сводится к предыдущим, когда топологическое векторное пространство T является действительной осью и является тривиальной σ- алгеброй {∅, Ω} (где ∅ - пустое множество, а Ω - пространство выборок ). E [ грамм ] {\ Displaystyle \ OperatorName {E} [\ cdot \ mid {\ mathfrak {G}}]} грамм {\ Displaystyle {\ mathfrak {G}}} грамм {\ Displaystyle {\ mathfrak {G}}}

Заостренная и обобщенная форма

Пусть X - одномерная случайная величина со средним значением и дисперсией. Пусть - дважды дифференцируемая функция, и определим функцию μ {\ displaystyle \ mu} σ 2 0 {\ Displaystyle \ sigma ^ {2} \ geq 0} φ ( Икс ) {\ Displaystyle \ varphi (х)}

час ( Икс ) φ ( Икс ) - φ ( μ ) ( Икс - μ ) 2 - φ ( μ ) Икс - μ . {\ Displaystyle час (х) \ треугольник {\ гидроразрыва {\ varphi \ left (x \ right) - \ varphi \ left (\ mu \ right)} {\ left (x- \ mu \ right) ^ {2}} } - {\ frac {\ varphi '\ left (\ mu \ right)} {x- \ mu}}.}

потом

σ 2 инф φ ( Икс ) 2 σ 2 инф час ( Икс ) E [ φ ( Икс ) ] - φ ( E [ Икс ] ) σ 2 Как дела час ( Икс ) σ 2 Как дела φ ( Икс ) 2 . {\ displaystyle \ sigma ^ {2} \ inf {\ frac {\ varphi '' '(x)} {2}} \ leq \ sigma ^ {2} \ inf h (x) \ leq E \ left [\ varphi \ left (X \ right) \ right] - \ varphi \ left (E [X] \ right) \ leq \ sigma ^ {2} \ sup h (x) \ leq \ sigma ^ {2} \ sup {\ frac { \ varphi '' (x)} {2}}.}

В частности, когда является выпуклым, тогда сразу следует стандартная форма неравенства Йенсена для случая, когда дополнительно предполагается дважды дифференцируемым. φ ( Икс ) {\ Displaystyle \ varphi (х)} φ ( Икс ) 0 {\ Displaystyle \ varphi '' (х) \ geq 0} φ ( Икс ) {\ Displaystyle \ varphi (х)}

Доказательства

Графическое «доказательство» неравенства Йенсена для вероятностного случая. Пунктирная кривая по оси X - это гипотетическое распределение X, а пунктирная кривая по оси Y - соответствующее распределение значений Y. Обратите внимание, что выпуклое отображение У ( Х) все более « отрезки » распределение для увеличения значения X. Это без слов доказательство неравенства Йенсена для n переменных. Без ограничения общности сумма положительных весов равна 1. Отсюда следует, что взвешенная точка лежит в выпуклой оболочке исходных точек, лежащей над самой функцией по определению выпуклости. Напрашивается вывод.

Неравенство Дженсена может быть доказано несколькими способами, и будут предложены три разных доказательства, соответствующих различным утверждениям выше. Однако прежде чем приступить к этим математическим выводам, стоит проанализировать интуитивно понятный графический аргумент, основанный на вероятностном случае, когда X - действительное число (см. Рисунок). Предполагая гипотетическое распределение значений X, можно сразу определить положение и его изображение на графике. Заметив, что для выпуклых отображений Y = φ ( X) соответствующее распределение значений Y все больше «растягивается» при увеличении значений X, легко видеть, что распределение Y шире в интервале, соответствующем X gt; X 0. и уже в X lt; X 0 для любого X 0 ; в частности, это верно и для. Следовательно, на этом рисунке ожидание Y всегда будет смещаться вверх по отношению к положению. Аналогичное рассуждение справедливо, если распределение X покрывает убывающую часть выпуклой функции или как убывающую, так и возрастающую ее части. Это «доказывает» неравенство, т. Е. E [ Икс ] {\ displaystyle \ operatorname {E} [X]} φ ( E [ Икс ] ) {\ displaystyle \ varphi (\ operatorname {E} [X])} Икс 0 знак равно E [ Икс ] {\ displaystyle X_ {0} = \ operatorname {E} [X]} φ ( E [ Икс ] ) {\ displaystyle \ varphi (\ operatorname {E} [X])}

φ ( E [ Икс ] ) E [ φ ( Икс ) ] знак равно E [ Y ] , {\ displaystyle \ varphi (\ operatorname {E} [X]) \ leq \ operatorname {E} [\ varphi (X)] = \ operatorname {E} [Y],}

с равенством, когда φ ( X) не является строго выпуклым, например, когда это прямая линия, или когда X следует вырожденному распределению (т.е. является константой).

Приведенные ниже доказательства формализуют это интуитивное понятие.

Доказательство 1 (конечная форма)

Если λ 1 и λ 2 - два произвольных неотрицательных действительных числа такие, что λ 1 + λ 2 = 1, то из выпуклости φ следует

Икс 1 , Икс 2 : φ ( λ 1 Икс 1 + λ 2 Икс 2 ) λ 1 φ ( Икс 1 ) + λ 2 φ ( Икс 2 ) . {\ displaystyle \ forall x_ {1}, x_ {2}: \ qquad \ varphi \ left (\ lambda _ {1} x_ {1} + \ lambda _ {2} x_ {2} \ right) \ leq \ lambda _ {1} \, \ varphi (x_ {1}) + \ lambda _ {2} \, \ varphi (x_ {2}).}

Это можно обобщить: если λ 1,..., λ n - неотрицательные действительные числа такие, что λ 1 +... + λ n = 1, то

φ ( λ 1 Икс 1 + λ 2 Икс 2 + + λ п Икс п ) λ 1 φ ( Икс 1 ) + λ 2 φ ( Икс 2 ) + + λ п φ ( Икс п ) , {\ displaystyle \ varphi (\ lambda _ {1} x_ {1} + \ lambda _ {2} x_ {2} + \ cdots + \ lambda _ {n} x_ {n}) \ leq \ lambda _ {1} \, \ varphi (x_ {1}) + \ lambda _ {2} \, \ varphi (x_ {2}) + \ cdots + \ lambda _ {n} \, \ varphi (x_ {n}),}

для любых x 1,..., x n.

Конечная форма неравенства Йенсена может быть доказана индукцией : по выпуклости гипотез, это утверждение верно для п  = 2. Предположим, что утверждение верно для некоторого п, так

φ ( я знак равно 1 п λ я Икс я ) я знак равно 1 п λ я φ ( Икс я ) {\ displaystyle \ varphi \ left (\ sum _ {i = 1} ^ {n} \ lambda _ {i} x_ {i} \ right) \ leq \ sum _ {i = 1} ^ {n} \ lambda _ {i} \ varphi \ left (x_ {i} \ right)}

для любых λ 1,..., λ n таких, что λ 1 +... + λ n = 1.

Это нужно доказать для n + 1. По крайней мере, одно из λ i строго меньше, чем, скажем, λ n +1 ; поэтому по неравенству выпуклости: 1 {\ displaystyle 1}

φ ( я знак равно 1 п + 1 λ я Икс я ) знак равно φ ( ( 1 - λ п + 1 ) я знак равно 1 п λ я 1 - λ п + 1 Икс я + λ п + 1 Икс п + 1 ) ( 1 - λ п + 1 ) φ ( я знак равно 1 п λ я 1 - λ п + 1 Икс я ) + λ п + 1 φ ( Икс п + 1 ) . {\ displaystyle {\ begin {align} \ varphi \ left (\ sum _ {i = 1} ^ {n + 1} \ lambda _ {i} x_ {i} \ right) amp; = \ varphi \ left ((1 - \ lambda _ {n + 1}) \ sum _ {i = 1} ^ {n} {\ frac {\ lambda _ {i}} {1- \ lambda _ {n + 1}}} x_ {i} + \ lambda _ {n + 1} x_ {n + 1} \ right) \\ amp; \ leq (1- \ lambda _ {n + 1}) \ varphi \ left (\ sum _ {i = 1} ^ { n} {\ frac {\ lambda _ {i}} {1- \ lambda _ {n + 1}}} x_ {i} \ right) + \ lambda _ {n + 1} \, \ varphi (x_ {n +1}). \ End {выравнивается}}}

Поскольку λ 1 +... + λ n + λ n +1 = 1,

я знак равно 1 п λ я 1 - λ п + 1 знак равно 1 {\ displaystyle \ sum _ {я = 1} ^ {n} {\ frac {\ lambda _ {i}} {1- \ lambda _ {n + 1}}} = 1},

применение предположения индукции дает

φ ( я знак равно 1 п λ я 1 - λ п + 1 Икс я ) я знак равно 1 п λ я 1 - λ п + 1 φ ( Икс я ) {\ displaystyle \ varphi \ left (\ sum _ {i = 1} ^ {n} {\ frac {\ lambda _ {i}} {1- \ lambda _ {n + 1}}} x_ {i} \ right) \ leq \ sum _ {i = 1} ^ {n} {\ frac {\ lambda _ {i}} {1- \ lambda _ {n + 1}}} \ varphi (x_ {i})}

следовательно

φ ( я знак равно 1 п + 1 λ я Икс я ) ( 1 - λ п + 1 ) я знак равно 1 п λ я 1 - λ п + 1 φ ( Икс я ) + λ п + 1 φ ( Икс п + 1 ) знак равно я знак равно 1 п + 1 λ я φ ( Икс я ) {\ displaystyle {\ begin {align} \ varphi \ left (\ sum _ {i = 1} ^ {n + 1} \ lambda _ {i} x_ {i} \ right) amp; \ leq (1- \ lambda _ {n + 1}) \ sum _ {i = 1} ^ {n} {\ frac {\ lambda _ {i}} {1- \ lambda _ {n + 1}}} \ varphi (x_ {i}) + \ lambda _ {n + 1} \, \ varphi (x_ {n + 1}) = \ sum _ {i = 1} ^ {n + 1} \ lambda _ {i} \ varphi (x_ {i}) \ конец {выровнено}}}

Мы заключаем, что равенство верно для n + 1, из принципа математической индукции следует, что результат также верен для всех целых n больше 2.

Чтобы получить общее неравенство из этой конечной формы, необходимо использовать аргумент плотности. Конечная форма может быть переписана как:

φ ( Икс d μ п ( Икс ) ) φ ( Икс ) d μ п ( Икс ) , {\ displaystyle \ varphi \ left (\ int x \, d \ mu _ {n} (x) \ right) \ leq \ int \ varphi (x) \, d \ mu _ {n} (x),}

где μ п является мерой задается произвольной выпуклой комбинации из Дирака дельт :

μ п знак равно я знак равно 1 п λ я δ Икс я . {\ displaystyle \ mu _ {n} = \ sum _ {i = 1} ^ {n} \ lambda _ {i} \ delta _ {x_ {i}}.}

Поскольку выпуклые функции непрерывны, а выпуклые комбинации дельт Дирака слабо плотны в множестве вероятностных мер (что легко проверить), общее утверждение получается просто с помощью предельной процедуры.

Доказательство 2 (теоретико-мерная форма)

Пусть g - вещественнозначная μ-интегрируемая функция на вероятностном пространстве Ω, а φ - выпуклая функция на действительных числах. Поскольку φ является выпуклым, для каждого действительного числа x у нас есть непустое множество подчиненных производных, которые можно рассматривать как прямые, касающиеся графика φ в точке x, но которые находятся на графике φ или ниже во всех точках (опорные линии график).

Теперь, если мы определим

Икс 0 знак равно Ω грамм d μ , {\ displaystyle x_ {0}: = \ int _ {\ Omega} g \, d \ mu,}

из-за существования субпроизводных для выпуклых функций мы можем выбрать a и b так, чтобы

а Икс + б φ ( Икс ) , {\ Displaystyle топор + б \ leq \ varphi (х),}

для всех реальных x и

а Икс 0 + б знак равно φ ( Икс 0 ) . {\ displaystyle ax_ {0} + b = \ varphi (x_ {0}).}

Но тогда у нас есть это

φ грамм ( Икс ) а грамм ( Икс ) + б {\ Displaystyle \ varphi \ circ g (x) \ geq ag (x) + b}

для всех х. Поскольку у нас есть вероятностная мера, интеграл монотонен с μ (Ω) = 1, так что

Ω φ грамм d μ Ω ( а грамм + б ) d μ знак равно а Ω грамм d μ + б Ω d μ знак равно а Икс 0 + б знак равно φ ( Икс 0 ) знак равно φ ( Ω грамм d μ ) , {\ Displaystyle \ int _ {\ Omega} \ varphi \ circ g \, d \ mu \ geq \ int _ {\ Omega} (ag + b) \, d \ mu = a \ int _ {\ Omega} g \, d \ mu + b \ int _ {\ Omega} d \ mu = ax_ {0} + b = \ varphi (x_ {0}) = \ varphi \ left (\ int _ {\ Omega} g \, d \ mu \ right),}

по желанию.

Доказательство 3 (общее неравенство в вероятностной постановке)

Пусть X интегрируемая случайная величина, принимающая значения в реальном топологическом векторном пространстве Т. Поскольку выпукло, то для любого величина φ : Т р {\ displaystyle \ varphi: T \ to \ mathbb {R}} Икс , у Т {\ displaystyle x, y \ in T}

φ ( Икс + θ у ) - φ ( Икс ) θ , {\ displaystyle {\ frac {\ varphi (x + \ theta \, y) - \ varphi (x)} {\ theta}},}

убывает, когда θ приближается к 0 +. В частности, Субдифференциал из оценивали при х в направлении у хорошо определено φ {\ displaystyle \ varphi}

( D φ ) ( Икс ) у знак равно Lim θ 0 φ ( Икс + θ у ) - φ ( Икс ) θ знак равно инф θ 0 φ ( Икс + θ у ) - φ ( Икс ) θ . {\ displaystyle (D \ varphi) (x) \ cdot y: = \ lim _ {\ theta \ downarrow 0} {\ frac {\ varphi (x + \ theta \, y) - \ varphi (x)} {\ theta }} = \ inf _ {\ theta \ neq 0} {\ frac {\ varphi (x + \ theta \, y) - \ varphi (x)} {\ theta}}.}.

Легко видеть, что субдифференциал линейен по y (это неверно, и утверждение требует доказательства теоремы Хана-Банаха) и, поскольку нижняя грань, взятая в правой части предыдущей формулы, меньше, чем значение тот же член для θ = 1, получаем

φ ( Икс ) φ ( Икс + у ) - ( D φ ) ( Икс ) у . {\ displaystyle \ varphi (x) \ leq \ varphi (x + y) - (D \ varphi) (x) \ cdot y.}

В частности, для произвольной под- σ -алгебры мы можем оценить последнее неравенство, когда получить грамм {\ Displaystyle {\ mathfrak {G}}} Икс знак равно E [ Икс грамм ] , у знак равно Икс - E [ Икс грамм ] {\ displaystyle x = \ operatorname {E} [X \ mid {\ mathfrak {G}}], \, y = X- \ operatorname {E} [X \ mid {\ mathfrak {G}}]}

φ ( E [ Икс грамм ] ) φ ( Икс ) - ( D φ ) ( E [ Икс грамм ] ) ( Икс - E [ Икс грамм ] ) . {\ displaystyle \ varphi (\ operatorname {E} [X \ mid {\ mathfrak {G}}]) \ leq \ varphi (X) - (D \ varphi) (\ operatorname {E} [X \ mid {\ mathfrak {G}}]) \ cdot (X- \ operatorname {E} [X \ mid {\ mathfrak {G}}]).}

Теперь, если мы возьмем ожидание, обусловленное обеими сторонами предыдущего выражения, мы получим результат, так как: грамм {\ Displaystyle {\ mathfrak {G}}}

E [ [ ( D φ ) ( E [ Икс грамм ] ) ( Икс - E [ Икс грамм ] ) ] грамм ] знак равно ( D φ ) ( E [ Икс грамм ] ) E [ ( Икс - E [ Икс грамм ] ) грамм ] знак равно 0 , {\ displaystyle \ operatorname {E} \ left [\ left [(D \ varphi) (\ operatorname {E} [X \ mid {\ mathfrak {G}}]]) \ cdot (X- \ operatorname {E} [X \ mid {\ mathfrak {G}}]) \ right] \ mid {\ mathfrak {G}} \ right] = (D \ varphi) (\ operatorname {E} [X \ mid {\ mathfrak {G}}]) \ cdot \ operatorname {E} [\ left (X- \ operatorname {E} [X \ mid {\ mathfrak {G}}] \ right) \ mid {\ mathfrak {G}}] = 0,}

линейностью субдифференциала по переменной y и следующим хорошо известным свойством условного математического ожидания :

E [ ( E [ Икс грамм ] ) грамм ] знак равно E [ Икс грамм ] . {\ displaystyle \ operatorname {E} \ left [\ left (\ operatorname {E} [X \ mid {\ mathfrak {G}}] \ right) \ mid {\ mathfrak {G}} \ right] = \ operatorname { E} [X \ mid {\ mathfrak {G}}].}

Приложения и особые случаи

Форма с функцией плотности вероятности

Предположим, что Ω - измеримое подмножество вещественной прямой, а f ( x) - неотрицательная функция такая, что

- ж ( Икс ) d Икс знак равно 1. {\ displaystyle \ int _ {- \ infty} ^ {\ infty} f (x) \, dx = 1.}

На вероятностном языке f - это функция плотности вероятности.

Тогда неравенство Йенсена превращается в следующее утверждение о выпуклых интегралах:

Если g - любая измеримая вещественная функция, выпуклая во всем диапазоне значений g, то φ {\ textstyle \ varphi}

φ ( - грамм ( Икс ) ж ( Икс ) d Икс ) - φ ( грамм ( Икс ) ) ж ( Икс ) d Икс . {\ displaystyle \ varphi \ left (\ int _ {- \ infty} ^ {\ infty} g (x) f (x) \, dx \ right) \ leq \ int _ {- \ infty} ^ {\ infty} \ varphi (g (x)) f (x) \, dx.}

Если g ( x) = x, то эта форма неравенства сводится к обычно используемому частному случаю:

φ ( - Икс ж ( Икс ) d Икс ) - φ ( Икс ) ж ( Икс ) d Икс . {\ displaystyle \ varphi \ left (\ int _ {- \ infty} ^ {\ infty} x \, f (x) \, dx \ right) \ leq \ int _ {- \ infty} ^ {\ infty} \ varphi (x) \, f (x) \, dx.}

Это применяется в вариационных байесовских методах.

Пример: четные моменты случайной величины

Если g ( x) = x 2n и X - случайная величина, то g выпукла, как

d 2 грамм d Икс 2 ( Икс ) знак равно 2 п ( 2 п - 1 ) Икс 2 п - 2 0   Икс р {\ displaystyle {\ frac {d ^ {2} g} {dx ^ {2}}} (x) = 2n (2n-1) x ^ {2n-2} \ geq 0 \ quad \ forall \ x \ in \ mathbb {R}}

так что

грамм ( E [ Икс ] ) знак равно ( E [ Икс ] ) 2 п E [ Икс 2 п ] . {\ displaystyle g (\ operatorname {E} [X]) = (\ operatorname {E} [X]) ^ {2n} \ leq \ operatorname {E} [X ^ {2n}].}

В частности, если некоторые даже момент 2n из X конечен, X имеет конечное среднее. Расширение этого аргумента показывает, что X имеет конечные моменты любого порядка, делящего n. л N {\ displaystyle l \ in \ mathbb {N}}

Альтернативная конечная форма

Пусть Ω = { x 1,... x n }, и пусть μ - считающая мера на Ω, тогда общая форма сводится к утверждению о суммах:

φ ( я знак равно 1 п грамм ( Икс я ) λ я ) я знак равно 1 п φ ( грамм ( Икс я ) ) λ я , {\ displaystyle \ varphi \ left (\ sum _ {i = 1} ^ {n} g (x_ {i}) \ lambda _ {i} \ right) \ leq \ sum _ {i = 1} ^ {n} \ varphi (g (x_ {i})) \ lambda _ {i},}

при условии, что λ i ≥ 0 и

λ 1 + + λ п знак равно 1. {\ displaystyle \ lambda _ {1} + \ cdots + \ lambda _ {n} = 1.}

Также существует бесконечная дискретная форма.

Статистическая физика

Неравенство Йенсена имеет особое значение в статистической физике, когда выпуклая функция является экспоненциальной, что дает:

е E [ Икс ] E [ е Икс ] , {\ Displaystyle е ^ {\ OperatorName {E} [X]} \ leq \ OperatorName {E} \ left [e ^ {X} \ right],}

где ожидаемые значения являются относительно некоторого распределения вероятностей в случайной величине X.

Доказательство в этом случае очень простое (см. Чандлер, раздел 5.5). Желаемое неравенство следует непосредственно, записывая

E [ е Икс ] знак равно е E [ Икс ] E [ е Икс - E [ Икс ] ] {\ displaystyle \ operatorname {E} \ left [e ^ {X} \ right] = e ^ {\ operatorname {E} [X]} \ operatorname {E} \ left [e ^ {X- \ operatorname {E} [X]} \ right]}

а затем применяя неравенство e X ≥ 1 + X к финальной экспоненте.

Теория информации

Если p ( x) - истинная плотность вероятности для X, а q ( x) - другая плотность, то применяя неравенство Дженсена для случайной величины Y ( X) = q ( X) / p ( X) и выпуклой функции φ ( y) = −log ( y) дает

E [ φ ( Y ) ] φ ( E [ Y ] ) {\ Displaystyle \ OperatorName {E} [\ varphi (Y)] \ geq \ varphi (\ Operatorname {E} [Y])}

Следовательно:

- D ( п ( Икс ) q ( Икс ) ) знак равно п ( Икс ) бревно ( q ( Икс ) п ( Икс ) ) d Икс бревно ( п ( Икс ) q ( Икс ) п ( Икс ) d Икс ) знак равно бревно ( q ( Икс ) d Икс ) знак равно 0 {\ Displaystyle -D (п (х) \ | д (х)) = \ инт р (х) \ журнал \ влево ({\ гидроразрыва {д (х)} {р (х)}} \ вправо) \, dx \ leq \ log \ left (\ int p (x) {\ frac {q (x)} {p (x)}} \, dx \ right) = \ log \ left (\ int q (x) \, dx \ right) = 0}

результат, названный неравенством Гиббса.

Он показывает, что средняя длина сообщения минимизируется, когда коды назначаются на основе истинных вероятностей p, а не любого другого распределения q. Величина, которая является неотрицательным называется Кульбак-Либлер расхождение в д из р.

Так как -log ( х) является строго выпуклой функцией для й gt; 0, то отсюда следует, что имеет место равенства при р ( х) равен д ( х) почти всюду.

Теорема Рао – Блэквелла.

Основная статья: теорема Рао – Блэквелла

Если L - выпуклая функция и суб-сигма-алгебра, то из условной версии неравенства Йенсена получаем грамм {\ Displaystyle {\ mathfrak {G}}}

L ( E [ δ ( Икс ) грамм ] ) E [ L ( δ ( Икс ) ) грамм ] E [ L ( E [ δ ( Икс ) грамм ] ) ] E [ L ( δ ( Икс ) ) ] . {\ displaystyle L (\ operatorname {E} [\ delta (X) \ mid {\ mathfrak {G}}]) \ leq \ operatorname {E} [L (\ delta (X)) \ mid {\ mathfrak {G }}] \ quad \ Longrightarrow \ quad \ operatorname {E} [L (\ operatorname {E} [\ delta (X) \ mid {\ mathfrak {G}}])] \ leq \ operatorname {E} [L ( \ delta (X))].}

Итак, если δ ( X) - некоторая оценка ненаблюдаемого параметра θ, заданного вектором наблюдаемых X ; и если T ( X) - достаточная статистика для θ; тогда улучшенная оценка в смысле меньших ожидаемых потерь L может быть получена путем вычисления

δ 1 ( Икс ) знак равно E θ [ δ ( Икс ) Т ( Икс ) знак равно Т ( Икс ) ] , {\ Displaystyle \ delta _ {1} (X) = \ OperatorName {E} _ {\ theta} [\ delta (X ') \ mid T (X') = T (X)],}

ожидаемое значение δ относительно θ, взятое по всем возможным векторам наблюдений X, совместимых с тем же значением T ( X), что и наблюдаемое. Кроме того, поскольку T является достаточной статистикой, не зависит от θ, следовательно, становится статистикой. δ 1 ( Икс ) {\ displaystyle \ delta _ {1} (X)}

Этот результат известен как теорема Рао – Блэквелла.

Смотрите также

Примечания

использованная литература

внешние ссылки

Последняя правка сделана 2023-04-04 05:13:45
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте