Теорема Гливенко – Кантелли

редактировать

В теории вероятностей, Гливенко –Теорема Кантелли, названная в честь Валерия Ивановича Гливенко и Франческо Паоло Кантелли, определяет асимптотическое поведение эмпирической функции распределения как число независимых и одинаково распределенных наблюдений растет.

Содержание

1 Утверждение
2 Доказательство
3 Эмпирические измерения
4 Класс Гливенко – Кантелли
5 Примеры
6 См. также
7 Ссылки
8 Дополнительная литература

Утверждение

Равномерная сходимость более общих эмпирических показателей становится важным свойством классов Гливенко – Кантелли функций или наборов. Классы Гливенко – Кантелли возникают в теории Вапника – Червоненкиса с приложениями к машинному обучению. В эконометрике можно найти приложения с использованием M-оценок.

Предположим, что $X 1, X 2,… {\ displaystyle X_ {1}, X_ {2}, \ точки}$ $X_1, X_2, \ dots$ - независимые и одинаково распределенные случайные величины в $R {\ displaystyle \ mathbb {R}}$ $\ mathbb {R}$ с общей кумулятивной функцией распределения $F (x) {\ displaystyle F (x)}$ $F ( x)$ . эмпирическая функция распределения для $X 1,…, X n {\ displaystyle X_ {1}, \ dots, X_ {n}}$ $X_ {1}, \ dots, X_ {n}$ определяется как

F n (x) = 1 n ∑ i = 1 n I [X i, ∞) (x) = 1 n | {1 ≤ i ≤ n | X i ≤ x} | {\ displaystyle F_ {n} (x) = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} I _ {[X_ {i}, \ infty)} (x) = { \ frac {1} {n}} \ left | \ left \ {1 \ leq i \ leq n | X_ {i} \ leq x \ right \} \ right |}

{\ displaystyle F_ {n} (x) = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} I _ {[X_ {i}, \ infty)} (x) = {\ frac {1} {n}} \ left | \ влево \ {1 \ Leq я \ Leq п | X_ {я} \ Leq х \ вправо \} \ вправо |}

где $IC {\ displaystyle I_ {C}}$ $I_ {C}$ - это индикаторная функция набора $C {\ displaystyle C}$ $C$ . Для каждого (фиксированного) $x {\ displaystyle x}$ $x$ , $F n (x) {\ displaystyle F_ {n} (x)}$ $F_n (x)$ представляет собой последовательность случайных величин, которые сходятся к $F (x) {\ displaystyle F (x)}$ $F ( x)$ почти наверняка по строгому закону больших чисел, то есть $F n {\ displaystyle F_ {n} }$ $F_ {n}$ сходится к $F {\ displaystyle F}$ $F$ точечно. Гливенко и Кантелли усилили этот результат, доказав равномерную сходимость $F n {\ displaystyle F_ {n}}$ $F_ {n}$ к $F {\ displaystyle F}$ $F$ .

Теорема

‖ F n - F ‖ ∞ = sup x ∈ R | F n (x) - F (x) | ⟶ 0 {\ displaystyle \ | F_ {n} -F \ | _ {\ infty} = \ sup _ {x \ in \ mathbb {R}} | F_ {n} (x) -F (x) | \ longrightarrow 0}

{\ displaystyle \ | F_ {n} -F \ | _ {\ infty} = \ sup _ {x \ in \ mathbb {R}} | F_ {n} (x) -F (x) | \ longrightarrow 0}

почти наверняка.

Эта теорема берет свое начало от Валерия Гливенко и Франческо Кантелли в 1933 году.

Замечания

Если $Икс n {\ displaystyle X_ {n}}$ $X_ {n}$ - стационарный эргодический процесс, тогда $F n (x) {\ displaystyle F_ {n} (x)}$ $F_n (x)$ почти наверняка сходится к $F (x) = E (1 X 1 ≤ x) {\ displaystyle F (x) = E (1_ {X_ {1} \ leq x})}$ $F (x) = E (1_ {X_1 \ le x})$ . Теорема Гливенко – Кантелли дает более сильный способ сходимости, чем этот в случае iid.
Еще более сильный результат равномерной сходимости для эмпирической функции распределения доступен в форме расширенного типа закона повторного логарифма. См. асимптотические свойства эмпирической функции распределения для получения этих и связанных результатов.

Доказательство

Для простоты рассмотрим случай непрерывной случайной величины $X {\ displaystyle X}$ $X$ . Исправьте $- ∞ = x 0 < x 1 < ⋯ < x m − 1 < x m = ∞ {\displaystyle -\infty =x_{0}$ ${\ displaystyle - \ infty = x_ {0} <x_ {1} <\ cdots <x_ { m-1} <x_ {m} = \ infty}$ так, чтобы $F (xj) - F (xj - 1) = 1 m {\ displaystyle F (x_ {j}) - F (x_ {j-1})) = {\ frac {1} {m}}}$ ${\ displaystyle F (x_ {j}) - F (x_ {j-1 }) = {\ frac {1} {m}}}$ для $j = 1,…, m {\ displaystyle j = 1, \ dots, m}$ $j = 1, \ точки, m$ . Теперь для всех $x ∈ R {\ displaystyle x \ in \ mathbb {R}}$ $x \ in \ mathbb {R}$ существует $j ∈ {1,…, m} {\ displaystyle j \ in \ {1, \ точки, m \}}$ ${\ displaystyle j \ in \ {1, \ dots, m \}}$ такие, что $x ∈ [xj - 1, xj] {\ displaystyle x \ in [x_ {j-1}, x_ {j}]}$ ${\ displaystyle x \ in [x_ {j-1}, x_ {j}]}$ . Обратите внимание, что

$F n (x) - F (x) ≤ F n (xj) - F (xj - 1) = F n (xj) - F (xj) + 1 / m, F n (x) - F (x) ≥ F n (xj - 1) - F (xj) = F n (xj - 1) - F (xj - 1) - 1 / m. {\ displaystyle {\ begin {align} F_ {n} (x) -F (x) \ leq F_ {n} (x_ {j}) - F (x_ {j-1}) = F_ {n} ( x_ {j}) - F (x_ {j}) + 1 / m, \\ F_ {n} (x) -F (x) \ geq F_ {n} (x_ {j-1}) - F ( x_ {j}) = F_ {n} (x_ {j-1}) - F (x_ {j-1}) - 1 / m. \ end {align}}}$ ${\ Displaystyle {\ begin {align} F_ {n} (x) -F (x) \ leq F_ {n} (x_ {j}) - F (x_ {j-1}) = F_ {n} (x_ {j}) - F (x_ {j}) + 1 / m, \\ F_ {n} (x) -F (x) \ geq F_ {n} (x_ {j-1}) - F (x_ {j}) = F_ {n} (x_ {j-1}) -F (x_ {j-1}) - 1 / м. \ End {align}}}$

Следовательно, почти наверняка

$| | F n - F | | ∞ = sup x ∈ R | F n (x) - F (x) | ≤ max j ∈ {1,…, m} | F n (x j) - F (x j) | + 1 / м. {\ displaystyle || F_ {n} -F || _ {\ infty} = \ sup _ {x \ in \ mathbb {R}} | F_ {n} (x) -F (x) | \ leq \ max _ {j \ in \ {1, \ dots, m \}} | F_ {n} (x_ {j}) - F (x_ {j}) | + 1 / m.}$ ${ \ Displaystyle || F_ {п} -F || _ {\ infty} = \ sup _ {x \ in \ mathbb {R}} | F_ {n} (x) -F (x) | \ leq \ max _ {j \ in \ {1, \ dots, m \}} | F_ { n} (x_ {j}) - F (x_ {j}) | + 1 / m.}$

Поскольку $макс. j ∈ {1,…, m} | F n (x j) - F (x j) | → 0 п.н. {\ textstyle \ max _ {j \ in \ {1, \ dots, m \}} | F_ {n} (x_ {j}) - F (x_ {j}) | \ to 0 {\ text {as} }}$ ${\ textstyle \ max _ { j \ in \ {1, \ dots, m \}} | F_ {n} (x_ {j}) - F (x_ {j}) | \ to 0 {\ text {as}}}$ по строгому закону больших чисел мы можем гарантировать, что для любого целого числа $m {\ textstyle m}$ ${\ textstyle m}$ мы найдем $N {\ textstyle N}$ ${\ textstyle N}$ так, что для всех $n ≥ N {\ displaystyle n \ geq N}$ $n \ geq N$

$| | F n - F | | ∞ ≤ 1 / м п.н. {\ displaystyle || F_ {n} -F || _ {\ infty} \ leq 1 / m {\ text {a.s.}}}$ ${\ displaystyle || F_ {n} -F || _ {\ infty} \ leq 1 / m {\ text {as}}}$ ,

, что является определением почти надежной сходимости.

Эмпирические меры

Можно обобщить эмпирическую функцию распределения, заменив набор $(- ∞, x] {\ displaystyle (- \ infty, x]}$ $(- \ infty, x]$ произвольным набором C из класса наборов $C {\ displaystyle {\ mathcal {C}}}$ ${\ mathcal {C}}$ для получения эмпирической меры, индексированной наборами $C ∈ С. {\ Displaystyle С \ in {\ mathcal {C}}.}$ $C \ in \ mathcal {C}.$

п n (C) = 1 n ∑ я = 1 n IC (X i), C ∈ C {\ displaystyle P_ {n} (C) = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} I_ {C} (X_ {i}), C \ in {\ mathcal {C}}}

P_n (C) = \ frac {1} {n} \ sum_ {i = 1} ^ n I_C (X_i), C \ in \ mathcal {C}

Где $IC (x) {\ displaystyle I_ {C} (x)}$ $I_C (x)$ - это индикаторная функция каждого набора $C {\ displaystyle C}$ $C$ .

Дальнейшее обобщение - это отображение, индуцированное $P n {\ displaystyle P_ {n}}$ $P_ {n}$ на измеримых вещественнозначных функциях f, которое задается как

f ↦ P nf = ∫ S fd П N знак равно 1 N ∑ я знак равно 1 NF (Икс я), е е F. {\ Displaystyle F \ mapsto P_ {п} е = \ int _ {S} е \, dP_ {п} = {\ гидроразрыва {1 } {n}} \ sum _ {i = 1} ^ {n} f (X_ {i}), f \ in {\ mathcal {F}}.}

{\ displaystyle f \ mapsto P_ {n} f = \ int _ {S} f \, dP_ {n} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} f (X_ {i}), f \ in {\ mathcal {F}}.}

Тогда это становится важным свойством е классы, которые строгий закон больших чисел равномерно выполняется на $F {\ displaystyle {\ mathcal {F}}}$ ${\ mathcal {F}}$ или $C {\ displaystyle {\ mathcal {C}}}$ ${\ mathcal {C}}$ .

Класс Гливенко – Кантелли

Рассмотрим набор $S {\ displaystyle {\ mathcal {S}}}$ ${\ mathcal {S}}$ с сигма-алгеброй Борелевские подмножества A и вероятностная мера P. Для класса подмножеств

C ⊂ {C: C - измеримое подмножество S} {\ displaystyle {\ mathcal {C}} \ subset \ {C: C {\ t_dv {- измеримое подмножество}} {\ mathcal {S}} \}}

{\ mathcal C} \ subset \ {C: C \ t_dv {- измеримое подмножество} \ mathcal {S} \}

и класс функций

F ⊂ {f: S → R, f измеримо} {\ displaystyle {\ mathcal {F}} \ subset \ {f: {\ mathcal {S}} \ to \ mathbb {R}, f {\ t_dv {измеримо}} \, \}}

\ mathcal {F} \ subset \ {f: \ mathcal {S} \ to \ mathbb {R}, f \ t_dv {измеримо} \, \}

определяют случайные величины

‖ P n - P ‖ C = sup C ∈ C | P n (C) - P (C) | {\ displaystyle \ | P_ {n} -P \ | _ {\ mathcal {C}} = \ sup _ {C \ in {\ mathcal {C}}} | P_ {n} (C) -P (C) |}

{\ displaystyle \ | P_ {n} -P \ | _ {\ mathcal {C}} = \ sup _ {C \ in {\ mathcal {C}}} | P_ {n} (C) -P (C) |}

‖ P n - P ‖ F = sup f ∈ F | P n f - P f | {\ displaystyle \ | P_ {n} -P \ | _ {\ mathcal {F}} = \ sup _ {f \ in {\ mathcal {F}}} | P_ {n} f-Pf |}

{\ displaystyle \ | P_ {n} -P \ | _ {\ mathcal {F}} = \ sup _ {е \ in {\ mathcal {F}}} | P_ {n} f-Pf |}

где $P n (C) {\ displaystyle P_ {n} (C)}$ $P_n (C)$ - эмпирическая мера, $P nf {\ displaystyle P_ {n} f}$ $P_n f$ - соответствующая карта, а

E f = ∫ S fd P = P f {\ displaystyle \ mathbb {E} f = \ int _ {\ mathcal {S}} f \, dP = Pf}

{\ displaystyle \ mathbb {E} f = \ int _ {\ mathcal {S}} е \, dP = Pf}

, при условии, что он существует.

Определения

Класс $C {\ displaystyle {\ mathcal {C}}}$ ${\ mathcal {C}}$ называется классом Гливенко – Кантелли (или класс GC) по отношению к вероятностной мере P, если верно любое из следующих эквивалентных утверждений.

‖ P n - P ‖ C → 0 {\ displaystyle \ | P_ {n} -P \ | _ {\ mathcal {C}} \ to 0}

\ | P_n-P \ | _ \ mathcal {C} \ to 0

почти наверняка как

n → ∞ {\ Displaystyle п \ к \ infty}

n \ to \ infty

‖ P n - P ‖ C → 0 {\ displaystyle \ | P_ {n} -P \ | _ {\ mathcal {C}} \ to 0}

\ | P_n-P \ | _ \ mathcal {C} \ to 0

с вероятностью как

n → ∞ {\ Displaystyle п \ к \ infty}

n \ to \ infty

E ‖ P n - P ‖ C → 0 {\ displaystyle \ mathbb {E} \ | P_ {n} -P \ | _ {\ mathcal {C}} \ to 0}

\ mathbb {E} \ | P_n-P \ | _ \ mathcal {C} \ to 0

, как

n → ∞ {\ displaystyle n \ to \ infty}

n \ to \ infty

(сходимость в среднем).

Классы функций Гливенко – Кантелли определяются аналогично.

Класс называется универсальный класс Гливенко – Кантелли, если он является классом GC относительно любой вероятностной меры P на (S, A).
Класс называется равномерно Гливенко – Кантелли, если сходимость происходит равномерно по всем вероятностным мерам P на (S, A):

sup P ∈ P (S, A) E ‖ P n - P ‖ C → 0; {\ displaystyle \ sup _ {P \ in {\ mathcal {P}} (S, A)} \ mathbb {E} \ | P_ {n} -P \ | _ {\ mathcal {C}} \ to 0; }

\ sup_ {P \ in \ mathcal {P} (S, A)} \ mathbb E \ | P_n-P \ | _ \ mathcal {C} \ to 0 ;

sup P ∈ P (S, A) E ‖ P n - P ‖ F → 0. {\ displaystyle \ sup _ {P \ in {\ mathcal {P}} (S, A)} \ mathbb { E} \ | P_ {n} -P \ | _ {\ mathcal {F}} \ to 0.}

\ sup_ {P \ in \ mathcal {P} (S, A)} \ mathbb E \ | P_n-P \ | _ \ mathcal {F} \ до 0.

Теорема (Вапник и Червоненкис, 1968 г.)

Класс наборов

C {\ displaystyle {\ mathcal {C}}}

{\ mathcal {C}}

является однородно GC тогда и только тогда, когда это класс Вапника – Червоненкиса.

Примеры

Пусть $S = R {\ displaystyle S = \ mathbb {R}}$ $S = \ mathbb R$ и $C = {(- ∞, t]: t ∈ R} {\ displaystyle {\ mathcal {C}} = \ {(- \ infty, t]: t \ in {\ mathbb {R}} \}}$ ${\ mathcal C} = \ {(- \ infty, t]: t \ in {\ mathbb R} \}$ . Классическая теорема Гливенко – Кантелли означает, что этот класс является универсальным GC Кроме того, по теореме Колмогорова,

sup P ∈ P (S, A) ‖ P n - P ‖ C ∼ n - 1/2 {\ displaystyle \ sup _ {P \ in {\ mathcal {P }} (S, A)} \ | P_ {n} -P \ | _ {\ mathcal {C}} \ sim n ^ {- 1/2}}

\ sup_ {P \ in \ mathcal {P } (S, A)} \ | P_n-P \ | _ {\ mathcal C} \ sim n ^ {- 1/2}

, то есть

C {\ displaystyle {\ mathcal {C}}}

{\ mathcal {C}}

является равномерно классом Гливенко – Кантелли.

Пусть P неатомарная вероятностная мера на S и $C {\ displaystyle {\ mathcal {C}}}$ ${\ mathcal {C}}$ класс всех конечных подмножеств в S. Поскольку $A п = {Икс 1,…, Икс n} ∈ С {\ Displaystyle A_ {n} = \ {X_ {1}, \ ldots, X_ {n} \} \ in {\ mathcal {C}}}$ $A_n = \ {X_1, \ ldots, X_n \} \ in \ mathcal {C}$ , $П (A n) знак равно 0 {\ displaystyle P (A_ {n}) = 0}$ $P (A_n) = 0$ , $P n (A n) = 1 {\ displaystyle P_ {n} (A_ {n}) = 1}$ $P_n (A_n) = 1$ , мы имеем, что $‖ P n - P ‖ C = 1 {\ displaystyle \ | P_ {n} -P \ | _ {\ mathcal {C}} = 1}$ $\ | P_n-P \ | _ {\ mathcal C} = 1$ и поэтому $C {\ displaystyle {\ mathcal {C}}}$ ${\ mathcal {C}}$ не является классом GC по отношению к P.

См. также

теорема Донскера
Дворецкого – Кифера – Вольфовица неравенство - усиливает теорему Гливенко – Кантелли путем количественной оценки скорости сходимости.

Ссылки

Дополнительная литература

Дадли, Р.М. (1999). Равномерные центральные предельные теоремы. Издательство Кембриджского университета. ISBN 0-521-46102-2.
Питман, Э. Дж. Г. (1979). «Функция распределения выборки». Некоторая основная теория статистических выводов. Лондон: Чепмен и Холл. п. 79–97. ISBN 0-470-26554-X.
Shorack, G.R.; Веллнер, Дж. А. (1986). Эмпирические процессы с приложениями к статистике. Вайли. ISBN 0-471-86725-X.
ван дер Ваарт, А. В. ; Веллнер, Дж. А. (1996). Слабая конвергенция и эмпирические процессы. Springer. ISBN 0-387-94640-3.
van der Vaart, Aad W.; Веллнер, Джон А. (1996). Теоремы Гливенко-Кантелли. Springer
van der Vaart, Aad W.; Веллнер, Джон А. (2000). Теоремы сохранения для классов Гливенко-Кантелли и равномерных классов Гливенко-Кантелли. Springer.