Теория Вапника – Червоненкиса

редактировать

Раздел статистической теории вычислительного обучения

Теория Вапника – Червоненкиса (также известная как теория ВК ) был разработан в 1960–1990 гг. Владимиром Вапником и Алексеем Червоненкисом. Теория представляет собой форму теории вычислительного обучения, которая пытается объяснить процесс обучения со статистической точки зрения.

Теория ВК связана с теорией статистического обучения и с эмпирическими процессами. Ричард М. Дадли и Владимир Вапник, среди прочего, применили теорию VC к эмпирическим процессам.

Содержание

1 Введение
2 Обзор VC теория в эмпирических процессах
- 2.1 Предпосылки к эмпирическим процессам
- 2.2 Симметризация
- 2.3 Связь VC
3 Неравенство VC
- 3.1 Теорема (Неравенство VC)
4 Ссылки

Введение

Теория VC охватывает как минимум четыре части (как объясняется в разделе «Природа статистической теории обучения»):

Теория согласованности процессов обучения
- Что (необходимые и достаточные) условия согласованности процесса обучения на основе принципа минимизации эмпирического риска ?
Неасимптотическая теория скорости конвергенции процессов обучения
- Насколько высока скорость конвергенции обучения процесс?
Теория управления обобщающей способностью процессов обучения
- Как можно контролировать скорость сходимости (обобщение способности) процесса обучения?
Теория построения обучающихся машин
- Как можно построить алгоритмы, которые могут управлять способностью к обобщению?

Теория VC является основной ветвью статистического обучения теория. Одним из его основных приложений в теории статистического обучения является обеспечение условий обобщения для алгоритмов обучения. С этой точки зрения теория ВК связана с стабильностью, которая представляет собой альтернативный подход для характеристики обобщения.

Кроме того, теория VC и измерение VC играют важную роль в теории эмпирических процессов в случае процессов, индексированных классами VC. Возможно, это наиболее важные приложения теории ВК, которые используются для доказательства обобщения. Будут представлены несколько методов, которые широко используются в эмпирическом процессе и теории ВК. Обсуждение в основном основано на книге «Слабая конвергенция и эмпирические процессы: с приложениями к статистике».

Обзор теории VC в эмпирических процессах

Предпосылки к эмпирическим процессам

Пусть $Икс 1,…, Икс n {\ displaystyle X_ {1}, \ ldots, X_ {n}}$ $X_1, \ ldots, X_n$ быть случайными элементами, определенными на измеримом пространстве $(X, A) {\ displaystyle ({\ mathcal {X}}, {\ mathcal {A}})}$ $({\ mathcal {X}}, {\ mathcal {A}})$ . Для любой меры $Q {\ displaystyle Q}$ $Q$ на $(X, A) {\ displaystyle ({\ mathcal {X}}, {\ mathcal {A}})}$ $({\ mathcal {X}}, {\ mathcal {A}})$ и любые измеримые функции $f: X → R {\ displaystyle f: {\ mathcal {X}} \ to \ mathbf {R}}$ $f: {\ mathcal {X}} \ to {\ mathbf {R}}$ , определяют

Q f = ∫ fd Q {\ displaystyle Qf = \ int fdQ}

Qf = \ int fdQ

Проблемы с измеримостью здесь будут проигнорированы, для получения более подробной технической информации см. Пусть $F {\ displaystyle {\ mathcal {F}}}$ ${\ mathcal {F}}$ будет классом измеримых функций $f: X → R {\ displaystyle f: {\ mathcal {X}} \ to \ mathbf {R}}$ $f: {\ mathcal {X}} \ to {\ mathbf {R}}$ и определите:

‖ Q ‖ F = sup {| Q f | : f ∈ F}. {\ displaystyle \ | Q \ | _ {\ mathcal {F}} = \ sup \ {\ vert Qf \ vert \: \ f \ in {\ mathcal {F}} \}.}

\ | Q \ | _ {{\ mathcal {F}}}} = \ sup \ {\ vert Qf \ vert \: \ f \ in {\ mathcal {F}} \}.

Определите эмпирическую меру

п N знак равно N - 1 ∑ я знак равно 1 N δ Икс я, {\ Displaystyle \ mathbb {P} _ {п} = п ^ {- 1} \ сумма _ {я = 1} ^ {п} \ delta _ {X_ {i}},}

{\mathbb {P}}_{n}=n^{{-1}}\sum _{{i=1} }^{n}\delta _{{X_{i}}},

где δ здесь обозначает меру Дирака. Эмпирическая мера индуцирует отображение $F → R {\ displaystyle {\ mathcal {F}} \ to \ mathbf {R}}$ ${\ mathcal {F}} \ to {\ mathbf {R} }$ , заданное по формуле:

f ↦ P nf = 1 n ( е (Икс 1) +... + е (Икс n)) {\ Displaystyle f \ mapsto \ mathbb {P} _ {n} f = {\ frac {1} {n}} (f (X_ {1}) +... + f (X_ {n}))}

{\ displaystyle f \ mapsto \ mathbb {P} _ {n} f = {\ frac {1} {n }} (f (X_ {1}) +... + f (X_ {n}))}

Теперь предположим, что P является лежащим в основе истинным распределением данных, которое неизвестно. Теория эмпирических процессов направлена на определение классов $F {\ displaystyle {\ mathcal {F}}}$ ${\ mathcal {F}}$ , для которых справедливы такие утверждения, как следующее:

единый закон больших чисел :
$‖ П N - п ‖ F → N 0, {\ displaystyle \ | \ mathbb {P} _ {n} -P \ | _ {\ mathcal {F}} {\ underset {n} {\ to}} 0,}$ ${\ displaystyle \ | \ mathbb {P} _ {n} -P \ | _ {\ mathcal {F}} {\ underset {n} {\ to}} 0,}$

То есть при

n → ∞ {\ displaystyle n \ to \ infty}

n \ to \ infty

$| 1 n (f (X 1) +... + F (X n)) - ∫ f d P | → 0 {\ displaystyle \ left | {\ frac {1} {n}} (f (X_ {1}) +... + f (X_ {n})) - \ int fdP \ right | \ to 0}$ ${\ displaystyle \ left | { \ frac {1} {n}} (f (X_ {1}) +... + f (X_ {n})) - \ int fdP \ right | \ to 0}$

равномерно для всех

f ∈ F {\ displaystyle f \ in {\ mathcal {F}}}

f \ in {\ mathcal {F}}

равномерно центральной предельной теоремы :

G n = n (P n - P) ⇝ G в ℓ ∞ (F) {\ displaystyle \ mathbb {G} _ {n} = {\ sqrt {n}} (\ mathbb {P} _ {n} -P) \ rightsquigarrow \ mathbb {G}, \ quad {\ text {in}} \ ell ^ {\ infty} ({\ mathcal {F}})}

{\ mathbb {G}} _ {n} = {\ sqrt {n}} ({\ mathbb {P}} _ {n} -P) \ rightsquigarrow { \ mathbb {G}}, \ quad {\ text {in}} \ ell ^ {{\ infty}} ({\ mathcal {F}})

В первом случае $F {\ displaystyle {\ mathcal {F}}}$ ${\ mathcal {F}}$ называется классом Гливенко-Кантелли, а в последнем случае (в предположении $∀ x, sup f ∈ F | f (x) - P f | < ∞ {\displaystyle \forall x,\sup \nolimits _{f\in {\mathcal {F}}}\vert f(x)-Pf\vert <\infty }$ $\ forall x, \ sup \ noli mits _ {{f \ in {\ mathcal {F}}}} \ vert f (x) -Pf \ vert <\ infty$ ) класс $F {\ displaystyle {\ mathcal {F}}}$ ${\ mathcal {F}}$ называется Донскером или П-Донскером. Класс Донскера является вероятностным по Гливенко-Кантелли в результате применения теоремы Слуцкого.

Эти утверждения верны для одного $f {\ displaystyle f}$ $f$ по стандарту LLN., CLT аргументы в условиях регулярности, и трудность эмпирических процессов возникает из-за того, что совместные утверждения делаются для всех $f ∈ F {\ displaystyle f \ in {\ mathcal {F }}}$ $f \ in {\ mathcal {F}}$ . Тогда интуитивно понятно, что набор $F {\ displaystyle {\ mathcal {F}}}$ ${\ mathcal {F}}$ не может быть слишком большим, и, как оказывается, геометрия $F {\ displaystyle {\ mathcal {F}}}$ ${\ mathcal {F}}$ играет очень важную роль.

Одним из способов измерения размера набора функций $F {\ displaystyle {\ mathcal {F}}}$ ${\ mathcal {F}}$ является использование так называемых покрывающих чисел. Покрывающее число

N (ε, F, ‖ ⋅ ‖) {\ displaystyle N (\ varepsilon, {\ mathcal {F}}, \ | \ cdot \ |)}

N (\ varepsilon, {\ mathcal {F}}, \ | \ cdot \ |)

- минимальное количество шаров ${g: ‖ g - f ‖ < ε } {\displaystyle \{g:\|g-f\|<\varepsilon \}}$ $\ { g: \ | gf \ | <\ vare псилон \}$ необходимо для покрытия множества $F {\ displaystyle {\ mathcal {F}}}$ ${\ mathcal {F}}$ (здесь, очевидно, предполагается, что там является базовой нормой для $F {\ displaystyle {\ mathcal {F}}}$ ${\ mathcal {F}}$ ). Энтропия - это логарифм числа покрытия.

Ниже приведены два достаточных условия, при которых можно доказать, что множество $F {\ displaystyle {\ mathcal {F}}}$ ${\ mathcal {F}}$ является Гливенко-Кантелли или Донскером.

Класс $F {\ displaystyle {\ mathcal {F}}}$ ${\ mathcal {F}}$ является P-Гливенко-Кантелли, если он P-измерим с огибающей F такой, что $P ∗ F < ∞ {\displaystyle P^{\ast }F<\infty }$ $P ^ {{\ ast}} F <\ infty$ и удовлетворяет:

∀ ε>0 sup QN (ε ‖ F ‖ Q, F, L 1 (Q)) < ∞. {\displaystyle \forall \varepsilon>0 \ quad \ sup \ nolimits _ {Q} N (\ varepsilon \ | F \ | _ {Q}, {\ mathcal {F}}, L_ {1} (Q)) <\infty.}

\forall \varepsilon>0 \ quad \ sup \ nolimits _ {{Q}} N (\ varepsilon \ | F \ | _ {Q}, {\ mathcal {F}}, L_ {1} (Q)) <\infty.

Следующее условие является версией знаменитой теоремы Дадли. Если $F {\ displaystyle {\ mathcal {F}}}$ ${\ mathcal {F}}$ - класс функций, таких что

∫ 0 ∞ sup Q log ⁡ N (ε ‖ F ‖ Q, 2, F, L 2 (Q)) d ε < ∞ {\displaystyle \int _{0}^{\infty }\sup \nolimits _{Q}{\sqrt {\log N\left(\varepsilon \|F\|_{Q,2},{\mathcal {F}},L_{2}(Q)\right)}}d\varepsilon <\infty }

\ int _ {0} ^ {{\ infty}} \ sup \ nolimits _ {{Q}} {\ sqrt {\ log N \ left (\ varepsilon \ | F \ | _ {{Q, 2}}, {\ mathcal {F}}, L_ {2} (Q) \ right)}} d \ varepsilon <\ infty

, тогда $F {\ displaystyle {\ mathcal {F}}}$ ${\ mathcal {F}}$ является P-Донскером для любой вероятностной меры P такой, что $P ∗ F 2 < ∞ {\displaystyle P^{\ast }F^{2}<\infty }$ $P^{{\ast }}F^{2}<\infty$ . В последнем интеграле обозначение означает

‖ е ‖ Q, 2 = (∫ | f | 2 d Q) 1 2 {\ displaystyle \ | f \ | _ {Q, 2} = \ left (\ int | f | ^ {2} dQ \ right) ^ {\ frac {1} {2}}}

\ | f \ | _ {{ Q, 2}} = \ left (\ int | f | ^ {2} dQ \ right) ^ {{{\ frac {1} {2}}}}

Симметризация

Большинство аргументов о том, как ограничить эмпирический процесс, основаны на симметризации, максимальном и неравенство концентраций и цепочки. Симметризация обычно является первым шагом доказательств, и, поскольку она используется во многих доказательствах машинного обучения для ограничения эмпирических функций потерь (включая доказательство неравенства ВК, которое обсуждается в следующем разделе), она представлена здесь.

Рассмотрим эмпирический процесс:

f ↦ (P n - P) f = 1 n ∑ i = 1 n (f (X i) - P f) {\ displaystyle f \ mapsto (\ mathbb {P} _ {n} -P) f = {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} (f (X_ {i}) - Pf)}

f \ mapsto ({\ mathbb {P}} _ { n} -P) f = {\ dfrac {1} {n}} \ sum _ {{i = 1}} ^ {n} (f (X_ {i}) - Pf)

Оборотов выясняется, что существует связь между эмпирическим и следующим симметризованным процессом:

f ↦ P n 0 f = 1 n ∑ i = 1 n ε if (X i) {\ displaystyle f \ mapsto \ mathbb {P} _ {n} ^ {0} f = {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} \ varepsilon _ {i} f (X_ {i})}

{\ displaystyle f \ mapsto \ mathbb {P} _ {n} ^ { 0} f = {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} \ varepsilon _ {i} f (X_ {i})}

Симметризованный Процесс - это процесс Радемахера, при условии, что данные $X i {\ displaystyle X_ {i}}$ $X_i$ . Следовательно, это субгауссов процесс по неравенству Хёффдинга.

Лемма (Симметризация). Для любого неубывающего выпуклого Φ: R→ Rи класса измеримых функций $F {\ displaystyle {\ mathcal {F}}}$ ${\ mathcal {F}}$ ,

E Φ (‖ P n - P ‖ F) ≤ E Φ (2 ‖ P n 0 ‖ F) {\ displaystyle \ mathbb {E} \ Phi (\ | \ mathbb {P} _ {n} -P \ | _ {\ mathcal {F}}) \ leq \ mathbb {E} \ Phi \ left (2 \ left \ | \ mathbb {P} _ {n} ^ {0} \ right \ | _ {\ mathcal {F}} \ right)}

{\ mathbb {E}} \ Phi (\ | {\ mathbb {P}} _ {n} -P \ | _ {{{\ mathcal {F}}}}) \ leq {\ mathbb {E}} \ Phi \ left (2 \ left \ | {\ mathbb {P}} _ {n} ^ {0} \ right \ | _ {{{\ mathcal {F}}}} \ right)

Доказательство леммы о симметризации опирается на введение независимых копий исходных переменных $X i {\ displaystyle X_ {i}}$ $X_ {i}$ (иногда называемый призрачным образцом) и заменяя внутреннее ожидание LHS этими копиями. После применения неравенства Дженсена можно было вводить разные знаки (отсюда и название «симметризация») без изменения математического ожидания. Доказательство можно найти ниже из-за его поучительного характера.

[Доказательство]

Представьте «призрачный образец» $Y 1,…, Y n {\ displaystyle Y_ {1}, \ ldots, Y_ {n}}$ $Y_ {1}, \ ldots, Y_ {n}$ , чтобы быть независимым копии $X 1,…, X n {\ displaystyle X_ {1}, \ ldots, X_ {n}}$ $X_ {1}, \ ldots, X_ {n}$ . Для фиксированных значений $X 1,…, X n {\ displaystyle X_ {1}, \ ldots, X_ {n}}$ $X_ {1}, \ ldots, X_ {n}$ один имеет:

‖ P n - P ‖ F = sup f ∈ F 1 n | ∑ i = 1 n f (X i) - E f (Y i) | ≤ E Y sup f ∈ F 1 n | ∑ я знак равно 1 n f (X i) - f (Y i) | {\ displaystyle \ | \ mathbb {P} _ {n} -P \ | _ {\ mathcal {F}} = \ sup _ {f \ in {\ mathcal {F}}} {\ dfrac {1} {n }} \ left | \ sum _ {i = 1} ^ {n} f (X_ {i}) - \ mathbb {E} f (Y_ {i}) \ right | \ leq \ mathbb {E} _ {Y } \ sup _ {f \ in {\ mathcal {F}}} {\ dfrac {1} {n}} \ left | \ sum _ {i = 1} ^ {n} f (X_ {i}) - f (Y_ {i}) \ right |}

\ | {\ mathbb {P}} _ {n} -P \ | _ {{{\ mathcal {F}}}} = \ sup _ {{f \ in {\ mathcal {F}} }} {\ dfrac {1} {n}} \ left | \ sum _ {{i = 1}} ^ {n} f (X_ {i}) - {\ mathbb {E}} f (Y_ {i}) \ right | \ leq {\ mathbb {E}} _ {{Y}} \ sup _ {{f \ in {\ mathcal {F}}}} {\ dfrac {1} {n}} \ left | \ сумма _ {{i = 1}} ^ {n} f (X_ {i}) - f (Y_ {i}) \ right |

Следовательно, по неравенству Йенсена :

Φ (‖ P n - P ‖ F) ≤ EY Φ (‖ 1 n ∑ i = 1 nf (X i) - е (Y я) ‖ F) {\ Displaystyle \ Phi (\ | \ mathbb {P} _ {n} -P \ | _ {\ mathcal {F}}) \ leq \ mathbb {E} _ {Y} \ Phi \ left (\ left \ | {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} f (X_ {i}) - f (Y_ {i}) \ right \ | _ {\ mathcal {F}} \ right)}

\ Phi (\ | {\ mathbb {P}} _ {n} -P \ | _ {{{\ mathcal {F}}}}) \ leq {\ mathbb {E}} _ {{Y}} \ Phi \ left (\ left \ | {\ dfrac {1} {n}} \ sum _ {{i = 1}} ^ {n} f (X_ {i}) - f (Y_ {i}) \ right \ | _ {{{\ mathcal {F}}}} \ right)

Принятие математического ожидания относительно $X {\ displaystyle X}$ $X$ дает:

E Φ (‖ P n - P ‖ F) ≤ EXEY Φ (‖ 1 N ∑ я знак равно 1 NF (X я) - е (Y я) ‖ F) {\ Displaystyle \ mathbb {E} \ Phi (\ | \ mathbb {P} _ {п} -P \ | _ {\ mathcal {F}}) \ leq \ mathbb {E} _ {X} \ mathbb {E} _ {Y} \ Phi \ left (\ left \ | {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} f (X_ {i}) - f (Y_ {i}) \ right \ | _ {\ mathcal {F}} \ right)}

{\ mathbb {E}} \ Phi (\ | {\ mathbb {P}} _ {n} -P \ | _ {{{\ mathcal {F}}}}) \ leq {\ mathbb {E}} _ {{X}} {\ mathbb {E}} _ {{Y}} \ Phi \ left (\ left \ | {\ dfrac {1} {n}} \ sum _ {{i = 1}} ^ {n} f (X_ {i}) - f (Y_ {i}) \ right \ | _ {{{\ mathcal {F}}}} \ right)

Обратите внимание, что добавление знак минус перед членом $f (X i) - f (Y i) {\ displaystyle f (X_ {i}) - f (Y_ {i})}$ $f (X_ {i}) - f (Y_ {i})$ не меняет правую часть, потому что это симметричная функция от $X { \ displaystyle X}$ $X$ и $Y {\ displaystyle Y}$ $Y$ . Таким образом, RHS остается неизменным при «возмущении знака»:

E Φ (‖ 1 n ∑ i = 1 nei (f (X i) - f (Y i)) ‖ F) {\ displaystyle \ mathbb {E } \ Phi \ left (\ left \ | {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} e_ {i} \ left (f (X_ {i}) - f (Y_ {i}) \ right) \ right \ | _ {\ mathcal {F}} \ right)}

{\ displaystyle \ mathbb {E} \ Phi \ left (\ left \ | {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} e_ {i} \ left (f (X_ {i}) -f (Y_ {i}) \ right) \ right \ | _ {\ mathcal {F}} \ right)}

для любого $(e 1, e 2,…, en) ∈ {- 1, 1} n {\ displaystyle (e_ {1}, e_ {2}, \ ldots, e_ {n}) \ in \ {- 1,1 \} ^ {n}}$ $(e_ {1}, e_ {2}, \ ldots, e_ {n}) \ in \ {- 1,1 \} ^ {n}$ . Следовательно:

E Φ (‖ P n - P ‖ F) ≤ E ε E Φ (‖ 1 n ∑ i = 1 n ε i (f (X i) - f (Y i)) ‖ F) {\ displaystyle \ mathbb {E} \ Phi (\ | \ mathbb {P} _ {n} -P \ | _ {\ mathcal {F}}) \ leq \ mathbb {E} _ {\ varepsilon} \ mathbb {E} \ Phi \ left (\ left \ | {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} \ varepsilon _ {i} \ left (f (X_ {i}) - f ( Y_ {i}) \ right) \ right \ | _ {\ mathcal {F}} \ right)}

{\ displaystyle \ mathbb {E} \ Phi (\ | \ mathbb {P} _ {n} -P \ | _ {\ mathcal {F}}) \ leq \ mathbb {E } _ {\ varepsilon} \ mathbb {E} \ Phi \ left (\ left \ | {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} \ varepsilon _ {i} \ left (f (X_ {i}) - f (Y_ {i}) \ right) \ right \ | _ {\ mathcal {F}} \ right)}

Наконец, используя сначала неравенство треугольника, а затем выпуклость $Φ {\ displaystyle \ Phi}$ $\ Phi$ дает:

E Φ (‖ P n - P ‖ F) ≤ 1 2 E ε E Φ (2 ‖ 1 n ∑ i = 1 n ε, если (X i) ‖ F) + 1 2 E ε E Φ (2 ‖ 1 N ∑ я знак равно 1 N ε, если (Y я) ‖ F) {\ Displaystyle \ mathbb {E} \ Phi (\ | \ mathbb {P} _ {n} -P \ | _ {\ mathcal {F}}) \ leq {\ dfrac {1} {2}} \ mathbb {E} _ {\ varepsilon} \ mathbb {E} \ Phi \ left (2 \ left \ | {\ dfrac {1} {n }} \ sum _ {i = 1} ^ {n} \ varepsilon _ {i} f (X_ {i}) \ right \ | _ {\ mathcal {F}} \ right) + {\ dfrac {1} { 2}} \ mathbb {E} _ {\ varepsilon} \ mathbb {E} \ Phi \ left (2 \ left \ | {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} \ varepsilon _ {i} f (Y_ {i}) \ right \ | _ {\ mathcal {F}} \ right)}

{\ mathbb {E}} \ Phi (\ | {\ mathbb {P}} _ {n} -P \ | _ {{{\ mathcal {F}}}}) \ leq {\ dfrac {1} {2}} {\ mathbb {E}} _ {{\ varepsilon}} {\ mathbb {E}} \ Phi \ left (2 \ left \ | {\ dfrac {1} {n }} \ sum _ {{i = 1}} ^ {n} \ varepsilon _ {i} f (X_ {i}) \ right \ | _ {{{\ mathcal {F}}}} \ right) + { \ dfrac {1} {2}} {\ mathbb {E}} _ {{\ varepsilon}} {\ mathbb {E}} \ Phi \ left (2 \ left \ | {\ dfrac {1} {n}} \ sum _ {{i = 1}} ^ {n} \ varepsilon _ {i} f (Y_ {i}) \ right \ | _ {{{\ mathcal {F}}}} \ right)

Где l Два выражения справа совпадают, что завершает доказательство.

Типичный способ доказательства эмпирических CLT: сначала используется симметризация для передачи эмпирического процесса на $P n 0 {\ displaystyle \ mathbb {P} _ {n} ^ {0}}$ ${\ mathbb {P}} _ {n} ^ {0}$ и затем аргументируйте условно данные, используя тот факт, что процессы Радемахера - это простые процессы с хорошими свойствами.

VC Connection

Оказывается, существует увлекательная связь между некоторыми комбинаторными свойствами набора $F {\ displaystyle {\ mathcal {F}}}$ ${\ mathcal {F}}$ и энтропийные числа. Равномерные числа покрытия можно контролировать с помощью понятия классов множеств Вапника-Червоненкиса - или сокращенно VC множеств.

Рассмотрим коллекцию $C {\ displaystyle {\ mathcal {C}}}$ ${\ mathcal {C}}$ подмножеств выборочного пространства $X {\ displaystyle {\ mathcal {X}} }$ ${\ mathcal { X}}$ . $C {\ displaystyle {\ mathcal {C}}}$ ${\ mathcal {C}}$ , как говорят, выбирает определенное подмножество $W {\ displaystyle W}$ $W$ из конечного множества $S = {x 1,…, xn} ⊂ X {\ displaystyle S = \ {x_ {1}, \ ldots, x_ {n} \} \ subset {\ mathcal {X}}}$ $S = \ {x_ {1}, \ ldots, x_ {n} \} \ subset {\ mathcal {X}}$ если $W = S ∩ C {\ displaystyle W = S \ cap C}$ ${\ displaystyle W = S \ cap C}$ для некоторых $C ∈ C {\ displaystyle C \ in {\ mathcal {C}}}$ $C \ in {\ mathcal {C}}$ . $C {\ displaystyle {\ mathcal {C}}}$ ${\ mathcal {C}}$ , как говорят, разрушает S, если выбирает каждое из двух его подмножеств. VC-индекс (аналогично размерности VC + 1 для правильно выбранного набора классификаторов) $V (C) {\ displaystyle V ({\ mathcal {C}})}$ $V ({\ mathcal {C}})$ из $C {\ displaystyle {\ mathcal {C}}}$ ${\ mathcal {C}}$ - наименьшее n, для которого ни один набор размера n не разбивается на $C {\ displaystyle {\ mathcal {C} }}$ ${\ mathcal {C}}$ .

лемма Зауэра затем утверждает, что число $Δ n (C, x 1,…, xn) {\ displaystyle \ Delta _ {n} ({\ mathcal {C}}, x_ { 1}, \ ldots, x_ {n})}$ $\ Delta _ {n} ({\ mathcal {C}}, x_ {1}, \ ldots, x_ {n})$ подмножеств, выбранных VC-классом $C {\ displaystyle {\ mathcal {C}}}$ ${\ mathcal {C}}$ удовлетворяет:

max x 1,…, xn Δ n (C, x 1,…, xn) ≤ ∑ j = 0 V (C) - 1 (nj) ≤ (ne V (C) - 1) V (C) - 1 {\ displaystyle \ max _ {x_ {1}, \ ldots, x_ {n}} \ Delta _ {n} ({\ mathcal {C}}, x_ {1}, \ ldots, x_ {n}) \ leq \ sum _ {j = 0} ^ {V ({\ mathcal {C}}) - 1} {n \ choose j} \ leq \ left ({\ frac {ne} {V ({\ mathcal {C }}) - 1}} \ right) ^ {V ({\ mathcal {C}}) - 1}}

\ max _ {{x_ { 1}, \ ldots, x_ {n}}} \ Delta _ {n} ({\ mathcal {C}}, x_ {1}, \ ldots, x_ {n}) \ leq \ sum _ {{j = 0 }} ^ {{V ({\ mathcal {C}}) - 1}} {n \ choose j} \ leq \ left ({\ frac {ne} {V ({\ mathcal {C}}) - 1} } \ right) ^ {{V ({\ mathcal {C}}) - 1}}

Это полиномиальное число $O (n V (C) - 1) {\ displaystyle O (n ^ {V ({\ mathcal {C}}) - 1})}$ $O (n ^ {{V ({\ mathcal {C}) }) - 1}})$ подписок ets, а не экспоненциальное число. Интуитивно это означает, что конечный VC-индекс подразумевает, что $C {\ displaystyle {\ mathcal {C}}}$ ${\ mathcal {C}}$ имеет очевидную упрощенную структуру.

Аналогичная граница может быть показана (с другой постоянной, той же скоростью) для так называемых классов подграфов VC. Для функции $f: X → R {\ displaystyle f: {\ mathcal {X}} \ to \ mathbf {R}}$ $f: {\ mathcal {X}} \ to {\ mathbf {R}}$ подграф является подмножеством $X × R {\ displaystyle {\ mathcal {X}} \ times \ mathbf {R}}$ ${\ mathcal {X}} \ times {\ mathbf {R}}$ такой, что: ${(x, t): t < f ( x) } {\displaystyle \{(x,t):t$ $\ {(x, t): t <f (x) \}$ . Коллекция $F {\ displaystyle {\ mathcal {F}}}$ ${\ mathcal {F}}$ называется классом подграфа VC, если все подграфы образуют VC-класс.

Рассмотрим набор индикаторных функций $IC = {1 C: C ∈ C} {\ displaystyle {\ mathcal {I}} _ {\ mathcal {C}} = \ {1_ {C} : C \ in {\ mathcal {C}} \}}$ ${\mathcal {I}}_ {{{\mathcal {C}}}}=\{1_{C}:C\in {\mathcal {C}}\}$ in $L 1 (Q) {\ displaystyle L_ {1} (Q)}$ $L_{1}(Q)$ для дискретного эмпирического типа меры Q (или, что то же самое, для любой вероятностной меры Q). Затем можно показать, что весьма примечательно, что для $r ≥ 1 {\ displaystyle r \ geq 1}$ $r \ geq 1$ :

N (ε, IC, L r (Q)) ≤ KV (C) (4 e) V ( С) ε - р (В (С) - 1) {\ Displaystyle N (\ varepsilon, {\ mathcal {I}} _ {\ mathcal {C}}, L_ {r} (Q)) \ leq KV ({ \ mathcal {C}}) (4e) ^ {V ({\ mathcal {C}})} \ varepsilon ^ {- r (V ({\ mathcal {C}}) - 1)}}

N (\ varepsilon, { \ mathcal {I}} _ {{{\ mathcal {C}}}}, L_ {r} (Q)) \ leq KV ({\ mathcal {C}}) (4e) ^ {{V ({\ mathcal {C}})}} \ varepsilon ^ {{- r (V ({\ mathcal {C}}) - 1)}}

Далее рассмотрим симметричная выпуклая оболочка множества $F {\ displaystyle {\ mathcal {F}}}$ ${\ mathcal {F}}$ : $sconv ⁡ F {\ displaystyle \ operatorname {sconv} {\ mathcal {F}}}$ $\ operatorname {sconv} {\ mathcal {F}}$ являясь набором функций вида $∑ я = 1 м α ifi {\ displaystyle \ sum _ {i = 1} ^ {m} \ alpha _ {i} f_ {i}}$ $\ sum _ {{i = 1}} ^ {m} \ alpha _ {i} f_ {i}$ с $∑ i = 1 м | α i | ≤ 1 {\ displaystyle \ sum _ {i = 1} ^ {m} | \ alpha _ {i} | \ leq 1}$ $\ sum _ {{i = 1}} ^ {m} | \ alpha _ {i} | \ leq 1$ . Тогда, если

N (ε ‖ F ‖ Q, 2, F, L 2 (Q)) ≤ C ε - V {\ displaystyle N \ left (\ varepsilon \ | F \ | _ {Q, 2}, { \ mathcal {F}}, L_ {2} (Q) \ right) \ leq C \ varepsilon ^ {- V}}

N \ left (\ varepsilon \ | F \ | _ { {Q, 2}}, {\ mathcal {F}}, L_ {2} (Q) \ right) \ leq C \ varepsilon ^ {{- V}}

следующее верно для выпуклой оболочки $F {\ displaystyle {\ mathcal {F}}}$ ${\ mathcal {F}}$ :

журнал ⁡ N (ε ‖ F ‖ Q, 2, sconv ⁡ F, L 2 (Q)) ≤ K ε - 2 VV + 2 {\ displaystyle \ log N \ left (\ varepsilon \ | F \ | _ {Q, 2}, \ operatorname {sconv} {\ mathcal {F}}, L_ {2} (Q) \ right) \ leq K \ varepsilon ^ {- {\ frac {2V} {V +2}}}}

\ log N \ left (\ varepsilon \ | F \ | _ { {Q, 2}}, \ operatorname {sconv} {\ mathcal {F}}, L_ {2} (Q) \ right) \ leq K \ varepsilon ^ {{- {\ frac {2V} {V + 2} }}}

Важным следствием этого факта является то, что

2 VV + 2>2, {\ displaystyle {\ frac {2V} {V + 2}}>2,}

{\frac {2V}{V+2}}>2,

, который ровно столько, чтобы интеграл энтропии сходился, и поэтому класс $sconv ⁡ F {\ displaystyle \ operatorname {sconv} {\ mathcal {F}}}$ $\ operatorname {sconv} {\ mathcal {F}}$ будет P- Донскер.

Наконец, рассматривается пример класса VC-подграфа. изд. Любое конечномерное векторное пространство $F {\ displaystyle {\ mathcal {F}}}$ ${\ mathcal {F}}$ измеримых функций $f: X → R {\ displaystyle f: {\ mathcal {X}} \ to \ mathbf {R}}$ $f: {\ mathcal {X}} \ to {\ mathbf {R}}$ - это VC-подграф индекса, меньшего или равного $dim ⁡ (F) + 2 {\ displaystyle \ dim ({\ mathcal {F}}) + 2}$ $\dim({\mathcal {F}})+2$ .

[Доказательство]

Возьмите $n = dim ⁡ (F) + 2 {\ displaystyle n = \ dim ({\ mathcal {F}}) + 2}$ $n = \ dim ({\ mathcal {F}}) + 2$ очков. $(x 1, t 1),…, (xn, tn) {\ displaystyle (x_ {1}, t_ {1}), \ ldots, (x_ {n}, t_ {n})}$ $(x_ {1}, t_ {1}), \ ldots, (x_ {n}, t_ {n})$ . Векторы:

(f (x 1),…, f (xn)) - (t 1,…, tn) {\ displaystyle (f (x_ {1}), \ ldots, f (x_ {n}))) - (t_ {1}, \ ldots, t_ {n})}

(f (x_ { 1}), \ ldots, f (x_ {n})) - (t_ {1}, \ ldots, t_ {n})

находятся в - 1-мерном подпространстве R . Возьмем 0 вектор, ортогональный этому подпространству. Следовательно:

∑ ai>0 ai (f (xi) - ti) = ∑ ai < 0 ( − a i) ( f ( x i) − t i), ∀ f ∈ F {\displaystyle \sum _{a_{i}>0} a_ {i} (f (x_ {i}) - t_ {i}) = \ sum _ {a_ {i} <0}(-a_{i})(f(x_{i})-t_{i}),\quad \forall f\in {\mathcal {F}}}

\sum _{{a_{i}>0}} a_ {i} (f (x_ {i}) - t_ {i}) = \ sum _ {{a_ {i} <0}}(-a_{i})(f(x_{i})-t_{i}),\quad \forall f\in {\mathcal {F}}

Рассмотрим набор $S = {( xi, ti): ai>0} {\ displaystyle S = \ {(x_ {i}, t_ {i}): a_ {i}>0 \}}$ $S=\{(x_{i},t_{i}):a_{i}>0 \}$ . Этот набор нельзя выбрать, так как если есть какие-то $f {\ displaystyle f}$ $f$ такой, что $S = {(xi, ti): f (xi)>ti} {\ displaystyle S = \ {(x_ {i}, t_ { i}): f (x_ {i})>t_ {i} \}}$ $S=\{(x_{i},t_{i}):f(x_{i})>t_ {i} \}$ , что означает, что LHS строго положительный, а RHS отрицательный.

Существуют обобщения понятия класса подграфа VC, например есть понятие псевдоразмерности. Заинтересованный читатель может заглянуть в.

VC Inequality

Рассматривается аналогичный параметр, который чаще встречается в машинном обучении. Пусть $X {\ displaystyle {\ mathcal {X}}}$ ${\ mathcal { X}}$ - пространство функций, а $Y = {0, 1} {\ displaystyle {\ mathcal {Y}} = \ { 0,1 \}}$ ${\ mathcal {Y}} = \ {0,1 \}$ . Функция $f: X → Y {\ displaystyle f: {\ mathcal {X}} \ to {\ mathcal {Y}}}$ $f: {\ mathcal {X}} \ to {\ mathcal {Y}}$ называется классификатором. Пусть $F {\ displaystyle {\ mathcal {F}}}$ ${\ mathcal {F}}$ будет набором классификаторов. Аналогично предыдущему разделу определите коэффициент разрушения (также известный как функция роста):

S (F, n) = max x 1,…, x n | {(f (x 1),…, f (x n)), f ∈ F} | {\ displaystyle S ({\ mathcal {F}}, n) = \ max _ {x_ {1}, \ ldots, x_ {n}} | \ {(f (x_ {1}), \ ldots, f ( x_ {n})), f \ in {\ mathcal {F}} \} |}

S({\mathcal {F}},n)= \max _{{x_{1},\ldots,x_{n}}}|\{(f(x_{1}),\ldots,f(x_{n})),f\in {\mathcal { F}}\}|

Обратите внимание, что здесь существует 1: 1 переход между каждой из функций в $F {\ displaystyle {\ mathcal {F}}}$ ${\ mathcal {F}}$ и набор, на котором функция равна 1. Таким образом, мы можем определить $C {\ displaystyle {\ mathcal {C}}}$ ${\ mathcal {C}}$ как коллекцию подмножеств, полученных из приведенного выше отображения для каждого $f ∈ F {\ displaystyle f \ in {\ mathcal {F}}}$ ${\ displaystyle f \ in {\ mathcal {F}}}$ . Следовательно, в терминах предыдущего раздела коэффициент разрушения точно равен

max x 1,…, xn Δ n (C, x 1,…, xn) {\ displaystyle \ max _ {x_ {1}, \ ldots, x_ {n}} \ Delta _ {n} ({\ mathcal {C}}, x_ {1}, \ ldots, x_ {n})}

\ max _ {{x_ {1}, \ ldots, x_ {n}}} \ Delta _ {n} ({\ mathcal {C}}, x_ {1}, \ ldots, x_ {n })

Из этой эквивалентности вместе с леммой Зауэра следует что $S (F, n) {\ displaystyle S ({\ mathcal {F}}, n)}$ $S ({\ mathcal {F}}, n)$ будет полиномиальным от n для достаточно большого n при условии, что коллекция $C {\ displaystyle {\ mathcal {C}}}$ ${\ mathcal {C}}$ имеет конечный VC-индекс.

Пусть $D n = {(X 1, Y 1),…, (X n, Y m)} {\ displaystyle D_ {n} = \ {(X_ {1}, Y_ { 1}), \ ldots, (X_ {n}, Y_ {m}) \}}$ $D_ {n} = \ {(X_ {1}, Y_ {1}), \ ldots, (X_ {n}, Y_ {m}) \}$ - наблюдаемый набор данных. Предположим, что данные созданы с помощью неизвестного распределения вероятностей $P X Y {\ displaystyle P_ {XY}}$ $P_{{XY}}$ . Определите $R (f) = P (f (X) ≠ Y) {\ displaystyle R (f) = P (f (X) \ neq Y)}$ $R (f) = П (е (Х) \ neq Y)$ как ожидаемое 0/1 проигрыш. Конечно, поскольку $PXY {\ displaystyle P_ {XY}}$ $P_{{XY}}$ вообще неизвестен, никто не имеет доступа к $R (f) {\ displaystyle R (f)}$ $R (f)$ . Однако эмпирический риск, определяемый по формуле:

R ^ n (f) = 1 n ∑ i = 1 n I (f (X i) ≠ Y i) {\ displaystyle {\ hat {R}} _ {n} (f) = {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} \ mathbb {I} (f (X_ {i}) \ neq Y_ {i})}

{\ displaystyle {\ hat {R}} _ {n} (f) = {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} \ mathbb {I} (f (X_ {i}) \ neq Y_ {i})}

конечно можно оценить. Тогда справедлива следующая Теорема:

Теорема (VC Inequality)

Для двоичной классификации и функции потерь 0/1 мы имеем следующие границы обобщения:

P (sup f ∈ F | R ^ n (f) - R (f) |>ε) ≤ 8 S (F, n) e - n ε 2/32 E [sup f ∈ F | R ^ n (f) - R (f) | ] ≤ 2 журнал ⁡ S (F, n) + журнал ⁡ 2 N {\ Displaystyle {\ begin {align} P \ left (\ sup _ {f \ in {\ mathcal {F}}} \ left | {\ hat {R}} _ {n} (f) -R (f) \ right |>\ varepsilon \ right) \ leq 8S ({\ mathcal {F}}, n) e ^ {- n \ varepsilon ^ {2 } / 32} \\\ mathbb {E} \ left [\ sup _ {f \ in {\ mathcal {F}}} \ left | {\ hat {R}} _ {n} (f) -R (f) \ right | \ right] \ leq 2 {\ sqrt {\ dfrac {\ log S ({\ mathcal {F}}, n) + \ log 2} {n}}} \ end {align}}}

{\begin{aligned}P\left(\sup _{{f\in {\mathcal {F}}}}\left|{\hat {R}}_{n}(f)-R(f)\right|>\ varepsilon \ right) \ leq 8S ({\ mathcal {F}}, n) e ^ {{- n \ varepsilon ^ {2} / 32}} \\ {\ mathbb {E}} \ left [\ sup _ {{f \ in {\ mathcal {F}}}} \ left | {\ hat {R}} _ {n} (f) -R (f) \ right | \ right] \ leq 2 {\ sqrt {{\ dfrac {\ log S ({\ mathcal {F}}, n) + \ log 2} {n}}}} \ end {align}}

На словах неравенство VC говорит, что по мере увеличения выборки при условии, что $F {\ displaystyle {\ mathcal {F}}}$ ${\ mathcal {F}}$ имеет конечное измерение VC, эмпирический риск 0/1 становится хорошим показателем ожидаемого риска 0/1. N Обратите внимание, что обе правые части двух неравенств будут сходиться к 0, при условии, что $S (F, n) {\ displaystyle S ({\ mathcal {F}}, n)}$ $S ({\ mathcal {F}}, n)$ полиномиально возрастает от n.

Связь между этой структурой и структурой эмпирического процесса очевидна. Здесь мы имеем дело с модифицированным эмпирическим процессом

| R ^ n - R | F {\ displaystyle \ left | {\ hat {R}} _ {n} -R \ right | _ {\ mathcal {F}}}

\ left | {\ hat {R}} _ { n} -R \ right | _ {{{\ mathcal {F}}}}

, но неудивительно, что идеи те же. Доказательство неравенства ВК (первая часть) основывается на симметризации, а затем на условных аргументах на основе данных с использованием неравенств концентрации (в частности, неравенства Хёффдинга ). Заинтересованный читатель может проверить книгу Теоремы 12.4 и 12.5.

Литература

^Вапник, Владимир N (2000). Природа статистической теории обучения. Информатика и статистика. Спрингер-Верлаг. ISBN 978-0-387-98780-4.
Вапник, Владимир N (1989). Статистическая теория обучения. Wiley-Interscience. ISBN 978-0-471-03003-4.
^ван дер Ваарт, Аад В. ; Веллнер, Джон А. (2000). Слабая конвергенция и эмпирические процессы: с приложениями к статистике (2-е изд.). Springer. ISBN 978-0-387-94640-5.
^Gyorfi, L.; Devroye, L.; Лугоши, Г. (1996). Вероятностная теория распознавания образов (1-е изд.). Springer. ISBN 978-0387946184.
См. Ссылки в статьях: Ричард М. Дадли, эмпирические процессы, Разрушенное множество.
^Поллард, Дэвид (1990). Эмпирические процессы: теория и приложения. Серия региональных конференций NSF-CBMS по вероятности и статистике, том 2. ISBN 978-0-940600-16-4.
Bousquet, O.; Boucheron, S.; Лугоши, Г. (2004). «Введение в статистическую теорию обучения». У О. Буске; У. фон Люксбург; Г. Ратч (ред.). Расширенные лекции по машинному обучению. Конспект лекций по искусственному интеллекту. 3176 . Springer. С. 169–207.
Вапник, В.; Червоненкис, А. (2004). «О равномерной сходимости относительных частот событий к их вероятностям». Теория вероятн. Appl. 16 (2): 264–280. doi :10.1137/1116025.