Теория Вапника – Червоненкиса

редактировать
Раздел статистической теории вычислительного обучения

Теория Вапника – Червоненкиса (также известная как теория ВК ) был разработан в 1960–1990 гг. Владимиром Вапником и Алексеем Червоненкисом. Теория представляет собой форму теории вычислительного обучения, которая пытается объяснить процесс обучения со статистической точки зрения.

Теория ВК связана с теорией статистического обучения и с эмпирическими процессами. Ричард М. Дадли и Владимир Вапник, среди прочего, применили теорию VC к эмпирическим процессам.

Содержание
  • 1 Введение
  • 2 Обзор VC теория в эмпирических процессах
    • 2.1 Предпосылки к эмпирическим процессам
    • 2.2 Симметризация
    • 2.3 Связь VC
  • 3 Неравенство VC
    • 3.1 Теорема (Неравенство VC)
  • 4 Ссылки
Введение

Теория VC охватывает как минимум четыре части (как объясняется в разделе «Природа статистической теории обучения»):

  • Теория согласованности процессов обучения
  • Неасимптотическая теория скорости конвергенции процессов обучения
    • Насколько высока скорость конвергенции обучения процесс?
  • Теория управления обобщающей способностью процессов обучения
    • Как можно контролировать скорость сходимости (обобщение способности) процесса обучения?
  • Теория построения обучающихся машин
    • Как можно построить алгоритмы, которые могут управлять способностью к обобщению?

Теория VC является основной ветвью статистического обучения теория. Одним из его основных приложений в теории статистического обучения является обеспечение условий обобщения для алгоритмов обучения. С этой точки зрения теория ВК связана с стабильностью, которая представляет собой альтернативный подход для характеристики обобщения.

Кроме того, теория VC и измерение VC играют важную роль в теории эмпирических процессов в случае процессов, индексированных классами VC. Возможно, это наиболее важные приложения теории ВК, которые используются для доказательства обобщения. Будут представлены несколько методов, которые широко используются в эмпирическом процессе и теории ВК. Обсуждение в основном основано на книге «Слабая конвергенция и эмпирические процессы: с приложениями к статистике».

Обзор теории VC в эмпирических процессах

Предпосылки к эмпирическим процессам

Пусть Икс 1,…, Икс n {\ displaystyle X_ {1}, \ ldots, X_ {n}}X_1, \ ldots, X_n быть случайными элементами, определенными на измеримом пространстве (X, A) {\ displaystyle ({\ mathcal {X}}, {\ mathcal {A}})}({\ mathcal {X}}, {\ mathcal {A}}) . Для любой меры Q {\ displaystyle Q}Q на (X, A) {\ displaystyle ({\ mathcal {X}}, {\ mathcal {A}})}({\ mathcal {X}}, {\ mathcal {A}}) и любые измеримые функции f: X → R {\ displaystyle f: {\ mathcal {X}} \ to \ mathbf {R}}f: {\ mathcal {X}} \ to {\ mathbf {R}} , определяют

Q f = ∫ fd Q {\ displaystyle Qf = \ int fdQ}Qf = \ int fdQ

Проблемы с измеримостью здесь будут проигнорированы, для получения более подробной технической информации см. Пусть F {\ displaystyle {\ mathcal {F}}}{\ mathcal {F}} будет классом измеримых функций f: X → R {\ displaystyle f: {\ mathcal {X}} \ to \ mathbf {R}}f: {\ mathcal {X}} \ to {\ mathbf {R}} и определите:

‖ Q ‖ F = sup {| Q f | : f ∈ F}. {\ displaystyle \ | Q \ | _ {\ mathcal {F}} = \ sup \ {\ vert Qf \ vert \: \ f \ in {\ mathcal {F}} \}.}\ | Q \ | _ {{\ mathcal {F}}}} = \ sup \ {\ vert Qf \ vert \: \ f \ in {\ mathcal {F}} \}.

Определите эмпирическую меру

п N знак равно N - 1 ∑ я знак равно 1 N δ Икс я, {\ Displaystyle \ mathbb {P} _ {п} = п ^ {- 1} \ сумма _ {я = 1} ^ {п} \ delta _ {X_ {i}},}{\mathbb {P}}_{n}=n^{{-1}}\sum _{{i=1} }^{n}\delta _{{X_{i}}},

где δ здесь обозначает меру Дирака. Эмпирическая мера индуцирует отображение F → R {\ displaystyle {\ mathcal {F}} \ to \ mathbf {R}}{\ mathcal {F}} \ to {\ mathbf {R} } , заданное по формуле:

f ↦ P nf = 1 n ( е (Икс 1) +... + е (Икс n)) {\ Displaystyle f \ mapsto \ mathbb {P} _ {n} f = {\ frac {1} {n}} (f (X_ {1}) +... + f (X_ {n}))}{\ displaystyle f \ mapsto \ mathbb {P} _ {n} f = {\ frac {1} {n }} (f (X_ {1}) +... + f (X_ {n}))}

Теперь предположим, что P является лежащим в основе истинным распределением данных, которое неизвестно. Теория эмпирических процессов направлена ​​на определение классов F {\ displaystyle {\ mathcal {F}}}{\ mathcal {F}} , для которых справедливы такие утверждения, как следующее:

То есть при n → ∞ {\ displaystyle n \ to \ infty}n \ to \ infty ,

| 1 n (f (X 1) +... + F (X n)) - ∫ f d P | → 0 {\ displaystyle \ left | {\ frac {1} {n}} (f (X_ {1}) +... + f (X_ {n})) - \ int fdP \ right | \ to 0}{\ displaystyle \ left | { \ frac {1} {n}} (f (X_ {1}) +... + f (X_ {n})) - \ int fdP \ right | \ to 0}

равномерно для всех f ∈ F {\ displaystyle f \ in {\ mathcal {F}}}f \ in {\ mathcal {F}} .
G n = n (P n - P) ⇝ G в ℓ ∞ (F) {\ displaystyle \ mathbb {G} _ {n} = {\ sqrt {n}} (\ mathbb {P} _ {n} -P) \ rightsquigarrow \ mathbb {G}, \ quad {\ text {in}} \ ell ^ {\ infty} ({\ mathcal {F}})}{\ mathbb {G}} _ {n} = {\ sqrt {n}} ({\ mathbb {P}} _ {n} -P) \ rightsquigarrow { \ mathbb {G}}, \ quad {\ text {in}} \ ell ^ {{\ infty}} ({\ mathcal {F}})

В первом случае F {\ displaystyle {\ mathcal {F}}}{\ mathcal {F}} называется классом Гливенко-Кантелли, а в последнем случае (в предположении ∀ x, sup f ∈ F | f (x) - P f | < ∞ {\displaystyle \forall x,\sup \nolimits _{f\in {\mathcal {F}}}\vert f(x)-Pf\vert <\infty }\ forall x, \ sup \ noli mits _ {{f \ in {\ mathcal {F}}}} \ vert f (x) -Pf \ vert <\ infty ) класс F {\ displaystyle {\ mathcal {F}}}{\ mathcal {F}} называется Донскером или П-Донскером. Класс Донскера является вероятностным по Гливенко-Кантелли в результате применения теоремы Слуцкого.

Эти утверждения верны для одного f {\ displaystyle f}f по стандарту LLN., CLT аргументы в условиях регулярности, и трудность эмпирических процессов возникает из-за того, что совместные утверждения делаются для всех f ∈ F {\ displaystyle f \ in {\ mathcal {F }}}f \ in {\ mathcal {F}} . Тогда интуитивно понятно, что набор F {\ displaystyle {\ mathcal {F}}}{\ mathcal {F}} не может быть слишком большим, и, как оказывается, геометрия F {\ displaystyle {\ mathcal {F}}}{\ mathcal {F}} играет очень важную роль.

Одним из способов измерения размера набора функций F {\ displaystyle {\ mathcal {F}}}{\ mathcal {F}} является использование так называемых покрывающих чисел. Покрывающее число

N (ε, F, ‖ ⋅ ‖) {\ displaystyle N (\ varepsilon, {\ mathcal {F}}, \ | \ cdot \ |)}N (\ varepsilon, {\ mathcal {F}}, \ | \ cdot \ |)

- минимальное количество шаров {g: ‖ g - f ‖ < ε } {\displaystyle \{g:\|g-f\|<\varepsilon \}}\ { g: \ | gf \ | <\ vare псилон \} необходимо для покрытия множества F {\ displaystyle {\ mathcal {F}}}{\ mathcal {F}} (здесь, очевидно, предполагается, что там является базовой нормой для F {\ displaystyle {\ mathcal {F}}}{\ mathcal {F}} ). Энтропия - это логарифм числа покрытия.

Ниже приведены два достаточных условия, при которых можно доказать, что множество F {\ displaystyle {\ mathcal {F}}}{\ mathcal {F}} является Гливенко-Кантелли или Донскером.

Класс F {\ displaystyle {\ mathcal {F}}}{\ mathcal {F}} является P-Гливенко-Кантелли, если он P-измерим с огибающей F такой, что P ∗ F < ∞ {\displaystyle P^{\ast }F<\infty }P ^ {{\ ast}} F <\ infty и удовлетворяет:

∀ ε>0 sup QN (ε ‖ F ‖ Q, F, L 1 (Q)) < ∞. {\displaystyle \forall \varepsilon>0 \ quad \ sup \ nolimits _ {Q} N (\ varepsilon \ | F \ | _ {Q}, {\ mathcal {F}}, L_ {1} (Q)) <\infty.}\forall \varepsilon>0 \ quad \ sup \ nolimits _ {{Q}} N (\ varepsilon \ | F \ | _ {Q}, {\ mathcal {F}}, L_ {1} (Q)) <\infty.

Следующее условие является версией знаменитой теоремы Дадли. Если F {\ displaystyle {\ mathcal {F}}}{\ mathcal {F}} - класс функций, таких что

∫ 0 ∞ sup Q log ⁡ N (ε ‖ F ‖ Q, 2, F, L 2 (Q)) d ε < ∞ {\displaystyle \int _{0}^{\infty }\sup \nolimits _{Q}{\sqrt {\log N\left(\varepsilon \|F\|_{Q,2},{\mathcal {F}},L_{2}(Q)\right)}}d\varepsilon <\infty }\ int _ {0} ^ {{\ infty}} \ sup \ nolimits _ {{Q}} {\ sqrt {\ log N \ left (\ varepsilon \ | F \ | _ {{Q, 2}}, {\ mathcal {F}}, L_ {2} (Q) \ right)}} d \ varepsilon <\ infty

, тогда F {\ displaystyle {\ mathcal {F}}}{\ mathcal {F}} является P-Донскером для любой вероятностной меры P такой, что P ∗ F 2 < ∞ {\displaystyle P^{\ast }F^{2}<\infty }P^{{\ast }}F^{2}<\infty . В последнем интеграле обозначение означает

‖ е ‖ Q, 2 = (∫ | f | 2 d Q) 1 2 {\ displaystyle \ | f \ | _ {Q, 2} = \ left (\ int | f | ^ {2} dQ \ right) ^ {\ frac {1} {2}}}\ | f \ | _ {{ Q, 2}} = \ left (\ int | f | ^ {2} dQ \ right) ^ {{{\ frac {1} {2}}}} .

Симметризация

Большинство аргументов о том, как ограничить эмпирический процесс, основаны на симметризации, максимальном и неравенство концентраций и цепочки. Симметризация обычно является первым шагом доказательств, и, поскольку она используется во многих доказательствах машинного обучения для ограничения эмпирических функций потерь (включая доказательство неравенства ВК, которое обсуждается в следующем разделе), она представлена ​​здесь.

Рассмотрим эмпирический процесс:

f ↦ (P n - P) f = 1 n ∑ i = 1 n (f (X i) - P f) {\ displaystyle f \ mapsto (\ mathbb {P} _ {n} -P) f = {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} (f (X_ {i}) - Pf)}f \ mapsto ({\ mathbb {P}} _ { n} -P) f = {\ dfrac {1} {n}} \ sum _ {{i = 1}} ^ {n} (f (X_ {i}) - Pf)

Оборотов выясняется, что существует связь между эмпирическим и следующим симметризованным процессом:

f ↦ P n 0 f = 1 n ∑ i = 1 n ε if (X i) {\ displaystyle f \ mapsto \ mathbb {P} _ {n} ^ {0} f = {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} \ varepsilon _ {i} f (X_ {i})}{\ displaystyle f \ mapsto \ mathbb {P} _ {n} ^ { 0} f = {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} \ varepsilon _ {i} f (X_ {i})}

Симметризованный Процесс - это процесс Радемахера, при условии, что данные X i {\ displaystyle X_ {i}}X_i . Следовательно, это субгауссов процесс по неравенству Хёффдинга.

Лемма (Симметризация). Для любого неубывающего выпуклого Φ: R→ Rи класса измеримых функций F {\ displaystyle {\ mathcal {F}}}{\ mathcal {F}} ,

E Φ (‖ P n - P ‖ F) ≤ E Φ (2 ‖ P n 0 ‖ F) {\ displaystyle \ mathbb {E} \ Phi (\ | \ mathbb {P} _ {n} -P \ | _ {\ mathcal {F}}) \ leq \ mathbb {E} \ Phi \ left (2 \ left \ | \ mathbb {P} _ {n} ^ {0} \ right \ | _ {\ mathcal {F}} \ right)}{\ mathbb {E}} \ Phi (\ | {\ mathbb {P}} _ {n} -P \ | _ {{{\ mathcal {F}}}}) \ leq {\ mathbb {E}} \ Phi \ left (2 \ left \ | {\ mathbb {P}} _ {n} ^ {0} \ right \ | _ {{{\ mathcal {F}}}} \ right)

Доказательство леммы о симметризации опирается на введение независимых копий исходных переменных X i {\ displaystyle X_ {i}}X_ {i} (иногда называемый призрачным образцом) и заменяя внутреннее ожидание LHS этими копиями. После применения неравенства Дженсена можно было вводить разные знаки (отсюда и название «симметризация») без изменения математического ожидания. Доказательство можно найти ниже из-за его поучительного характера.

[Доказательство]

Представьте «призрачный образец» Y 1,…, Y n {\ displaystyle Y_ {1}, \ ldots, Y_ {n}}Y_ {1}, \ ldots, Y_ {n} , чтобы быть независимым копии X 1,…, X n {\ displaystyle X_ {1}, \ ldots, X_ {n}}X_ {1}, \ ldots, X_ {n} . Для фиксированных значений X 1,…, X n {\ displaystyle X_ {1}, \ ldots, X_ {n}}X_ {1}, \ ldots, X_ {n} один имеет:

‖ P n - P ‖ F = sup f ∈ F 1 n | ∑ i = 1 n f (X i) - E f (Y i) | ≤ E Y sup f ∈ F 1 n | ∑ я знак равно 1 n f (X i) - f (Y i) | {\ displaystyle \ | \ mathbb {P} _ {n} -P \ | _ {\ mathcal {F}} = \ sup _ {f \ in {\ mathcal {F}}} {\ dfrac {1} {n }} \ left | \ sum _ {i = 1} ^ {n} f (X_ {i}) - \ mathbb {E} f (Y_ {i}) \ right | \ leq \ mathbb {E} _ {Y } \ sup _ {f \ in {\ mathcal {F}}} {\ dfrac {1} {n}} \ left | \ sum _ {i = 1} ^ {n} f (X_ {i}) - f (Y_ {i}) \ right |}\ | {\ mathbb {P}} _ {n} -P \ | _ {{{\ mathcal {F}}}} = \ sup _ {{f \ in {\ mathcal {F}} }} {\ dfrac {1} {n}} \ left | \ sum _ {{i = 1}} ^ {n} f (X_ {i}) - {\ mathbb {E}} f (Y_ {i}) \ right | \ leq {\ mathbb {E}} _ {{Y}} \ sup _ {{f \ in {\ mathcal {F}}}} {\ dfrac {1} {n}} \ left | \ сумма _ {{i = 1}} ^ {n} f (X_ {i}) - f (Y_ {i}) \ right |

Следовательно, по неравенству Йенсена :

Φ (‖ P n - P ‖ F) ≤ EY Φ (‖ 1 n ∑ i = 1 nf (X i) - е (Y я) ‖ F) {\ Displaystyle \ Phi (\ | \ mathbb {P} _ {n} -P \ | _ {\ mathcal {F}}) \ leq \ mathbb {E} _ {Y} \ Phi \ left (\ left \ | {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} f (X_ {i}) - f (Y_ {i}) \ right \ | _ {\ mathcal {F}} \ right)}\ Phi (\ | {\ mathbb {P}} _ {n} -P \ | _ {{{\ mathcal {F}}}}) \ leq {\ mathbb {E}} _ {{Y}} \ Phi \ left (\ left \ | {\ dfrac {1} {n}} \ sum _ {{i = 1}} ^ {n} f (X_ {i}) - f (Y_ {i}) \ right \ | _ {{{\ mathcal {F}}}} \ right)

Принятие математического ожидания относительно X {\ displaystyle X}X дает:

E Φ (‖ P n - P ‖ F) ≤ EXEY Φ (‖ 1 N ∑ я знак равно 1 NF (X я) - е (Y я) ‖ F) {\ Displaystyle \ mathbb {E} \ Phi (\ | \ mathbb {P} _ {п} -P \ | _ {\ mathcal {F}}) \ leq \ mathbb {E} _ {X} \ mathbb {E} _ {Y} \ Phi \ left (\ left \ | {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} f (X_ {i}) - f (Y_ {i}) \ right \ | _ {\ mathcal {F}} \ right)}{\ mathbb {E}} \ Phi (\ | {\ mathbb {P}} _ {n} -P \ | _ {{{\ mathcal {F}}}}) \ leq {\ mathbb {E}} _ {{X}} {\ mathbb {E}} _ {{Y}} \ Phi \ left (\ left \ | {\ dfrac {1} {n}} \ sum _ {{i = 1}} ^ {n} f (X_ {i}) - f (Y_ {i}) \ right \ | _ {{{\ mathcal {F}}}} \ right)

Обратите внимание, что добавление знак минус перед членом f (X i) - f (Y i) {\ displaystyle f (X_ {i}) - f (Y_ {i})}f (X_ {i}) - f (Y_ {i}) не меняет правую часть, потому что это симметричная функция от X { \ displaystyle X}X и Y {\ displaystyle Y}Y . Таким образом, RHS остается неизменным при «возмущении знака»:

E Φ (‖ 1 n ∑ i = 1 nei (f (X i) - f (Y i)) ‖ F) {\ displaystyle \ mathbb {E } \ Phi \ left (\ left \ | {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} e_ {i} \ left (f (X_ {i}) - f (Y_ {i}) \ right) \ right \ | _ {\ mathcal {F}} \ right)}{\ displaystyle \ mathbb {E} \ Phi \ left (\ left \ | {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} e_ {i} \ left (f (X_ {i}) -f (Y_ {i}) \ right) \ right \ | _ {\ mathcal {F}} \ right)}

для любого (e 1, e 2,…, en) ∈ {- 1, 1} n {\ displaystyle (e_ {1}, e_ {2}, \ ldots, e_ {n}) \ in \ {- 1,1 \} ^ {n}}(e_ {1}, e_ {2}, \ ldots, e_ {n}) \ in \ {- 1,1 \} ^ {n} . Следовательно:

E Φ (‖ P n - P ‖ F) ≤ E ε E Φ (‖ 1 n ∑ i = 1 n ε i (f (X i) - f (Y i)) ‖ F) {\ displaystyle \ mathbb {E} \ Phi (\ | \ mathbb {P} _ {n} -P \ | _ {\ mathcal {F}}) \ leq \ mathbb {E} _ {\ varepsilon} \ mathbb {E} \ Phi \ left (\ left \ | {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} \ varepsilon _ {i} \ left (f (X_ {i}) - f ( Y_ {i}) \ right) \ right \ | _ {\ mathcal {F}} \ right)}{\ displaystyle \ mathbb {E} \ Phi (\ | \ mathbb {P} _ {n} -P \ | _ {\ mathcal {F}}) \ leq \ mathbb {E } _ {\ varepsilon} \ mathbb {E} \ Phi \ left (\ left \ | {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} \ varepsilon _ {i} \ left (f (X_ {i}) - f (Y_ {i}) \ right) \ right \ | _ {\ mathcal {F}} \ right)}

Наконец, используя сначала неравенство треугольника, а затем выпуклость Φ {\ displaystyle \ Phi}\ Phi дает:

E Φ (‖ P n - P ‖ F) ≤ 1 2 E ε E Φ (2 ‖ 1 n ∑ i = 1 n ε, если (X i) ‖ F) + 1 2 E ε E Φ (2 ‖ 1 N ∑ я знак равно 1 N ε, если (Y я) ‖ F) {\ Displaystyle \ mathbb {E} \ Phi (\ | \ mathbb {P} _ {n} -P \ | _ {\ mathcal {F}}) \ leq {\ dfrac {1} {2}} \ mathbb {E} _ {\ varepsilon} \ mathbb {E} \ Phi \ left (2 \ left \ | {\ dfrac {1} {n }} \ sum _ {i = 1} ^ {n} \ varepsilon _ {i} f (X_ {i}) \ right \ | _ {\ mathcal {F}} \ right) + {\ dfrac {1} { 2}} \ mathbb {E} _ {\ varepsilon} \ mathbb {E} \ Phi \ left (2 \ left \ | {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} \ varepsilon _ {i} f (Y_ {i}) \ right \ | _ {\ mathcal {F}} \ right)}{\ mathbb {E}} \ Phi (\ | {\ mathbb {P}} _ {n} -P \ | _ {{{\ mathcal {F}}}}) \ leq {\ dfrac {1} {2}} {\ mathbb {E}} _ {{\ varepsilon}} {\ mathbb {E}} \ Phi \ left (2 \ left \ | {\ dfrac {1} {n }} \ sum _ {{i = 1}} ^ {n} \ varepsilon _ {i} f (X_ {i}) \ right \ | _ {{{\ mathcal {F}}}} \ right) + { \ dfrac {1} {2}} {\ mathbb {E}} _ {{\ varepsilon}} {\ mathbb {E}} \ Phi \ left (2 \ left \ | {\ dfrac {1} {n}} \ sum _ {{i = 1}} ^ {n} \ varepsilon _ {i} f (Y_ {i}) \ right \ | _ {{{\ mathcal {F}}}} \ right)

Где l Два выражения справа совпадают, что завершает доказательство.

Типичный способ доказательства эмпирических CLT: сначала используется симметризация для передачи эмпирического процесса на P n 0 {\ displaystyle \ mathbb {P} _ {n} ^ {0}}{\ mathbb {P}} _ {n} ^ {0} и затем аргументируйте условно данные, используя тот факт, что процессы Радемахера - это простые процессы с хорошими свойствами.

VC Connection

Оказывается, существует увлекательная связь между некоторыми комбинаторными свойствами набора F {\ displaystyle {\ mathcal {F}}}{\ mathcal {F}} и энтропийные числа. Равномерные числа покрытия можно контролировать с помощью понятия классов множеств Вапника-Червоненкиса - или сокращенно VC множеств.

Рассмотрим коллекцию C {\ displaystyle {\ mathcal {C}}}{\ mathcal {C}} подмножеств выборочного пространства X {\ displaystyle {\ mathcal {X}} }{\ mathcal { X}} . C {\ displaystyle {\ mathcal {C}}}{\ mathcal {C}} , как говорят, выбирает определенное подмножество W {\ displaystyle W}W из конечного множества S = {x 1,…, xn} ⊂ X {\ displaystyle S = \ {x_ {1}, \ ldots, x_ {n} \} \ subset {\ mathcal {X}}}S = \ {x_ {1}, \ ldots, x_ {n} \} \ subset {\ mathcal {X}} если W = S ∩ C {\ displaystyle W = S \ cap C}{\ displaystyle W = S \ cap C} для некоторых C ∈ C {\ displaystyle C \ in {\ mathcal {C}}}C \ in {\ mathcal {C}} . C {\ displaystyle {\ mathcal {C}}}{\ mathcal {C}} , как говорят, разрушает S, если выбирает каждое из двух его подмножеств. VC-индекс (аналогично размерности VC + 1 для правильно выбранного набора классификаторов) V (C) {\ displaystyle V ({\ mathcal {C}})}V ({\ mathcal {C}}) из C {\ displaystyle {\ mathcal {C}}}{\ mathcal {C}} - наименьшее n, для которого ни один набор размера n не разбивается на C {\ displaystyle {\ mathcal {C} }}{\ mathcal {C}} .

лемма Зауэра затем утверждает, что число Δ n (C, x 1,…, xn) {\ displaystyle \ Delta _ {n} ({\ mathcal {C}}, x_ { 1}, \ ldots, x_ {n})}\ Delta _ {n} ({\ mathcal {C}}, x_ {1}, \ ldots, x_ {n}) подмножеств, выбранных VC-классом C {\ displaystyle {\ mathcal {C}}}{\ mathcal {C}} удовлетворяет:

max x 1,…, xn Δ n (C, x 1,…, xn) ≤ ∑ j = 0 V (C) - 1 (nj) ≤ (ne V (C) - 1) V (C) - 1 {\ displaystyle \ max _ {x_ {1}, \ ldots, x_ {n}} \ Delta _ {n} ({\ mathcal {C}}, x_ {1}, \ ldots, x_ {n}) \ leq \ sum _ {j = 0} ^ {V ({\ mathcal {C}}) - 1} {n \ choose j} \ leq \ left ({\ frac {ne} {V ({\ mathcal {C }}) - 1}} \ right) ^ {V ({\ mathcal {C}}) - 1}}\ max _ {{x_ { 1}, \ ldots, x_ {n}}} \ Delta _ {n} ({\ mathcal {C}}, x_ {1}, \ ldots, x_ {n}) \ leq \ sum _ {{j = 0 }} ^ {{V ({\ mathcal {C}}) - 1}} {n \ choose j} \ leq \ left ({\ frac {ne} {V ({\ mathcal {C}}) - 1} } \ right) ^ {{V ({\ mathcal {C}}) - 1}}

Это полиномиальное число O (n V (C) - 1) {\ displaystyle O (n ^ {V ({\ mathcal {C}}) - 1})}O (n ^ {{V ({\ mathcal {C}) }) - 1}}) подписок ets, а не экспоненциальное число. Интуитивно это означает, что конечный VC-индекс подразумевает, что C {\ displaystyle {\ mathcal {C}}}{\ mathcal {C}} имеет очевидную упрощенную структуру.

Аналогичная граница может быть показана (с другой постоянной, той же скоростью) для так называемых классов подграфов VC. Для функции f: X → R {\ displaystyle f: {\ mathcal {X}} \ to \ mathbf {R}}f: {\ mathcal {X}} \ to {\ mathbf {R}} подграф является подмножеством X × R {\ displaystyle {\ mathcal {X}} \ times \ mathbf {R}}{\ mathcal {X}} \ times {\ mathbf {R}} такой, что: {(x, t): t < f ( x) } {\displaystyle \{(x,t):t\ {(x, t): t <f (x) \} . Коллекция F {\ displaystyle {\ mathcal {F}}}{\ mathcal {F}} называется классом подграфа VC, если все подграфы образуют VC-класс.

Рассмотрим набор индикаторных функций IC = {1 C: C ∈ C} {\ displaystyle {\ mathcal {I}} _ {\ mathcal {C}} = \ {1_ {C} : C \ in {\ mathcal {C}} \}}{\mathcal {I}}_ {{{\mathcal {C}}}}=\{1_{C}:C\in {\mathcal {C}}\}in L 1 (Q) {\ displaystyle L_ {1} (Q)}L_{1}(Q)для дискретного эмпирического типа меры Q (или, что то же самое, для любой вероятностной меры Q). Затем можно показать, что весьма примечательно, что для r ≥ 1 {\ displaystyle r \ geq 1}r \ geq 1 :

N (ε, IC, L r (Q)) ≤ KV (C) (4 e) V ( С) ε - р (В (С) - 1) {\ Displaystyle N (\ varepsilon, {\ mathcal {I}} _ {\ mathcal {C}}, L_ {r} (Q)) \ leq KV ({ \ mathcal {C}}) (4e) ^ {V ({\ mathcal {C}})} \ varepsilon ^ {- r (V ({\ mathcal {C}}) - 1)}}N (\ varepsilon, { \ mathcal {I}} _ {{{\ mathcal {C}}}}, L_ {r} (Q)) \ leq KV ({\ mathcal {C}}) (4e) ^ {{V ({\ mathcal {C}})}} \ varepsilon ^ {{- r (V ({\ mathcal {C}}) - 1)}}

Далее рассмотрим симметричная выпуклая оболочка множества F {\ displaystyle {\ mathcal {F}}}{\ mathcal {F}} : sconv ⁡ F {\ displaystyle \ operatorname {sconv} {\ mathcal {F}}}\ operatorname {sconv} {\ mathcal {F}} являясь набором функций вида ∑ я = 1 м α ifi {\ displaystyle \ sum _ {i = 1} ^ {m} \ alpha _ {i} f_ {i}}\ sum _ {{i = 1}} ^ {m} \ alpha _ {i} f_ {i} с ∑ i = 1 м | α i | ≤ 1 {\ displaystyle \ sum _ {i = 1} ^ {m} | \ alpha _ {i} | \ leq 1}\ sum _ {{i = 1}} ^ {m} | \ alpha _ {i} | \ leq 1 . Тогда, если

N (ε ‖ F ‖ Q, 2, F, L 2 (Q)) ≤ C ε - V {\ displaystyle N \ left (\ varepsilon \ | F \ | _ {Q, 2}, { \ mathcal {F}}, L_ {2} (Q) \ right) \ leq C \ varepsilon ^ {- V}}N \ left (\ varepsilon \ | F \ | _ { {Q, 2}}, {\ mathcal {F}}, L_ {2} (Q) \ right) \ leq C \ varepsilon ^ {{- V}}

следующее верно для выпуклой оболочки F {\ displaystyle {\ mathcal {F}}}{\ mathcal {F}} :

журнал ⁡ N (ε ‖ F ‖ Q, 2, sconv ⁡ F, L 2 (Q)) ≤ K ε - 2 VV + 2 {\ displaystyle \ log N \ left (\ varepsilon \ | F \ | _ {Q, 2}, \ operatorname {sconv} {\ mathcal {F}}, L_ {2} (Q) \ right) \ leq K \ varepsilon ^ {- {\ frac {2V} {V +2}}}}\ log N \ left (\ varepsilon \ | F \ | _ { {Q, 2}}, \ operatorname {sconv} {\ mathcal {F}}, L_ {2} (Q) \ right) \ leq K \ varepsilon ^ {{- {\ frac {2V} {V + 2} }}}

Важным следствием этого факта является то, что

2 VV + 2>2, {\ displaystyle {\ frac {2V} {V + 2}}>2,}{\frac {2V}{V+2}}>2,

, который ровно столько, чтобы интеграл энтропии сходился, и поэтому класс sconv ⁡ F {\ displaystyle \ operatorname {sconv} {\ mathcal {F}}}\ operatorname {sconv} {\ mathcal {F}} будет P- Донскер.

Наконец, рассматривается пример класса VC-подграфа. изд. Любое конечномерное векторное пространство F {\ displaystyle {\ mathcal {F}}}{\ mathcal {F}} измеримых функций f: X → R {\ displaystyle f: {\ mathcal {X}} \ to \ mathbf {R}}f: {\ mathcal {X}} \ to {\ mathbf {R}} - это VC-подграф индекса, меньшего или равного dim ⁡ (F) + 2 {\ displaystyle \ dim ({\ mathcal {F}}) + 2}\dim({\mathcal {F}})+2.

[Доказательство]

Возьмите n = dim ⁡ (F) + 2 {\ displaystyle n = \ dim ({\ mathcal {F}}) + 2}n = \ dim ({\ mathcal {F}}) + 2 очков. (x 1, t 1),…, (xn, tn) {\ displaystyle (x_ {1}, t_ {1}), \ ldots, (x_ {n}, t_ {n})}(x_ {1}, t_ {1}), \ ldots, (x_ {n}, t_ {n}) . Векторы:

(f (x 1),…, f (xn)) - (t 1,…, tn) {\ displaystyle (f (x_ {1}), \ ldots, f (x_ {n}))) - (t_ {1}, \ ldots, t_ {n})}(f (x_ { 1}), \ ldots, f (x_ {n})) - (t_ {1}, \ ldots, t_ {n})

находятся в - 1-мерном подпространстве R . Возьмем 0 вектор, ортогональный этому подпространству. Следовательно:

∑ ai>0 ai (f (xi) - ti) = ∑ ai < 0 ( − a i) ( f ( x i) − t i), ∀ f ∈ F {\displaystyle \sum _{a_{i}>0} a_ {i} (f (x_ {i}) - t_ {i}) = \ sum _ {a_ {i} <0}(-a_{i})(f(x_{i})-t_{i}),\quad \forall f\in {\mathcal {F}}}\sum _{{a_{i}>0}} a_ {i} (f (x_ {i}) - t_ {i}) = \ sum _ {{a_ {i} <0}}(-a_{i})(f(x_{i})-t_{i}),\quad \forall f\in {\mathcal {F}}

Рассмотрим набор S = {( xi, ti): ai>0} {\ displaystyle S = \ {(x_ {i}, t_ {i}): a_ {i}>0 \}}S=\{(x_{i},t_{i}):a_{i}>0 \} . Этот набор нельзя выбрать, так как если есть какие-то f {\ displaystyle f}f такой, что S = {(xi, ti): f (xi)>ti} {\ displaystyle S = \ {(x_ {i}, t_ { i}): f (x_ {i})>t_ {i} \}}S=\{(x_{i},t_{i}):f(x_{i})>t_ {i} \} , что означает, что LHS строго положительный, а RHS отрицательный.

Существуют обобщения понятия класса подграфа VC, например есть понятие псевдоразмерности. Заинтересованный читатель может заглянуть в.

VC Inequality

Рассматривается аналогичный параметр, который чаще встречается в машинном обучении. Пусть X {\ displaystyle {\ mathcal {X}}}{\ mathcal { X}} - пространство функций, а Y = {0, 1} {\ displaystyle {\ mathcal {Y}} = \ { 0,1 \}}{\ mathcal {Y}} = \ {0,1 \} . Функция f: X → Y {\ displaystyle f: {\ mathcal {X}} \ to {\ mathcal {Y}}}f: {\ mathcal {X}} \ to {\ mathcal {Y}} называется классификатором. Пусть F {\ displaystyle {\ mathcal {F}}}{\ mathcal {F}} будет набором классификаторов. Аналогично предыдущему разделу определите коэффициент разрушения (также известный как функция роста):

S (F, n) = max x 1,…, x n | {(f (x 1),…, f (x n)), f ∈ F} | {\ displaystyle S ({\ mathcal {F}}, n) = \ max _ {x_ {1}, \ ldots, x_ {n}} | \ {(f (x_ {1}), \ ldots, f ( x_ {n})), f \ in {\ mathcal {F}} \} |}S({\mathcal {F}},n)= \max _{{x_{1},\ldots,x_{n}}}|\{(f(x_{1}),\ldots,f(x_{n})),f\in {\mathcal { F}}\}|

Обратите внимание, что здесь существует 1: 1 переход между каждой из функций в F {\ displaystyle {\ mathcal {F}}}{\ mathcal {F}} и набор, на котором функция равна 1. Таким образом, мы можем определить C {\ displaystyle {\ mathcal {C}}}{\ mathcal {C}} как коллекцию подмножеств, полученных из приведенного выше отображения для каждого f ∈ F {\ displaystyle f \ in {\ mathcal {F}}}{\ displaystyle f \ in {\ mathcal {F}}} . Следовательно, в терминах предыдущего раздела коэффициент разрушения точно равен

max x 1,…, xn Δ n (C, x 1,…, xn) {\ displaystyle \ max _ {x_ {1}, \ ldots, x_ {n}} \ Delta _ {n} ({\ mathcal {C}}, x_ {1}, \ ldots, x_ {n})}\ max _ {{x_ {1}, \ ldots, x_ {n}}} \ Delta _ {n} ({\ mathcal {C}}, x_ {1}, \ ldots, x_ {n }) .

Из этой эквивалентности вместе с леммой Зауэра следует что S (F, n) {\ displaystyle S ({\ mathcal {F}}, n)}S ({\ mathcal {F}}, n) будет полиномиальным от n для достаточно большого n при условии, что коллекция C {\ displaystyle {\ mathcal {C}}}{\ mathcal {C}} имеет конечный VC-индекс.

Пусть D n = {(X 1, Y 1),…, (X n, Y m)} {\ displaystyle D_ {n} = \ {(X_ {1}, Y_ { 1}), \ ldots, (X_ {n}, Y_ {m}) \}}D_ {n} = \ {(X_ {1}, Y_ {1}), \ ldots, (X_ {n}, Y_ {m}) \} - наблюдаемый набор данных. Предположим, что данные созданы с помощью неизвестного распределения вероятностей P X Y {\ displaystyle P_ {XY}}P_{{XY}}. Определите R (f) = P (f (X) ≠ Y) {\ displaystyle R (f) = P (f (X) \ neq Y)}R (f) = П (е (Х) \ neq Y) как ожидаемое 0/1 проигрыш. Конечно, поскольку PXY {\ displaystyle P_ {XY}}P_{{XY}}вообще неизвестен, никто не имеет доступа к R (f) {\ displaystyle R (f)}R (f) . Однако эмпирический риск, определяемый по формуле:

R ^ n (f) = 1 n ∑ i = 1 n I (f (X i) ≠ Y i) {\ displaystyle {\ hat {R}} _ {n} (f) = {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} \ mathbb {I} (f (X_ {i}) \ neq Y_ {i})}{\ displaystyle {\ hat {R}} _ {n} (f) = {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} \ mathbb {I} (f (X_ {i}) \ neq Y_ {i})}

конечно можно оценить. Тогда справедлива следующая Теорема:

Теорема (VC Inequality)

Для двоичной классификации и функции потерь 0/1 мы имеем следующие границы обобщения:

P (sup f ∈ F | R ^ n (f) - R (f) |>ε) ≤ 8 S (F, n) e - n ε 2/32 E [sup f ∈ F | R ^ n (f) - R (f) | ] ≤ 2 журнал ⁡ S (F, n) + журнал ⁡ 2 N {\ Displaystyle {\ begin {align} P \ left (\ sup _ {f \ in {\ mathcal {F}}} \ left | {\ hat {R}} _ {n} (f) -R (f) \ right |>\ varepsilon \ right) \ leq 8S ({\ mathcal {F}}, n) e ^ {- n \ varepsilon ^ {2 } / 32} \\\ mathbb {E} \ left [\ sup _ {f \ in {\ mathcal {F}}} \ left | {\ hat {R}} _ {n} (f) -R (f) \ right | \ right] \ leq 2 {\ sqrt {\ dfrac {\ log S ({\ mathcal {F}}, n) + \ log 2} {n}}} \ end {align}}}{\begin{aligned}P\left(\sup _{{f\in {\mathcal {F}}}}\left|{\hat {R}}_{n}(f)-R(f)\right|>\ varepsilon \ right) \ leq 8S ({\ mathcal {F}}, n) e ^ {{- n \ varepsilon ^ {2} / 32}} \\ {\ mathbb {E}} \ left [\ sup _ {{f \ in {\ mathcal {F}}}} \ left | {\ hat {R}} _ {n} (f) -R (f) \ right | \ right] \ leq 2 {\ sqrt {{\ dfrac {\ log S ({\ mathcal {F}}, n) + \ log 2} {n}}}} \ end {align}}

На словах неравенство VC говорит, что по мере увеличения выборки при условии, что F {\ displaystyle {\ mathcal {F}}}{\ mathcal {F}} имеет конечное измерение VC, эмпирический риск 0/1 становится хорошим показателем ожидаемого риска 0/1. N Обратите внимание, что обе правые части двух неравенств будут сходиться к 0, при условии, что S (F, n) {\ displaystyle S ({\ mathcal {F}}, n)}S ({\ mathcal {F}}, n) полиномиально возрастает от n.

Связь между этой структурой и структурой эмпирического процесса очевидна. Здесь мы имеем дело с модифицированным эмпирическим процессом

| R ^ n - R | F {\ displaystyle \ left | {\ hat {R}} _ {n} -R \ right | _ {\ mathcal {F}}}\ left | {\ hat {R}} _ { n} -R \ right | _ {{{\ mathcal {F}}}}

, но неудивительно, что идеи те же. Доказательство неравенства ВК (первая часть) основывается на симметризации, а затем на условных аргументах на основе данных с использованием неравенств концентрации (в частности, неравенства Хёффдинга ). Заинтересованный читатель может проверить книгу Теоремы 12.4 и 12.5.

Литература
Последняя правка сделана 2021-06-18 09:44:08
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте