Раздел статистической теории вычислительного обучения
Теория Вапника – Червоненкиса (также известная как теория ВК ) был разработан в 1960–1990 гг. Владимиром Вапником и Алексеем Червоненкисом. Теория представляет собой форму теории вычислительного обучения, которая пытается объяснить процесс обучения со статистической точки зрения.
Теория ВК связана с теорией статистического обучения и с эмпирическими процессами. Ричард М. Дадли и Владимир Вапник, среди прочего, применили теорию VC к эмпирическим процессам.
Содержание
- 1 Введение
- 2 Обзор VC теория в эмпирических процессах
- 2.1 Предпосылки к эмпирическим процессам
- 2.2 Симметризация
- 2.3 Связь VC
- 3 Неравенство VC
- 3.1 Теорема (Неравенство VC)
- 4 Ссылки
Введение
Теория VC охватывает как минимум четыре части (как объясняется в разделе «Природа статистической теории обучения»):
- Теория согласованности процессов обучения
- Что (необходимые и достаточные) условия согласованности процесса обучения на основе принципа минимизации эмпирического риска ?
- Неасимптотическая теория скорости конвергенции процессов обучения
- Насколько высока скорость конвергенции обучения процесс?
- Теория управления обобщающей способностью процессов обучения
- Как можно контролировать скорость сходимости (обобщение способности) процесса обучения?
- Теория построения обучающихся машин
- Как можно построить алгоритмы, которые могут управлять способностью к обобщению?
Теория VC является основной ветвью статистического обучения теория. Одним из его основных приложений в теории статистического обучения является обеспечение условий обобщения для алгоритмов обучения. С этой точки зрения теория ВК связана с стабильностью, которая представляет собой альтернативный подход для характеристики обобщения.
Кроме того, теория VC и измерение VC играют важную роль в теории эмпирических процессов в случае процессов, индексированных классами VC. Возможно, это наиболее важные приложения теории ВК, которые используются для доказательства обобщения. Будут представлены несколько методов, которые широко используются в эмпирическом процессе и теории ВК. Обсуждение в основном основано на книге «Слабая конвергенция и эмпирические процессы: с приложениями к статистике».
Обзор теории VC в эмпирических процессах
Предпосылки к эмпирическим процессам
Пусть быть случайными элементами, определенными на измеримом пространстве . Для любой меры на и любые измеримые функции , определяют
Проблемы с измеримостью здесь будут проигнорированы, для получения более подробной технической информации см. Пусть будет классом измеримых функций и определите:
Определите эмпирическую меру
где δ здесь обозначает меру Дирака. Эмпирическая мера индуцирует отображение , заданное по формуле:
Теперь предположим, что P является лежащим в основе истинным распределением данных, которое неизвестно. Теория эмпирических процессов направлена на определение классов , для которых справедливы такие утверждения, как следующее:
- единый закон больших чисел :
- То есть при ,
- равномерно для всех .
В первом случае называется классом Гливенко-Кантелли, а в последнем случае (в предположении ) класс называется Донскером или П-Донскером. Класс Донскера является вероятностным по Гливенко-Кантелли в результате применения теоремы Слуцкого.
Эти утверждения верны для одного по стандарту LLN., CLT аргументы в условиях регулярности, и трудность эмпирических процессов возникает из-за того, что совместные утверждения делаются для всех . Тогда интуитивно понятно, что набор не может быть слишком большим, и, как оказывается, геометрия играет очень важную роль.
Одним из способов измерения размера набора функций является использование так называемых покрывающих чисел. Покрывающее число
- минимальное количество шаров необходимо для покрытия множества (здесь, очевидно, предполагается, что там является базовой нормой для ). Энтропия - это логарифм числа покрытия.
Ниже приведены два достаточных условия, при которых можно доказать, что множество является Гливенко-Кантелли или Донскером.
Класс является P-Гливенко-Кантелли, если он P-измерим с огибающей F такой, что и удовлетворяет:
Следующее условие является версией знаменитой теоремы Дадли. Если - класс функций, таких что
, тогда является P-Донскером для любой вероятностной меры P такой, что . В последнем интеграле обозначение означает
- .
Симметризация
Большинство аргументов о том, как ограничить эмпирический процесс, основаны на симметризации, максимальном и неравенство концентраций и цепочки. Симметризация обычно является первым шагом доказательств, и, поскольку она используется во многих доказательствах машинного обучения для ограничения эмпирических функций потерь (включая доказательство неравенства ВК, которое обсуждается в следующем разделе), она представлена здесь.
Рассмотрим эмпирический процесс:
Оборотов выясняется, что существует связь между эмпирическим и следующим симметризованным процессом:
Симметризованный Процесс - это процесс Радемахера, при условии, что данные . Следовательно, это субгауссов процесс по неравенству Хёффдинга.
Лемма (Симметризация). Для любого неубывающего выпуклого Φ: R→ Rи класса измеримых функций ,
Доказательство леммы о симметризации опирается на введение независимых копий исходных переменных (иногда называемый призрачным образцом) и заменяя внутреннее ожидание LHS этими копиями. После применения неравенства Дженсена можно было вводить разные знаки (отсюда и название «симметризация») без изменения математического ожидания. Доказательство можно найти ниже из-за его поучительного характера.
[Доказательство]
Представьте «призрачный образец» , чтобы быть независимым копии . Для фиксированных значений один имеет:
Следовательно, по неравенству Йенсена :
Принятие математического ожидания относительно дает:
Обратите внимание, что добавление знак минус перед членом не меняет правую часть, потому что это симметричная функция от и . Таким образом, RHS остается неизменным при «возмущении знака»:
для любого . Следовательно:
Наконец, используя сначала неравенство треугольника, а затем выпуклость дает:
Где l Два выражения справа совпадают, что завершает доказательство.
Типичный способ доказательства эмпирических CLT: сначала используется симметризация для передачи эмпирического процесса на и затем аргументируйте условно данные, используя тот факт, что процессы Радемахера - это простые процессы с хорошими свойствами.
VC Connection
Оказывается, существует увлекательная связь между некоторыми комбинаторными свойствами набора и энтропийные числа. Равномерные числа покрытия можно контролировать с помощью понятия классов множеств Вапника-Червоненкиса - или сокращенно VC множеств.
Рассмотрим коллекцию подмножеств выборочного пространства . , как говорят, выбирает определенное подмножество из конечного множества если для некоторых . , как говорят, разрушает S, если выбирает каждое из двух его подмножеств. VC-индекс (аналогично размерности VC + 1 для правильно выбранного набора классификаторов) из - наименьшее n, для которого ни один набор размера n не разбивается на .
лемма Зауэра затем утверждает, что число подмножеств, выбранных VC-классом удовлетворяет:
Это полиномиальное число подписок ets, а не экспоненциальное число. Интуитивно это означает, что конечный VC-индекс подразумевает, что имеет очевидную упрощенную структуру.
Аналогичная граница может быть показана (с другой постоянной, той же скоростью) для так называемых классов подграфов VC. Для функции подграф является подмножеством такой, что:
Рассмотрим набор индикаторных функций IC = {1 C: C ∈ C} {\ displaystyle {\ mathcal {I}} _ {\ mathcal {C}} = \ {1_ {C} : C \ in {\ mathcal {C}} \}}in L 1 (Q) {\ displaystyle L_ {1} (Q)}для дискретного эмпирического типа меры Q (или, что то же самое, для любой вероятностной меры Q). Затем можно показать, что весьма примечательно, что для r ≥ 1 {\ displaystyle r \ geq 1}:
- N (ε, IC, L r (Q)) ≤ KV (C) (4 e) V ( С) ε - р (В (С) - 1) {\ Displaystyle N (\ varepsilon, {\ mathcal {I}} _ {\ mathcal {C}}, L_ {r} (Q)) \ leq KV ({ \ mathcal {C}}) (4e) ^ {V ({\ mathcal {C}})} \ varepsilon ^ {- r (V ({\ mathcal {C}}) - 1)}}
Далее рассмотрим симметричная выпуклая оболочка множества F {\ displaystyle {\ mathcal {F}}}: sconv F {\ displaystyle \ operatorname {sconv} {\ mathcal {F}}}являясь набором функций вида ∑ я = 1 м α ifi {\ displaystyle \ sum _ {i = 1} ^ {m} \ alpha _ {i} f_ {i}}с ∑ i = 1 м | α i | ≤ 1 {\ displaystyle \ sum _ {i = 1} ^ {m} | \ alpha _ {i} | \ leq 1}. Тогда, если
- N (ε ‖ F ‖ Q, 2, F, L 2 (Q)) ≤ C ε - V {\ displaystyle N \ left (\ varepsilon \ | F \ | _ {Q, 2}, { \ mathcal {F}}, L_ {2} (Q) \ right) \ leq C \ varepsilon ^ {- V}}
следующее верно для выпуклой оболочки F {\ displaystyle {\ mathcal {F}}}:
- журнал N (ε ‖ F ‖ Q, 2, sconv F, L 2 (Q)) ≤ K ε - 2 VV + 2 {\ displaystyle \ log N \ left (\ varepsilon \ | F \ | _ {Q, 2}, \ operatorname {sconv} {\ mathcal {F}}, L_ {2} (Q) \ right) \ leq K \ varepsilon ^ {- {\ frac {2V} {V +2}}}}
Важным следствием этого факта является то, что
- 2 VV + 2>2, {\ displaystyle {\ frac {2V} {V + 2}}>2,}
, который ровно столько, чтобы интеграл энтропии сходился, и поэтому класс sconv F {\ displaystyle \ operatorname {sconv} {\ mathcal {F}}}будет P- Донскер.
Наконец, рассматривается пример класса VC-подграфа. изд. Любое конечномерное векторное пространство F {\ displaystyle {\ mathcal {F}}}измеримых функций f: X → R {\ displaystyle f: {\ mathcal {X}} \ to \ mathbf {R}}- это VC-подграф индекса, меньшего или равного dim (F) + 2 {\ displaystyle \ dim ({\ mathcal {F}}) + 2}.
[Доказательство]
Возьмите n = dim (F) + 2 {\ displaystyle n = \ dim ({\ mathcal {F}}) + 2}очков. (x 1, t 1),…, (xn, tn) {\ displaystyle (x_ {1}, t_ {1}), \ ldots, (x_ {n}, t_ {n})}. Векторы:
- (f (x 1),…, f (xn)) - (t 1,…, tn) {\ displaystyle (f (x_ {1}), \ ldots, f (x_ {n}))) - (t_ {1}, \ ldots, t_ {n})}
находятся в - 1-мерном подпространстве R . Возьмем 0 вектор, ортогональный этому подпространству. Следовательно:
- ∑ ai>0 ai (f (xi) - ti) = ∑ ai < 0 ( − a i) ( f ( x i) − t i), ∀ f ∈ F {\displaystyle \sum _{a_{i}>0} a_ {i} (f (x_ {i}) - t_ {i}) = \ sum _ {a_ {i} <0}(-a_{i})(f(x_{i})-t_{i}),\quad \forall f\in {\mathcal {F}}}
Рассмотрим набор S = {( xi, ti): ai>0} {\ displaystyle S = \ {(x_ {i}, t_ {i}): a_ {i}>0 \}}. Этот набор нельзя выбрать, так как если есть какие-то f {\ displaystyle f}такой, что S = {(xi, ti): f (xi)>ti} {\ displaystyle S = \ {(x_ {i}, t_ { i}): f (x_ {i})>t_ {i} \}}, что означает, что LHS строго положительный, а RHS отрицательный.
Существуют обобщения понятия класса подграфа VC, например есть понятие псевдоразмерности. Заинтересованный читатель может заглянуть в.
VC Inequality
Рассматривается аналогичный параметр, который чаще встречается в машинном обучении. Пусть X {\ displaystyle {\ mathcal {X}}}- пространство функций, а Y = {0, 1} {\ displaystyle {\ mathcal {Y}} = \ { 0,1 \}}. Функция f: X → Y {\ displaystyle f: {\ mathcal {X}} \ to {\ mathcal {Y}}}называется классификатором. Пусть F {\ displaystyle {\ mathcal {F}}}будет набором классификаторов. Аналогично предыдущему разделу определите коэффициент разрушения (также известный как функция роста):
- S (F, n) = max x 1,…, x n | {(f (x 1),…, f (x n)), f ∈ F} | {\ displaystyle S ({\ mathcal {F}}, n) = \ max _ {x_ {1}, \ ldots, x_ {n}} | \ {(f (x_ {1}), \ ldots, f ( x_ {n})), f \ in {\ mathcal {F}} \} |}
Обратите внимание, что здесь существует 1: 1 переход между каждой из функций в F {\ displaystyle {\ mathcal {F}}}и набор, на котором функция равна 1. Таким образом, мы можем определить C {\ displaystyle {\ mathcal {C}}}как коллекцию подмножеств, полученных из приведенного выше отображения для каждого f ∈ F {\ displaystyle f \ in {\ mathcal {F}}}. Следовательно, в терминах предыдущего раздела коэффициент разрушения точно равен
- max x 1,…, xn Δ n (C, x 1,…, xn) {\ displaystyle \ max _ {x_ {1}, \ ldots, x_ {n}} \ Delta _ {n} ({\ mathcal {C}}, x_ {1}, \ ldots, x_ {n})}.
Из этой эквивалентности вместе с леммой Зауэра следует что S (F, n) {\ displaystyle S ({\ mathcal {F}}, n)}будет полиномиальным от n для достаточно большого n при условии, что коллекция C {\ displaystyle {\ mathcal {C}}}имеет конечный VC-индекс.
Пусть D n = {(X 1, Y 1),…, (X n, Y m)} {\ displaystyle D_ {n} = \ {(X_ {1}, Y_ { 1}), \ ldots, (X_ {n}, Y_ {m}) \}}- наблюдаемый набор данных. Предположим, что данные созданы с помощью неизвестного распределения вероятностей P X Y {\ displaystyle P_ {XY}}. Определите R (f) = P (f (X) ≠ Y) {\ displaystyle R (f) = P (f (X) \ neq Y)}как ожидаемое 0/1 проигрыш. Конечно, поскольку PXY {\ displaystyle P_ {XY}}вообще неизвестен, никто не имеет доступа к R (f) {\ displaystyle R (f)}. Однако эмпирический риск, определяемый по формуле:
- R ^ n (f) = 1 n ∑ i = 1 n I (f (X i) ≠ Y i) {\ displaystyle {\ hat {R}} _ {n} (f) = {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} \ mathbb {I} (f (X_ {i}) \ neq Y_ {i})}
конечно можно оценить. Тогда справедлива следующая Теорема:
Теорема (VC Inequality)
Для двоичной классификации и функции потерь 0/1 мы имеем следующие границы обобщения:
- P (sup f ∈ F | R ^ n (f) - R (f) |>ε) ≤ 8 S (F, n) e - n ε 2/32 E [sup f ∈ F | R ^ n (f) - R (f) | ] ≤ 2 журнал S (F, n) + журнал 2 N {\ Displaystyle {\ begin {align} P \ left (\ sup _ {f \ in {\ mathcal {F}}} \ left | {\ hat {R}} _ {n} (f) -R (f) \ right |>\ varepsilon \ right) \ leq 8S ({\ mathcal {F}}, n) e ^ {- n \ varepsilon ^ {2 } / 32} \\\ mathbb {E} \ left [\ sup _ {f \ in {\ mathcal {F}}} \ left | {\ hat {R}} _ {n} (f) -R (f) \ right | \ right] \ leq 2 {\ sqrt {\ dfrac {\ log S ({\ mathcal {F}}, n) + \ log 2} {n}}} \ end {align}}}
На словах неравенство VC говорит, что по мере увеличения выборки при условии, что F {\ displaystyle {\ mathcal {F}}}имеет конечное измерение VC, эмпирический риск 0/1 становится хорошим показателем ожидаемого риска 0/1. N Обратите внимание, что обе правые части двух неравенств будут сходиться к 0, при условии, что S (F, n) {\ displaystyle S ({\ mathcal {F}}, n)}полиномиально возрастает от n.
Связь между этой структурой и структурой эмпирического процесса очевидна. Здесь мы имеем дело с модифицированным эмпирическим процессом
- | R ^ n - R | F {\ displaystyle \ left | {\ hat {R}} _ {n} -R \ right | _ {\ mathcal {F}}}
, но неудивительно, что идеи те же. Доказательство неравенства ВК (первая часть) основывается на симметризации, а затем на условных аргументах на основе данных с использованием неравенств концентрации (в частности, неравенства Хёффдинга ). Заинтересованный читатель может проверить книгу Теоремы 12.4 и 12.5.
Литература
- ^Вапник, Владимир N (2000). Природа статистической теории обучения. Информатика и статистика. Спрингер-Верлаг. ISBN 978-0-387-98780-4.
- Вапник, Владимир N (1989). Статистическая теория обучения. Wiley-Interscience. ISBN 978-0-471-03003-4.
- ^ван дер Ваарт, Аад В. ; Веллнер, Джон А. (2000). Слабая конвергенция и эмпирические процессы: с приложениями к статистике (2-е изд.). Springer. ISBN 978-0-387-94640-5.
- ^Gyorfi, L.; Devroye, L.; Лугоши, Г. (1996). Вероятностная теория распознавания образов (1-е изд.). Springer. ISBN 978-0387946184.
- См. Ссылки в статьях: Ричард М. Дадли, эмпирические процессы, Разрушенное множество.
- ^Поллард, Дэвид (1990). Эмпирические процессы: теория и приложения. Серия региональных конференций NSF-CBMS по вероятности и статистике, том 2. ISBN 978-0-940600-16-4.
- Bousquet, O.; Boucheron, S.; Лугоши, Г. (2004). «Введение в статистическую теорию обучения». У О. Буске; У. фон Люксбург; Г. Ратч (ред.). Расширенные лекции по машинному обучению. Конспект лекций по искусственному интеллекту. 3176 . Springer. С. 169–207.
- Вапник, В.; Червоненкис, А. (2004). «О равномерной сходимости относительных частот событий к их вероятностям». Теория вероятн. Appl. 16 (2): 264–280. doi :10.1137/1116025.