Теория распределенного обучения

редактировать

Теория распределенного обучения или изучение распределения вероятностей является основой в теория вычислительного обучения. Он был предложен Майклом Кирнсом, Дана Рон, Рониттом Рубинфельдом, Робертом Шапайром, а в 1994 году он был вдохновлен PAC-framework, представленный Leslie Valiant.

В этой структуре входные данные - это количество выборок, взятых из распределения, которое принадлежит определенному классу распределений. Цель состоит в том, чтобы найти эффективный алгоритм, который на основе этих выборок с высокой вероятностью определяет распределение, из которого были взяты эти выборки. Из-за своей универсальности эта структура использовалась в большом количестве различных областей, таких как машинное обучение, алгоритмы аппроксимации, прикладная вероятность и статистика.

В этой статье объясняются основные определения, инструменты и результаты в этой структуре с точки зрения теории вычислений.

Содержание

1 Определения
2 Первые результаты
3 $ϵ - {\ displaystyle \ textstyle \ epsilon -}$ $\textstyle \epsilon-$ Covers
4 Обучающие суммы случайных величин
- 4.1 Обучение Биномиальные распределения Пуассона
- 4.2 Изучение сумм независимых целочисленных случайных переменных
5 Изучение смесей гауссианов
6 Ссылки

Определения

Пусть $X {\ displaystyle \ textstyle X}$ $\textstyle X$ быть опорой интересующих распределений. Как и в оригинальной работе Kearns et al. если $X {\ displaystyle \ textstyle X}$ $\textstyle X$ конечно, можно без ограничения общности предположить, что $X = {0, 1} n {\ displaystyle \ textstyle X = \ {0, 1 \} ^ {n}}$ $\ textstyle X = \ {0, 1 \} ^ n$ где $n {\ displaystyle \ textstyle n}$ $\ textstyle n$ - количество битов, которые должны использоваться для представления любого $у ∈ Икс {\ Displaystyle \ TextStyle у \ в X}$ $\textstyle y \i n X$ . Мы сосредотачиваемся на распределении вероятностей на $X {\ displaystyle \ textstyle X}$ $\textstyle X$ .

Есть два возможных представления распределения вероятностей $D {\ displaystyle \ textstyle D}$ $\ textstyle D$ на $X {\ displaystyle \ textstyle X}$ $\textstyle X$ .

функция распределения вероятностей (или оценщик) оценщик $ED {\ displaystyle \ textstyle E_ {D}}$ $\textstyle E_D$ для $D {\ displaystyle \ textstyle D}$ $\ textstyle D$ принимает в качестве входных данных любое $y ∈ X {\ displaystyle \ textstyle y \ in X}$ $\textstyle y \i n X$ и выводит действительное число $ED [y] { \ displaystyle \ textstyle E_ {D} [y]}$ $\ textstyle E_D [y]$ , который обозначает вероятность того, что $y {\ displaystyle \ textstyle y}$ $\ textstyle y$ согласно $D {\ displaystyle \ textstyle D}$ $\ textstyle D$ , т.е. $ED [y] = Pr [Y = y] {\ displaystyle \ textstyle E_ {D} [y] = \ Pr [Y = y]}$ $\ textstyle E_D [y] = \ Pr [Y = y]$ если $Y ∼ D {\ displaystyle \ textstyle Y \ sim D}$ $\ textstyle Y \ sim D$ .
генератор генератор $GD {\ displaystyle \ textstyle G_ {D}}$ $\ textstyle G_D$ для $D {\ displaystyle \ textstyle D}$ $\ textstyle D$ принимает как введите строку действительно случайных битов $y {\ displaystyle \ textstyle y}$ $\ textstyle y$ и выведите $GD [y] ∈ X {\ displaystyle \ textstyle G_ {D} [y] \ in X }$ $\ textstyle G_D [y] \ in X$ согласно распределению $D {\ displaystyle \ textstyle D}$ $\ textstyle D$ . Генератор можно интерпретировать как процедуру, имитирующую выборку из распределения $D {\ displaystyle \ textstyle D}$ $\ textstyle D$ с заданной последовательностью подбрасываний монеты.

Распределение $D {\ displaystyle \ textstyle D}$ $\ textstyle D$ вызывается для получения полиномиального генератора (соответственно оценщика), если его генератор (соответственно оценщик) существует и может быть вычислен за полиномиальное время.

Пусть $CX {\ displaystyle \ textstyle C_ {X}}$ $\textstyle C_X$ класс распределения по X, то есть $CX {\ displaystyle \ textstyle C_ {X}}$ $\textstyle C_X$ - это такой набор, что каждый $D ∈ CX {\ displaystyle \ textstyle D \ in C_ {X}}$ $\ textstyle D \ in C_X$ является распределением вероятностей с поддержкой $X {\ displaystyle \ textstyle X}$ $\textstyle X$ . $C X {\ displaystyle \ textstyle C_ {X}}$ $\textstyle C_X$ для простоты также может быть записан как $C {\ displaystyle \ textstyle C}$ $\textstyle C$ .

Перед определением обучаемости необходимо определить хорошее приближение распределения $D {\ displaystyle \ textstyle D}$ $\ textstyle D$ . Есть несколько способов измерить расстояние между двумя распределениями. Три более распространенных возможности:

Самым сильным из этих расстояний является расхождение Кульбака-Лейблера и самое слабое - расстояние Колмогорова. Это означает, что для любой пары распределений $D {\ displaystyle \ textstyle D}$ $\ textstyle D$ , $D ′ {\ displaystyle \ textstyle D '}$ $\textstyle D'$ :

KL - distance (D, D ′) ≥ TV - distance (D, D ′) ≥ К олмогорова - расстояние (D, D ′) {\ displaystyle KL-distance (D, D ') \ geq TV-distance (D, D') \ geq Kolmogorov-distance (D, D ')}

KL-distance(D, D') \ge TV-distance(D, D') \ge Kolmogorov-distance(D, D')

Следовательно, например, если $D {\ displaystyle \ textstyle D}$ $\ textstyle D$ и $D ′ {\ displaystyle \ textstyle D '}$ $\textstyle D'$ близки по отношению к Расхождение Кульбака-Лейблера то они также близки по отношению ко всем остальным расстояниям.

Следующие определения справедливы для всех расстояний, поэтому символ $d (D, D ′) {\ displaystyle \ textstyle d (D, D ')}$ $\textstyle d(D, D')$ обозначает расстояние между распределение $D {\ displaystyle \ textstyle D}$ $\ textstyle D$ и распределение $D ′ {\ displaystyle \ textstyle D '}$ $\textstyle D'$ с использованием одного из описанных выше расстояний. Хотя обучаемость класса распределений может быть определена с использованием любого из этих расстояний, приложения относятся к определенному расстоянию.

Базовый ввод, который мы используем для изучения распределения, - это количество выборок, взятых этим распределением. С вычислительной точки зрения предполагается, что такая выборка дается за постоянный промежуток времени. Это похоже на доступ к оракулу $GEN (D) {\ displaystyle \ textstyle GEN (D)}$ $\textstyle GEN(D)$ , который возвращает образец из распределения $D {\ displaystyle \ textstyle D}$ $\ textstyle D$ . Иногда интерес, помимо измерения временной сложности, состоит в том, чтобы измерить количество выборок, которые необходимо использовать для изучения конкретного распределения $D {\ displaystyle \ textstyle D}$ $\ textstyle D$ в классе дистрибутивы $C {\ displaystyle \ textstyle C}$ $\textstyle C$ . Эта величина называется выборочной сложностью алгоритма обучения.

Чтобы проблема распределенного обучения была более ясной, рассмотрим проблему контролируемого обучения, как это определено в. В этой структуре теории статистического обучения обучающий набор $S = { (Икс 1, Y 1),…, (XN, YN)} {\ Displaystyle \ TextStyle S = \ {(X_ {1}, Y_ {1}), \ точек, (X_ {N}, Y_ {N}) \}}$ $\ textstyle S = \ {(x_1, y_1), \ dots, (x_n, y_n) \}$ и цель - найти целевую функцию $f: X → Y {\ displaystyle \ textstyle f: X \ rightarrow Y}$ $\ textstyle f: X \ rightarrow Y$ , которая минимизирует некоторую функцию потерь, например квадратная функция потерь. Более формально $f = arg ⁡ min g ∫ V (y, g (x)) d ρ (x, y) {\ displaystyle f = \ arg \ min _ {g} \ int V (y, g (x))) d \ rho (x, y)}$ $f = \ arg \ min_ {g} \ int V (y, g (x)) d \ rho (x, y)$ , где $V (⋅, ⋅) {\ displaystyle V (\ cdot, \ cdot)}$ $V(\cdot,\cdot)$ - функция потерь, например $V (y, z) = (y - z) 2 {\ displaystyle V (y, z) = (yz) ^ {2}}$ $V(y, z) = (y - z)^2$ и $ρ (x, y) {\ displaystyle \ rho (x, y)}$ $\rho(x, y)$ распределение вероятностей, в соответствии с которым выбираются элементы обучающего набора. Если условное распределение вероятностей $ρ x (y) {\ displaystyle \ rho _ {x} (y)}$ $\ rho_x (y)$ известно, то целевая функция имеет замкнутую форму $е (х) знак равно ∫ yyd ρ x (y) {\ displaystyle f (x) = \ int _ {y} yd \ rho _ {x} (y)}$ $f(x) = \int_y yd\rho_x(y)$ . Итак, набор $S {\ displaystyle S}$ $S$ - это набор выборок из распределения вероятностей $ρ (x, y) {\ displaystyle \ rho (x, y)}$ $\rho(x, y)$ . Теперь цель теории распределенного обучения - найти $ρ {\ displaystyle \ rho}$ $\ rho$ с заданным $S {\ displaystyle S}$ $S$ , который можно использовать для поиска цели функция $f {\ displaystyle f}$ $f$ .

Определение обучаемости

Класс распределений $C {\ displaystyle \ textstyle C}$ $\textstyle C$ называется эффективно обучаемым если для каждого $ϵ>0 {\ displaystyle \ textstyle \ epsilon>0}$ $\textstyle \epsilon>0$ и $0 < δ ≤ 1 {\displaystyle \textstyle 0<\delta \leq 1}$ $\ textstyle 0 <\ delta \ le 1$ предоставлен доступ к $GEN (D) {\ displaystyle \ textstyle GEN (D)}$ $\textstyle GEN(D)$ для неизвестного распределение $D ∈ C {\ displaystyle \ textstyle D \ in C}$ $\ textstyle D \ in C$ , существует алгоритм полиномиального времени $A {\ displaystyle \ textstyle A}$ $\ textstyle A$ , называемый обучением алгоритм $C {\ displaystyle \ textstyle C}$ $\textstyle C$ , который выводит генератор или вычислитель распределения $D ′ {\ displaystyle \ text стиль D '}$ $\textstyle D'$ такой, что

Pr [d (D, D') ≤ ϵ] ≥ 1 - δ {\ displaystyle \ Pr [d (D, D ') \ leq \ epsilon] \ geq 1- \ delta}

\Pr[ d(D, D') \le \epsilon ] \ge 1 - \delta

Если мы знаем, что $D ′ ∈ C {\ displaystyle \ textstyle D '\ in C}$ $\textstyle D' \in C$ , тогда $A {\ displaystyle \ textstyle A}$ $\ textstyle A$ называется алгоритм правильного обучения, иначе называется алгоритм неправильного обучения .

В некоторых настройках класс распределений $C {\ displaystyle \ textstyle C}$ $\textstyle C$ - это класс с хорошо известными распределениями, которые можно описать набором параметров. Например, $C {\ displaystyle \ textstyle C}$ $\textstyle C$ может быть классом всех гауссовских распределений $N (μ, σ 2) {\ displaystyle \ textstyle N (\ mu, \ sigma ^ {2})}$ $\textstyle N(\mu, \sigma^2)$ . В этом случае алгоритм $A {\ displaystyle \ textstyle A}$ $\ textstyle A$ должен уметь оценивать параметры $μ, σ {\ displaystyle \ textstyle \ mu, \ sigma}$ $\ textstyle \ mu, \ sigma$ . В этом случае $A {\ displaystyle \ textstyle A}$ $\ textstyle A$ называется алгоритмом обучения параметрам .

Очевидно, что изучение параметров для простых распределений является очень хорошо изученной областью, которая называется статистической оценкой и существует очень длинная библиография по различным оценкам для различных видов простых известных распределений. Но теория обучения распределений имеет дело с классом обучения распределений, которые имеют более сложное описание.

Первые результаты

В своей основополагающей работе Kearns et al. имеют дело со случаем, когда $A {\ displaystyle \ textstyle A}$ $\ textstyle A$ описывается в терминах схемы с конечным полиномиальным размером, и они доказали следующее для некоторых конкретных классов распределения.

$OR {\ displaystyle \ textstyle OR}$ $\ textstyle OR$ вентильные распределения для этого типа распределений не существует вычислителя полиномиального размера, кроме случаев $# P ⊆ P / poly {\ displaystyle \ textstyle \ #P \ substeq P / {\ text {poly}}}$ $\textstyle \#P \subseteq P/\text{poly}$ . С другой стороны, этот класс эффективно обучается с помощью генератора.
Распределения вентилей четности этот класс эффективно обучается как с генератором, так и с вычислителем.
Смеси шаров Хэмминга этот класс эффективно обучается обоими генератор и оценщик.
Вероятностные конечные автоматы этот класс не может быть эффективно изучен с помощью оценщика в соответствии с допущением о шумовой четности, которое является невозможным предположением в среде обучения PAC.

ϵ - {\ displaystyle \ textstyle \ epsilon - }

\textstyle \epsilon-

Охватывает

Один очень распространенный метод поиска алгоритма обучения для класса распределений $C {\ displaystyle \ textstyle C}$ $\textstyle C$ - сначала найдите маленькую $ϵ - {\ displaystyle \ textstyle \ epsilon -}$ $\textstyle \epsilon-$ обложку $C {\ displaystyle \ textstyle C}$ $\textstyle C$ .

Определение

Набор $C ϵ {\ displaystyle \ textstyle C _ {\ epsilon}}$ $\textstyle C_{\epsilon}$ называется $ϵ {\ displaystyle \ textstyle \ epsilon}$ $\textstyle \epsilon$ - обложка $C {\ displaystyle \ te xtstyle C}$ $\textstyle C$ если для каждого $D ∈ C {\ displaystyle \ textstyle D \ in C}$ $\ textstyle D \ in C$ существует $D ′ ∈ C ϵ {\ displaystyle \ textstyle D '\ в C _ {\ epsilon}}$ $\textstyle D' \in C_{\epsilon}$ так, что $d (D, D') ≤ ϵ {\ displaystyle \ textstyle d (D, D ') \ leq \ epsilon}$ $\textstyle d(D, D') \le \epsilon$ . Обложка $ϵ - {\ displaystyle \ textstyle \ epsilon -}$ $\textstyle \epsilon-$ мала, если она имеет полиномиальный размер относительно параметров, описывающих $D {\ displaystyle \ textstyle D}$ $\ textstyle D$ .

Как только существует эффективная процедура, которая для каждого $ϵ>0 {\ displaystyle \ textstyle \ epsilon>0}$ $\textstyle \epsilon>0$ находит маленькую $ϵ - {\ displaystyle \ textstyle \ epsilon -}$ $\textstyle \epsilon-$ обложку $\ textstyle Y$ $\textstyle \epsilon-$ C ϵ {\ displaystyle \ textstyle C _ {\ epsilon}} $\textstyle C_{\epsilon}$ of C, тогда единственная оставшаяся задача - выбрать из $C ϵ {\ displaystyle \ textstyle C _ {\ epsilon}}$ $\textstyle C_{\epsilon}$ распределение $D ′ ∈ C ϵ {\ displaystyle \ textstyle D '\ in C _ {\ epsilon}}$ $\textstyle D' \in C_{\epsilon}$ , которое ближе к распределению $D ∈ C {\ displaystyle \ textstyle D \ in C}$ $\ textstyle D \ in C$ , которое необходимо выучить.

Проблема в том, что при $D ′, D ″ ∈ C ϵ {\ displaystyle \ textstyle D ', D' ' \ in C _ {\ epsilon}}$ $\textstyle D', D'' \in C_{\epsilon}$ нетривиально, как мы можем сравнить $d (D, D ') {\ displaystyle \ textstyle d (D, D')}$ $\textstyle d(D, D')$ и $d (D, D ″) {\ displaystyle \ textstyle d (D, D '')}$ $\textstyle d(D, D'')$ , чтобы решить, какой из них ближе всего к $D {\ displaystyle \ textstyle D}$ $\ textstyle D$ , потому что $D {\ displaystyle \ textstyle D}$ $\ textstyle D$ неизвестен. Следовательно, для этих сравнений необходимо использовать образцы из $D {\ displaystyle \ textstyle D}$ $\ textstyle D$ . Очевидно, что результат сравнения всегда имеет вероятность ошибки. Таким образом, задача аналогична поиску минимума в наборе элементов с использованием зашумленных сравнений. Для достижения этой цели существует множество классических алгоритмов. Самый последний алгоритм, обеспечивающий наилучшие гарантии, был предложен Даскалакисом, и этот алгоритм устанавливает быстрый турнир между элементами $C ϵ {\ displaystyle \ textstyle C _ {\ epsilon}}$ $\textstyle C_{\epsilon}$ где победитель $D ∗ {\ displaystyle \ textstyle D ^ {*}}$ $\ textstyle D ^ *$ этого турнира является элементом, который равен $ϵ - {\ displaystyle \ textstyle \ epsilon -}$ $\textstyle \epsilon-$ близко к $D {\ displaystyle \ textstyle D}$ $\ textstyle D$ (т.е. $d (D ∗, D) ≤ ϵ {\ displaystyle \ textstyle d (D ^ {* }, D) \ leq \ epsilon}$ $\ textstyle d (D ^ *, D) \ le \ epsilon$ ) с вероятностью не менее $1 - δ {\ displaystyle \ textstyle 1- \ delta}$ $\ textstyle 1 - \ delta$ . Для этого их алгоритм использует $O (log ⁡ N / ϵ 2) {\ displaystyle \ textstyle O (\ log N / \ epsilon ^ {2})}$ $\textstyle O(\log N / \epsilon^2)$ выборки из $D {\ displaystyle \ textstyle D}$ $\ textstyle D$ и выполняется в $O (N log ⁡ N / ϵ 2) {\ displaystyle \ textstyle O (N \ log N / \ epsilon ^ {2})}$ $\textstyle O (N \log N / \epsilon^2)$ время, где $N = | C ϵ | {\ displaystyle \ textstyle N = | C _ {\ epsilon} |}$ $\ textstyle N = | C _ {\ epsilon} |$ .

Изучение сумм случайных величин

Изучение простых хорошо известных распределений - хорошо изученная область, и есть много оценок, которые можно используемый. Еще один сложный класс распределений - это распределение суммы переменных, подчиняющееся простым распределениям. Эта процедура обучения имеет тесную связь с предельными теоремами, такими как центральная предельная теорема, потому что они стремятся исследовать один и тот же объект, когда сумма стремится к бесконечной сумме. Недавно были получены два описанных здесь результата: изучение биномиальных распределений Пуассона и обучение сумм независимых целочисленных случайных величин. Все приведенные ниже результаты верны при использовании расстояния общего отклонения в качестве меры расстояния.

Изучение биномиальных распределений Пуассона

Рассмотрим $n {\ displaystyle \ textstyle n}$ $\ textstyle n$ независимые случайные величины Бернулли $X 1,…, X n {\ displaystyle \ textstyle X_ {1}, \ dots, X_ {n}}$ $\textstyle X_1, \dots, X_n$ с вероятностями успеха $p 1,…, pn {\ displaystyle \ textstyle p_ {1}, \ dots, p_ { n}}$ $\textstyle p_1, \dots, p_n$ . Биномиальное распределение Пуассона порядка $n {\ displaystyle \ textstyle n}$ $\ textstyle n$ - это распределение суммы $X = ∑ i X i {\ displaystyle \ textstyle X = \ sum _ {i } X_ {i}}$ $\textstyle X = \sum_i X_i$ . Для изучения класса $PBD = {D: D - биномиальное распределение Пуассона} {\ displaystyle \ textstyle PBD = \ {D: D ~ {\ text {- биномиальное распределение Пуассона}} \}}$ $\ textstyle PBD = \ {D: D ~ \ text {- биномиальное распределение Пуассона} \ }$ . Первый из следующих результатов касается случая неправильного обучения $PBD {\ displaystyle \ textstyle PBD}$ $\ textstyle PBD$ , а второй - правильного изучения $PBD {\ displaystyle \ textstyle PBD}.$ $\ textstyle PBD$ .

Теорема

Пусть $D ∈ PBD {\ displaystyle \ textstyle D \ in PBD}$ $\ textstyle D \ in PBD$ , тогда существует алгоритм, который дает $n {\ displaystyle \ textstyle n}$ $\ textstyle n$ , $ϵ>0 {\ displaystyle \ textstyle \ epsilon>0}$ $\textstyle \epsilon>0$ , $0 < δ ≤ 1 {\displaystyle \textstyle 0<\delta \leq 1}$ $\ textstyle 0 <\ delta \ le 1$ и доступ к $GEN (D) {\ displaystyle \ textstyle GEN (D)}$ $\textstyle GEN(D)$ находит $D ′ { \ displaystyle \ textstyle D '}$ $\textstyle D'$ такой, что $Pr [d (D, D ′) ≤ ϵ] ≥ 1 - δ {\ displaystyle \ textstyle \ Pr [d (D, D') \ leq \ epsilon] \ geq 1- \ delta}$ $\textstyle \Pr[ d(D, D') \le \epsilon ] \ge 1 - \delta$ . Примерная сложность этого алгоритма $O ~ ((1 / ϵ 3) log ⁡ (1 / δ)) {\ displaystyle \ textstyle {\ tilde {O}} ((1 / \ epsilon ^ {3}) \ log (1 / \ delta))}$ $\ textstyle \ tilde {O} ((1 / \ epsilon ^ 3) \ log (1 / \ delta))$ и время выполнения равно $O ~ ((1 / ϵ 3) log ⁡ n log 2 ⁡ (1 / δ)) {\ displaystyle \ textstyle {\ tilde {O}} ( (1 / \ epsilon ^ {3}) \ log n \ log ^ {2} (1 / \ delta))}$ $\ textstyle \ тильда {O} ((1 / \ epsilon ^ 3) \ log n \ log ^ 2 (1 / \ delta))$ .

Теорема

Пусть $D ∈ PBD {\ displaystyle \ textstyle D \ in PBD }$ $\ textstyle D \ in PBD$ тогда существует алгоритм, которому задан класс $n {\ displaystyle \ textstyle n}$ $\ textstyle n$ , $ϵ>0 {\ displaystyle \ textstyle \ epsilon>0}$ $\textstyle \epsilon>0$ , $0 < δ ≤ 1 {\displaystyle \textstyle 0<\delta \leq 1}$ $\ textstyle 0 <\ delta \ le 1$ и доступ к $GEN (D) {\ displaystyle \ textstyle GEN (D)}$ $\textstyle GEN(D)$ находит $D ′ ∈ PBD {\ displaystyle \ textstyle D '\ in PBD}$ $\textstyle D' \in PBD$ такой, что $Pr [d (D, D ′) ≤ ϵ] ≥ 1 - δ {\ displaystyle \ textstyle \ Pr [d (D, D ') \ leq \ epsilon] \ geq 1- \ delta}$ $\textstyle \Pr[ d(D, D') \le \epsilon ] \ge 1 - \delta$ . Примерная сложность этого алгоритма составляет $O ~ ((1 / ϵ 2)) log ⁡ (1 / δ) {\ displaystyle \ textstyle {\ tilde {O}} ((1 / \ epsilon ^ {2})) \ log (1 / \ delta)}$ $\ textstyle \ tilde {O} ((1 / \ epsilon ^ 2)) \ журнал (1 / \ дельта)$ и время выполнения составляет $(1 / ϵ) O (log 2 ⁡ (1 / ϵ)) O ~ (log ⁡ n log ⁡ (1 / δ)) {\ displaystyle \ textstyle (1 / \ epsilon) ^ {O (\ log ^ {2} (1 / \ epsilon))} {\ tilde {O}} (\ log n \ log (1 / \ delta))}$ $\ textstyle (1 / \ epsilon) ^ {O (\ log ^ 2 (1 / \ epsilon))} \ tilde {O} (\ журнал п \ журнал (1 / \ дельта))$ .

Одна часть приведенных выше результатов заключается в том, что сложность примера алгоритма обучения не зависит от $n {\ displaystyle \ textstyle n}$ $\ textstyle n$ , хотя описание $D {\ displaystyle \ textstyle D}$ $\ textstyle D$ линейно в $n {\ displaystyle \ textstyle n}$ $\ textstyle n$ . Кроме того, второй результат является почти оптимальным с точки зрения сложности выборки, поскольку существует нижняя граница $O (1 / ϵ 2) {\ displaystyle \ textstyle O (1 / \ epsilon ^ {2})}$ $\ textstyle O (1 / \ epsilon ^ 2)$ .

В доказательстве используется небольшая $ϵ - {\ displaystyle \ textstyle \ epsilon -}$ $\textstyle \epsilon-$ обложка $PBD {\ displaystyle \ textstyle PBD}$ $\ textstyle PBD$ , созданная Даскалакису и Пападимитриу, чтобы получить этот алгоритм.

Изучение сумм независимых целочисленных случайных переменных

Рассмотрим $n {\ displaystyle \ textstyle n}$ $\ textstyle n$ независимых случайных величин $X 1,…, X n {\ displaystyle \ textstyle X_ {1}, \ dots, X_ {n}}$ $\textstyle X_1, \dots, X_n$ каждый из которых следует произвольному распределению с поддержкой ${0, 1,…, k - 1} {\ displaystyle \ textstyle \ {0,1, \ точки, k-1 \}}$ $\textstyle \{0, 1, \dots, k - 1\}$ . A $k - {\ displaystyle \ textstyle k-}$ $\ textstyle k-$ сумма независимых целочисленных случайных величин порядка $n {\ displaystyle \ textstyle n}$ $\ textstyle n$ - распределение сумма $Икс = ∑ я Икс я {\ displaystyle \ textstyle X = \ sum _ {i} X_ {i}}$ $\textstyle X = \sum_i X_i$ . Для изучения класса

$k - SIIRV = {D: D представляет собой k-сумму независимых целочисленных случайных величин} {\ displaystyle \ textstyle k-SIIRV = \ {D: D {\ text {представляет собой k-сумму независимая целочисленная случайная величина}} \}}$ $\ textstyle k-SIIRV = \ {D: D \ text {представляет собой k-сумму независимой целочисленной случайной величины} \}$

имеется следующий результат

Теорема

Пусть $D ∈ k - SIIRV {\ displaystyle \ textstyle D \ in k-SIIRV}$ $\textstyle D \in k-SIIRV$ то есть алгоритм, который дает $n {\ displaystyle \ textstyle n}$ $\ textstyle n$ , $ϵ>0 {\ displaystyle \ textstyle \ epsilon>0}$ $\textstyle \epsilon>0$ и доступ к $GEN (D) {\ displaystyle \ textstyle GEN D)}$ $\textstyle GEN(D)$ находит $D ′ {\ displaystyle \ textstyle D '}$ $\textstyle D'$ такой, что $Pr [d (D, D ′) ≤ ϵ] ≥ 1 - δ {\ displaystyle \ textstyle \ Pr [d (D, D ') \ leq \ epsilon] \ geq 1- \ delta}$ $\textstyle \Pr[ d(D, D') \le \epsilon ] \ge 1 - \delta$ . Примерная сложность этого алгоритма $poly (k / ϵ) {\ displaystyle \ textstyle {\ text {poly}} (k / \ epsilon)}$ $\textstyle \text{poly}(k / \ epsilon)$ и время выполнения также $poly (k / ϵ) {\ displaystyle \ textstyle {\ text {poly}} (k / \ epsilon)}$ $\textstyle \text{poly}(k / \ epsilon)$ .

Другая часть состоит в том, что выборка и временная сложность не зависит от $n {\ displaystyle \ textstyle n}$ $\ textstyle n$ . Можно заключить эту независимость для предыдущего раздела, если мы установим $k = 2 {\ displaystyle \ textstyle k = 2}$ $\textstyle k = 2$ .

Обучающие смеси гауссианов

Пусть случайные величины $X ∼ N (μ 1, Σ 1) {\ displaystyle \ textstyle X \ sim N (\ mu _ {1}, \ Sigma _ {1})}$ $\ textstyle X \ sim N (\ mu_1, \ Sigma_1)$ и $Y ∼ N (μ 2, Σ 2) {\ displaystyle \ textstyle Y \ sim N (\ mu _ {2}, \ Sigma _ {2})}$ $\ textstyle Y \ sim N (\ mu_2, \ Sigma_2)$ . Определите случайную переменную $Z {\ displaystyle \ textstyle Z}$ $\textstyle Z$ , которая принимает то же значение, что и $X {\ displaystyle \ textstyle X}$ $\textstyle X$ с вероятностью $w 1 {\ displaystyle \ textstyle w_ {1}}$ $\ textstyle w_1$ и то же значение, что и $Y {\ displaystyle \ textstyle Y}$ $\ textstyle Y$ с вероятностью $w 2 = 1 - w 1 {\ displaystyle \ textstyle w_ {2} = 1-w_ {1}}$ $\ textstyle w_2 = 1 - w_1$ . Тогда, если $F 1 {\ displaystyle \ textstyle F_ {1}}$ $\ textstyle F_ 1$ - это плотность $X {\ displaystyle \ textstyle X}$ $\textstyle X$ и $F 2 {\ displaystyle \ textstyle F_ {2}}$ $\ textstyle F_2$ - плотность $Y {\ displaystyle \ textstyle Y}$ $\ textstyle Y$ плотность $Z {\ displaystyle \ textstyle Z }$ $\textstyle Z$ равно $F = w 1 F 1 + w 2 F 2 {\ displaystyle \ textstyle F = w_ {1} F_ {1} + w_ {2} F_ {2}}$ $\ textstyle F = w_1 F_1 + w_2 F_2$ . В этом случае $Z {\ displaystyle \ textstyle Z}$ $\textstyle Z$ , как говорят, следует смеси гауссианцев. Пирсон был первым, кто ввел понятие смеси гауссианов в своей попытке объяснить распределение вероятностей, из которого он получил те же данные, которые он хотел проанализировать. Поэтому, выполнив множество вычислений вручную, он наконец приспособил свои данные к смеси гауссиан. Задача обучения в этом случае - определить параметры смеси $w 1, w 2, μ 1, μ 2, Σ 1, Σ 2 {\ displaystyle \ textstyle w_ {1}, w_ {2}, \ mu _ {1}, \ mu _ {2}, \ Sigma _ {1}, \ Sigma _ {2}}$ $\ textstyle w_1, w_2, \ mu_1, \ mu_2, \ Sigma_1, \ Sigma_2$ .

Первая попытка решить эту проблему была от. В этой работе предполагается, что два средних значения гауссианцев находятся достаточно далеко друг от друга. Это означает, что существует нижняя граница расстояния $| | μ 1 - μ 2 | | {\ displaystyle \ textstyle || \ mu _ {1} - \ mu _ {2} ||}$ $\ textstyle || \ mu_1 - \ mu_2 ||$ . Используя это предположение, Дасгупта и многие ученые после него смогли узнать параметры смеси. Процедура обучения начинается с кластеризации выборок в два разных кластера с минимизацией некоторой метрики. Используя предположение, что средние значения гауссианов находятся далеко друг от друга, с высокой вероятностью выборки в первом кластере соответствуют выборкам из первого гауссиана, а выборки во втором кластере - выборкам из второго. Теперь, когда образцы разделены, $μ i, Σ i {\ displaystyle \ textstyle \ mu _ {i}, \ Sigma _ {i}}$ $\ textstyle \ mu_i, \ Sigma_i$ может быть вычислено с помощью простых статистических оценок и $wi {\ displaystyle \ textstyle w_ {i}}$ $\ textstyle w_ {i }$ , сравнивая величину кластеров.

Если $G M {\ displaystyle \ textstyle GM}$ $\ textstyle GM$ представляет собой набор всех смесей двух гауссианов, с помощью вышеуказанной процедуры можно доказать теоремы, подобные следующим.

Теорема

Пусть $D ∈ G M {\ displaystyle \ textstyle D \ in GM}$ $\ textstyle D \ в GM$ с $| | μ 1 - μ 2 | | ≥ сп макс (λ макс (Σ 1), λ макс (Σ 2)) {\ displaystyle \ textstyle || \ mu _ {1} - \ mu _ {2} || \ geq c {\ sqrt {n \ max (\ lambda _ {max} (\ Sigma _ {1}), \ lambda _ {max} (\ Sigma _ {2}))}}}$ $\textstyle ||\mu _{1}-\mu _{2}||\geq c{\sqrt {n\max(\lambda _{max}(\Sigma _{1}),\lambda _{max}(\Sigma _{2}))}}$ , где $c>1/2 {\ displaystyle \ textstyle c>1/2}$ $\textstyle c>1/2$ и $λ max (A) {\ displaystyle \ textstyle \ lambda _ {max} (A)}$ $\ textstyle \ lambda_ {max} (A)$ наибольшее собственное значение $A { \ displaystyle \ textstyle A}$ $\ textstyle A$ , тогда есть алгоритм, который дает $ϵ>0 {\ displaystyle \ textstyle \ epsilon>0}$ $\textstyle \epsilon>0$ , $0 < δ ≤ 1 {\displaystyle \textstyle 0<\delta \leq 1}$ $\ textstyle 0 <\ delta \ le 1$ и доступ к $GEN (D) {\ displaystyle \ textstyle GEN (D)}$ $\textstyle GEN(D)$ находит приближение $wi ′, μ i ′, Σ i ′ {\ displaystyle \ textstyle w '_ {i}, \ mu' _ {i}, \ Sigma '_ {i}}$ $\textstyle w'_i, \mu'_i, \Sigma'_i$ из такие параметры, что $Pr [| | w i - w i ′ | | ≤ ϵ] ≥ 1 - δ {\ displaystyle \ textstyle \ Pr [|| w_ {i} -w '_ {i} || \ leq \ epsilon] \ geq 1- \ delta}$ $\textstyle \Pr[ ||w_i - w'_i|| \le \epsilon ] \ge 1 - \delta$ (соответственно для $μ я {\ displaystyle \ textstyle \ mu _ {i}}$ $\ textstyle \ mu_i$ и $Σ i {\ displaystyle \ textstyle \ Sigma _ {i}}$ $\ textstyle \ Sigma_i$ . примерная сложность этого алгоритма $M = 2 O (log 2 ⁡ (1 / (ϵ δ))) {\ displaystyle \ textstyle M = 2 ^ {O (\ log ^ {2} (1 / (\ epsilon \ delta)))}}$ $\ стиль текста M = 2 ^ {O (\ log ^ 2 (1 / (\ epsilon \ delta)))}$ и время выполнения равно $O (M 2 d + M dn) {\ displaystyle \ textstyle O (M ^ {2} d + Mdn)}$ $\textstyle O(M^2 d + M dn)$ .

Вышеупомянутый результат также может быть обобщен в $k - {\ displaystyle \ textstyle k-}$ $\ textstyle k-$ смеси гауссиан.

Для случая смешения двух гауссиан есть результаты обучения без предположение о расстоянии между их средними значениями, как в следующем примере, в котором в качестве меры расстояния используется расстояние полной вариации.

Теорема

Пусть $F ∈ GM {\ displaystyle \ textstyle F \ in GM}$ $\ textstyle F \ in GM$ тогда есть алгоритм, который дает $ϵ>0 {\ displaystyle \ textstyle \ epsilon>0}$ $\textstyle \epsilon>0$ , $0 < δ ≤ 1 {\displaystyle \textstyle 0<\delta \leq 1}$ $\ textstyle 0 <\ delta \ le 1$ и доступ к $GEN (D) {\ displaystyle \ textstyle GEN (D)}$ $\textstyle GEN(D)$ находит $wi ′, μ i ′, Σ i ′ {\ displaystyle \ textstyle w '_ {i}, \ mu' _ {i}, \ Sigma '_ {i}}$ $\textstyle w'_i, \mu'_i, \Sigma'_i$ такие, что если $F ′ = w 1 ′ F 1 ′ + w 2 ′ F 2 ′ {\ displaystyle \ textstyle F '= w' _ {1} F '_ {1} + w' _ {2} F '_ {2}}$ $\textstyle F' = w'_1 F'_1 + w'_2 F'_2$ , где $F i' = N (μ i ', Σ i') {\ displaystyle \ textstyle F '_ {i} = N (\ mu' _ {i}, \ Sigma '_ {i})}$ $\textstyle F'_i = N(\mu'_i, \Sigma'_i)$ затем $Pr [d (F, F ') ≤ ϵ] ≥ 1 - δ {\ displaystyle \ textstyle \ Pr [d (F, F') \ leq \ epsilon] \ geq 1- \ delta}$ $\textstyle \Pr[ d(F, F') \le \epsilon ] \ge 1 - \delta$ . Сложность выборки и время работы этого алгоритма: $poly (n, 1 / ϵ, 1 / δ, 1 / w 1, 1 / w 2, 1 / d (F 1, F 2)) {\ displaystyle \ textstyle {\ текст {поли}} (п, 1 / \ эпсилон, 1 / \ дельта, 1 / w_ {1}, 1 / w_ {2}, 1 / d (F_ {1}, F_ {2}))}$ $\textstyle \text{poly}(n, 1 / \epsilon, 1 / \delta, 1 / w_1, 1 / w_2, 1 / d(F_1, F_2))$ .

Расстояние между $F 1 {\ displaystyle \ textstyle F_ {1}}$ $\ textstyle F_ 1$ и $F 2 {\ displaystyle \ textstyle F_ {2}}$ $\ textstyle F_2$ не влияет на качество результата алгоритма, а только на сложность выборки и время выполнения.

Ссылки

^ M. Кирнс, Ю. Мансур, Д. Рон, Р. Рубинфельд, Р. Шапир, Л. Селли Об обучаемости дискретных распределений. Симпозиум ACM по теории вычислений, 1994 [1]
^Л. Valiant Теория, которой можно научиться. Сообщения ACM, 1984
^Лоренцо Росаско, Томазо Поджио, «Регуляризационный тур по машинному обучению - MIT-9.520 Лекционные заметки» Рукопись, декабрь 2014 г. [2]
^C. Даскалакис, Г. Камат Быстрее и пример почти оптимальных алгоритмов для правильного обучения смесей гауссианов. Ежегодная конференция по теории обучения, 2014 г. [3]
^С. Даскалакис, И. Диакониколас, Р. Серведио, изучение биномиальных распределений Пуассона. Симпозиум ACM по теории вычислений, 2012 г. [4]
^С. Даскалакис, К. Пападимитриу Редкие обложки для сумм индикаторов. Теория вероятностей и смежные области, 2014 [5]
^C. Даскалакис, И. Диакониколас, Р. О’Доннелл, Р. Серведио, Л. Тан Вычисление сумм независимых целочисленных случайных величин. Симпозиум IEEE по основам компьютерных наук, 2013 г. [6]
^К. Вклад Пирсона в математическую теорию эволюции. Философские труды Королевского общества в Лондоне, 1894 г. [7]
^ С. Дасгупта изучает смеси гауссианцев. Симпозиум IEEE по основам компьютерных наук, 1999 [8]
^ А. Kalai, A. Moitra, G. Valiant, эффективно изучающие смеси двух гауссианцев Симпозиум ACM по теории вычислений, 2010 г. [9pting