Теория распределенного обучения

редактировать

Теория распределенного обучения или изучение распределения вероятностей является основой в теория вычислительного обучения. Он был предложен Майклом Кирнсом, Дана Рон, Рониттом Рубинфельдом, Робертом Шапайром, а в 1994 году он был вдохновлен PAC-framework, представленный Leslie Valiant.

В этой структуре входные данные - это количество выборок, взятых из распределения, которое принадлежит определенному классу распределений. Цель состоит в том, чтобы найти эффективный алгоритм, который на основе этих выборок с высокой вероятностью определяет распределение, из которого были взяты эти выборки. Из-за своей универсальности эта структура использовалась в большом количестве различных областей, таких как машинное обучение, алгоритмы аппроксимации, прикладная вероятность и статистика.

В этой статье объясняются основные определения, инструменты и результаты в этой структуре с точки зрения теории вычислений.

Содержание
  • 1 Определения
  • 2 Первые результаты
  • 3 ϵ - {\ displaystyle \ textstyle \ epsilon -}\textstyle \epsilon-Covers
  • 4 Обучающие суммы случайных величин
    • 4.1 Обучение Биномиальные распределения Пуассона
    • 4.2 Изучение сумм независимых целочисленных случайных переменных
  • 5 Изучение смесей гауссианов
  • 6 Ссылки
Определения

Пусть X {\ displaystyle \ textstyle X}\textstyle Xбыть опорой интересующих распределений. Как и в оригинальной работе Kearns et al. если X {\ displaystyle \ textstyle X}\textstyle Xконечно, можно без ограничения общности предположить, что X = {0, 1} n {\ displaystyle \ textstyle X = \ {0, 1 \} ^ {n}}\ textstyle X = \ {0, 1 \} ^ n где n {\ displaystyle \ textstyle n}\ textstyle n - количество битов, которые должны использоваться для представления любого у ∈ Икс {\ Displaystyle \ TextStyle у \ в X}\textstyle y \i n X. Мы сосредотачиваемся на распределении вероятностей на X {\ displaystyle \ textstyle X}\textstyle X.

Есть два возможных представления распределения вероятностей D {\ displaystyle \ textstyle D}\ textstyle D на X {\ displaystyle \ textstyle X}\textstyle X.

  • функция распределения вероятностей (или оценщик) оценщик ED {\ displaystyle \ textstyle E_ {D}}\textstyle E_Dдля D {\ displaystyle \ textstyle D}\ textstyle D принимает в качестве входных данных любое y ∈ X {\ displaystyle \ textstyle y \ in X}\textstyle y \i n Xи выводит действительное число ED [y] { \ displaystyle \ textstyle E_ {D} [y]}\ textstyle E_D [y] , который обозначает вероятность того, что y {\ displaystyle \ textstyle y}\ textstyle y согласно D {\ displaystyle \ textstyle D}\ textstyle D , т.е. ED [y] = Pr [Y = y] {\ displaystyle \ textstyle E_ {D} [y] = \ Pr [Y = y]}\ textstyle E_D [y] = \ Pr [Y = y] если Y ∼ D {\ displaystyle \ textstyle Y \ sim D}\ textstyle Y \ sim D .
  • генератор генератор GD {\ displaystyle \ textstyle G_ {D}}\ textstyle G_D для D {\ displaystyle \ textstyle D}\ textstyle D принимает как введите строку действительно случайных битов y {\ displaystyle \ textstyle y}\ textstyle y и выведите GD [y] ∈ X {\ displaystyle \ textstyle G_ {D} [y] \ in X }\ textstyle G_D [y] \ in X согласно распределению D {\ displaystyle \ textstyle D}\ textstyle D . Генератор можно интерпретировать как процедуру, имитирующую выборку из распределения D {\ displaystyle \ textstyle D}\ textstyle D с заданной последовательностью подбрасываний монеты.

Распределение D {\ displaystyle \ textstyle D}\ textstyle D вызывается для получения полиномиального генератора (соответственно оценщика), если его генератор (соответственно оценщик) существует и может быть вычислен за полиномиальное время.

Пусть CX {\ displaystyle \ textstyle C_ {X}}\textstyle C_Xкласс распределения по X, то есть CX {\ displaystyle \ textstyle C_ {X}}\textstyle C_X- это такой набор, что каждый D ∈ CX {\ displaystyle \ textstyle D \ in C_ {X}}\ textstyle D \ in C_X является распределением вероятностей с поддержкой X {\ displaystyle \ textstyle X}\textstyle X. C X {\ displaystyle \ textstyle C_ {X}}\textstyle C_Xдля простоты также может быть записан как C {\ displaystyle \ textstyle C}\textstyle C.

Перед определением обучаемости необходимо определить хорошее приближение распределения D {\ displaystyle \ textstyle D}\ textstyle D . Есть несколько способов измерить расстояние между двумя распределениями. Три более распространенных возможности:

Самым сильным из этих расстояний является расхождение Кульбака-Лейблера и самое слабое - расстояние Колмогорова. Это означает, что для любой пары распределений D {\ displaystyle \ textstyle D}\ textstyle D , D ′ {\ displaystyle \ textstyle D '}\textstyle D':

KL - distance (D, D ′) ≥ TV - distance (D, D ′) ≥ К олмогорова - расстояние (D, D ′) {\ displaystyle KL-distance (D, D ') \ geq TV-distance (D, D') \ geq Kolmogorov-distance (D, D ')} KL-distance(D, D') \ge TV-distance(D, D') \ge Kolmogorov-distance(D, D')

Следовательно, например, если D {\ displaystyle \ textstyle D}\ textstyle D и D ′ {\ displaystyle \ textstyle D '}\textstyle D'близки по отношению к Расхождение Кульбака-Лейблера то они также близки по отношению ко всем остальным расстояниям.

Следующие определения справедливы для всех расстояний, поэтому символ d (D, D ′) {\ displaystyle \ textstyle d (D, D ')}\textstyle d(D, D')обозначает расстояние между распределение D {\ displaystyle \ textstyle D}\ textstyle D и распределение D ′ {\ displaystyle \ textstyle D '}\textstyle D'с использованием одного из описанных выше расстояний. Хотя обучаемость класса распределений может быть определена с использованием любого из этих расстояний, приложения относятся к определенному расстоянию.

Базовый ввод, который мы используем для изучения распределения, - это количество выборок, взятых этим распределением. С вычислительной точки зрения предполагается, что такая выборка дается за постоянный промежуток времени. Это похоже на доступ к оракулу GEN (D) {\ displaystyle \ textstyle GEN (D)}\textstyle GEN(D), который возвращает образец из распределения D {\ displaystyle \ textstyle D}\ textstyle D . Иногда интерес, помимо измерения временной сложности, состоит в том, чтобы измерить количество выборок, которые необходимо использовать для изучения конкретного распределения D {\ displaystyle \ textstyle D}\ textstyle D в классе дистрибутивы C {\ displaystyle \ textstyle C}\textstyle C. Эта величина называется выборочной сложностью алгоритма обучения.

Чтобы проблема распределенного обучения была более ясной, рассмотрим проблему контролируемого обучения, как это определено в. В этой структуре теории статистического обучения обучающий набор S = { (Икс 1, Y 1),…, (XN, YN)} {\ Displaystyle \ TextStyle S = \ {(X_ {1}, Y_ {1}), \ точек, (X_ {N}, Y_ {N}) \}}\ textstyle S = \ {(x_1, y_1), \ dots, (x_n, y_n) \} и цель - найти целевую функцию f: X → Y {\ displaystyle \ textstyle f: X \ rightarrow Y}\ textstyle f: X \ rightarrow Y , которая минимизирует некоторую функцию потерь, например квадратная функция потерь. Более формально f = arg ⁡ min g ∫ V (y, g (x)) d ρ (x, y) {\ displaystyle f = \ arg \ min _ {g} \ int V (y, g (x))) d \ rho (x, y)}f = \ arg \ min_ {g} \ int V (y, g (x)) d \ rho (x, y) , где V (⋅, ⋅) {\ displaystyle V (\ cdot, \ cdot)}V(\cdot,\cdot)- функция потерь, например V (y, z) = (y - z) 2 {\ displaystyle V (y, z) = (yz) ^ {2}}V(y, z) = (y - z)^2и ρ (x, y) {\ displaystyle \ rho (x, y)}\rho(x, y)распределение вероятностей, в соответствии с которым выбираются элементы обучающего набора. Если условное распределение вероятностей ρ x (y) {\ displaystyle \ rho _ {x} (y)}\ rho_x (y) известно, то целевая функция имеет замкнутую форму е (х) знак равно ∫ yyd ρ x (y) {\ displaystyle f (x) = \ int _ {y} yd \ rho _ {x} (y)}f(x) = \int_y yd\rho_x(y). Итак, набор S {\ displaystyle S}S - это набор выборок из распределения вероятностей ρ (x, y) {\ displaystyle \ rho (x, y)}\rho(x, y). Теперь цель теории распределенного обучения - найти ρ {\ displaystyle \ rho}\ rho с заданным S {\ displaystyle S}S , который можно использовать для поиска цели функция f {\ displaystyle f}f.

Определение обучаемости

Класс распределений C {\ displaystyle \ textstyle C}\textstyle Cназывается эффективно обучаемым если для каждого ϵ>0 {\ displaystyle \ textstyle \ epsilon>0}\textstyle \epsilon>0 и 0 < δ ≤ 1 {\displaystyle \textstyle 0<\delta \leq 1}\ textstyle 0 <\ delta \ le 1 предоставлен доступ к GEN (D) {\ displaystyle \ textstyle GEN (D)}\textstyle GEN(D)для неизвестного распределение D ∈ C {\ displaystyle \ textstyle D \ in C}\ textstyle D \ in C , существует алгоритм полиномиального времени A {\ displaystyle \ textstyle A}\ textstyle A , называемый обучением алгоритм C {\ displaystyle \ textstyle C}\textstyle C, который выводит генератор или вычислитель распределения D ′ {\ displaystyle \ text стиль D '}\textstyle D'такой, что

Pr [d (D, D') ≤ ϵ] ≥ 1 - δ {\ displaystyle \ Pr [d (D, D ') \ leq \ epsilon] \ geq 1- \ delta} \Pr[ d(D, D') \le \epsilon ] \ge 1 - \delta

Если мы знаем, что D ′ ∈ C {\ displaystyle \ textstyle D '\ in C}\textstyle D' \in C, тогда A {\ displaystyle \ textstyle A}\ textstyle A называется алгоритм правильного обучения, иначе называется алгоритм неправильного обучения .

В некоторых настройках класс распределений C {\ displaystyle \ textstyle C}\textstyle C- это класс с хорошо известными распределениями, которые можно описать набором параметров. Например, C {\ displaystyle \ textstyle C}\textstyle Cможет быть классом всех гауссовских распределений N (μ, σ 2) {\ displaystyle \ textstyle N (\ mu, \ sigma ^ {2})}\textstyle N(\mu, \sigma^2). В этом случае алгоритм A {\ displaystyle \ textstyle A}\ textstyle A должен уметь оценивать параметры μ, σ {\ displaystyle \ textstyle \ mu, \ sigma}\ textstyle \ mu, \ sigma . В этом случае A {\ displaystyle \ textstyle A}\ textstyle A называется алгоритмом обучения параметрам .

Очевидно, что изучение параметров для простых распределений является очень хорошо изученной областью, которая называется статистической оценкой и существует очень длинная библиография по различным оценкам для различных видов простых известных распределений. Но теория обучения распределений имеет дело с классом обучения распределений, которые имеют более сложное описание.

Первые результаты

В своей основополагающей работе Kearns et al. имеют дело со случаем, когда A {\ displaystyle \ textstyle A}\ textstyle A описывается в терминах схемы с конечным полиномиальным размером, и они доказали следующее для некоторых конкретных классов распределения.

  • OR {\ displaystyle \ textstyle OR}\ textstyle OR вентильные распределения для этого типа распределений не существует вычислителя полиномиального размера, кроме случаев # P ⊆ P / poly {\ displaystyle \ textstyle \ #P \ substeq P / {\ text {poly}}}\textstyle \#P \subseteq P/\text{poly}. С другой стороны, этот класс эффективно обучается с помощью генератора.
  • Распределения вентилей четности этот класс эффективно обучается как с генератором, так и с вычислителем.
  • Смеси шаров Хэмминга этот класс эффективно обучается обоими генератор и оценщик.
  • Вероятностные конечные автоматы этот класс не может быть эффективно изучен с помощью оценщика в соответствии с допущением о шумовой четности, которое является невозможным предположением в среде обучения PAC.
ϵ - {\ displaystyle \ textstyle \ epsilon - }\textstyle \epsilon-Охватывает

Один очень распространенный метод поиска алгоритма обучения для класса распределений C {\ displaystyle \ textstyle C}\textstyle C- сначала найдите маленькую ϵ - {\ displaystyle \ textstyle \ epsilon -}\textstyle \epsilon-обложку C {\ displaystyle \ textstyle C}\textstyle C.

Определение

Набор C ϵ {\ displaystyle \ textstyle C _ {\ epsilon}}\textstyle C_{\epsilon}называется ϵ {\ displaystyle \ textstyle \ epsilon}\textstyle \epsilon - обложка C {\ displaystyle \ te xtstyle C}\textstyle Cесли для каждого D ∈ C {\ displaystyle \ textstyle D \ in C}\ textstyle D \ in C существует D ′ ∈ C ϵ {\ displaystyle \ textstyle D '\ в C _ {\ epsilon}}\textstyle D' \in C_{\epsilon}так, что d (D, D') ≤ ϵ {\ displaystyle \ textstyle d (D, D ') \ leq \ epsilon}\textstyle d(D, D') \le \epsilon. Обложка ϵ - {\ displaystyle \ textstyle \ epsilon -}\textstyle \epsilon-мала, если она имеет полиномиальный размер относительно параметров, описывающих D {\ displaystyle \ textstyle D}\ textstyle D .

Как только существует эффективная процедура, которая для каждого ϵ>0 {\ displaystyle \ textstyle \ epsilon>0}\textstyle \epsilon>0 находит маленькую ϵ - {\ displaystyle \ textstyle \ epsilon -}\textstyle \epsilon-обложку \ textstyle Y \textstyle \epsilon-C ϵ {\ displaystyle \ textstyle C _ {\ epsilon}}\textstyle C_{\epsilon}of C, тогда единственная оставшаяся задача - выбрать из C ϵ {\ displaystyle \ textstyle C _ {\ epsilon}}\textstyle C_{\epsilon}распределение D ′ ∈ C ϵ {\ displaystyle \ textstyle D '\ in C _ {\ epsilon}}\textstyle D' \in C_{\epsilon}, которое ближе к распределению D ∈ C {\ displaystyle \ textstyle D \ in C}\ textstyle D \ in C , которое необходимо выучить.

Проблема в том, что при D ′, D ″ ∈ C ϵ {\ displaystyle \ textstyle D ', D' ' \ in C _ {\ epsilon}}\textstyle D', D'' \in C_{\epsilon}нетривиально, как мы можем сравнить d (D, D ') {\ displaystyle \ textstyle d (D, D')}\textstyle d(D, D')и d (D, D ″) {\ displaystyle \ textstyle d (D, D '')}\textstyle d(D, D''), чтобы решить, какой из них ближе всего к D {\ displaystyle \ textstyle D}\ textstyle D , потому что D {\ displaystyle \ textstyle D}\ textstyle D неизвестен. Следовательно, для этих сравнений необходимо использовать образцы из D {\ displaystyle \ textstyle D}\ textstyle D . Очевидно, что результат сравнения всегда имеет вероятность ошибки. Таким образом, задача аналогична поиску минимума в наборе элементов с использованием зашумленных сравнений. Для достижения этой цели существует множество классических алгоритмов. Самый последний алгоритм, обеспечивающий наилучшие гарантии, был предложен Даскалакисом, и этот алгоритм устанавливает быстрый турнир между элементами C ϵ {\ displaystyle \ textstyle C _ {\ epsilon}}\textstyle C_{\epsilon}где победитель D ∗ {\ displaystyle \ textstyle D ^ {*}}\ textstyle D ^ * этого турнира является элементом, который равен ϵ - {\ displaystyle \ textstyle \ epsilon -}\textstyle \epsilon-близко к D {\ displaystyle \ textstyle D}\ textstyle D (т.е. d (D ∗, D) ≤ ϵ {\ displaystyle \ textstyle d (D ^ {* }, D) \ leq \ epsilon}\ textstyle d (D ^ *, D) \ le \ epsilon ) с вероятностью не менее 1 - δ {\ displaystyle \ textstyle 1- \ delta}\ textstyle 1 - \ delta . Для этого их алгоритм использует O (log ⁡ N / ϵ 2) {\ displaystyle \ textstyle O (\ log N / \ epsilon ^ {2})}\textstyle O(\log N / \epsilon^2)выборки из D {\ displaystyle \ textstyle D}\ textstyle D и выполняется в O (N log ⁡ N / ϵ 2) {\ displaystyle \ textstyle O (N \ log N / \ epsilon ^ {2})}\textstyle O (N \log N / \epsilon^2)время, где N = | C ϵ | {\ displaystyle \ textstyle N = | C _ {\ epsilon} |}\ textstyle N = | C _ {\ epsilon} | .

Изучение сумм случайных величин

Изучение простых хорошо известных распределений - хорошо изученная область, и есть много оценок, которые можно используемый. Еще один сложный класс распределений - это распределение суммы переменных, подчиняющееся простым распределениям. Эта процедура обучения имеет тесную связь с предельными теоремами, такими как центральная предельная теорема, потому что они стремятся исследовать один и тот же объект, когда сумма стремится к бесконечной сумме. Недавно были получены два описанных здесь результата: изучение биномиальных распределений Пуассона и обучение сумм независимых целочисленных случайных величин. Все приведенные ниже результаты верны при использовании расстояния общего отклонения в качестве меры расстояния.

Изучение биномиальных распределений Пуассона

Рассмотрим n {\ displaystyle \ textstyle n}\ textstyle n независимые случайные величины Бернулли X 1,…, X n {\ displaystyle \ textstyle X_ {1}, \ dots, X_ {n}}\textstyle X_1, \dots, X_nс вероятностями успеха p 1,…, pn {\ displaystyle \ textstyle p_ {1}, \ dots, p_ { n}}\textstyle p_1, \dots, p_n. Биномиальное распределение Пуассона порядка n {\ displaystyle \ textstyle n}\ textstyle n - это распределение суммы X = ∑ i X i {\ displaystyle \ textstyle X = \ sum _ {i } X_ {i}}\textstyle X = \sum_i X_i. Для изучения класса PBD = {D: D - биномиальное распределение Пуассона} {\ displaystyle \ textstyle PBD = \ {D: D ~ {\ text {- биномиальное распределение Пуассона}} \}}\ textstyle PBD = \ {D: D ~ \ text {- биномиальное распределение Пуассона} \ } . Первый из следующих результатов касается случая неправильного обучения PBD {\ displaystyle \ textstyle PBD}\ textstyle PBD , а второй - правильного изучения PBD {\ displaystyle \ textstyle PBD}.\ textstyle PBD .

Теорема

Пусть D ∈ PBD {\ displaystyle \ textstyle D \ in PBD}\ textstyle D \ in PBD , тогда существует алгоритм, который дает n {\ displaystyle \ textstyle n}\ textstyle n , ϵ>0 {\ displaystyle \ textstyle \ epsilon>0}\textstyle \epsilon>0 , 0 < δ ≤ 1 {\displaystyle \textstyle 0<\delta \leq 1}\ textstyle 0 <\ delta \ le 1 и доступ к GEN (D) {\ displaystyle \ textstyle GEN (D)}\textstyle GEN(D)находит D ′ { \ displaystyle \ textstyle D '}\textstyle D'такой, что Pr [d (D, D ′) ≤ ϵ] ≥ 1 - δ {\ displaystyle \ textstyle \ Pr [d (D, D') \ leq \ epsilon] \ geq 1- \ delta}\textstyle \Pr[ d(D, D') \le \epsilon ] \ge 1 - \delta. Примерная сложность этого алгоритма O ~ ((1 / ϵ 3) log ⁡ (1 / δ)) {\ displaystyle \ textstyle {\ tilde {O}} ((1 / \ epsilon ^ {3}) \ log (1 / \ delta))}\ textstyle \ tilde {O} ((1 / \ epsilon ^ 3) \ log (1 / \ delta)) и время выполнения равно O ~ ((1 / ϵ 3) log ⁡ n log 2 ⁡ (1 / δ)) {\ displaystyle \ textstyle {\ tilde {O}} ( (1 / \ epsilon ^ {3}) \ log n \ log ^ {2} (1 / \ delta))}\ textstyle \ тильда {O} ((1 / \ epsilon ^ 3) \ log n \ log ^ 2 (1 / \ delta)) .

Теорема

Пусть D ∈ PBD {\ displaystyle \ textstyle D \ in PBD }\ textstyle D \ in PBD тогда существует алгоритм, которому задан класс n {\ displaystyle \ textstyle n}\ textstyle n , ϵ>0 {\ displaystyle \ textstyle \ epsilon>0}\textstyle \epsilon>0 , 0 < δ ≤ 1 {\displaystyle \textstyle 0<\delta \leq 1}\ textstyle 0 <\ delta \ le 1 и доступ к GEN (D) {\ displaystyle \ textstyle GEN (D)}\textstyle GEN(D)находит D ′ ∈ PBD {\ displaystyle \ textstyle D '\ in PBD}\textstyle D' \in PBDтакой, что Pr [d (D, D ′) ≤ ϵ] ≥ 1 - δ {\ displaystyle \ textstyle \ Pr [d (D, D ') \ leq \ epsilon] \ geq 1- \ delta}\textstyle \Pr[ d(D, D') \le \epsilon ] \ge 1 - \delta. Примерная сложность этого алгоритма составляет O ~ ((1 / ϵ 2)) log ⁡ (1 / δ) {\ displaystyle \ textstyle {\ tilde {O}} ((1 / \ epsilon ^ {2})) \ log (1 / \ delta)}\ textstyle \ tilde {O} ((1 / \ epsilon ^ 2)) \ журнал (1 / \ дельта) и время выполнения составляет (1 / ϵ) O (log 2 ⁡ (1 / ϵ)) O ~ (log ⁡ n log ⁡ (1 / δ)) {\ displaystyle \ textstyle (1 / \ epsilon) ^ {O (\ log ^ {2} (1 / \ epsilon))} {\ tilde {O}} (\ log n \ log (1 / \ delta))}\ textstyle (1 / \ epsilon) ^ {O (\ log ^ 2 (1 / \ epsilon))} \ tilde {O} (\ журнал п \ журнал (1 / \ дельта)) .

Одна часть приведенных выше результатов заключается в том, что сложность примера алгоритма обучения не зависит от n {\ displaystyle \ textstyle n}\ textstyle n , хотя описание D {\ displaystyle \ textstyle D}\ textstyle D линейно в n {\ displaystyle \ textstyle n}\ textstyle n . Кроме того, второй результат является почти оптимальным с точки зрения сложности выборки, поскольку существует нижняя граница O (1 / ϵ 2) {\ displaystyle \ textstyle O (1 / \ epsilon ^ {2})}\ textstyle O (1 / \ epsilon ^ 2) .

В доказательстве используется небольшая ϵ - {\ displaystyle \ textstyle \ epsilon -}\textstyle \epsilon-обложка PBD {\ displaystyle \ textstyle PBD}\ textstyle PBD , созданная Даскалакису и Пападимитриу, чтобы получить этот алгоритм.

Изучение сумм независимых целочисленных случайных переменных

Рассмотрим n {\ displaystyle \ textstyle n}\ textstyle n независимых случайных величин X 1,…, X n {\ displaystyle \ textstyle X_ {1}, \ dots, X_ {n}}\textstyle X_1, \dots, X_nкаждый из которых следует произвольному распределению с поддержкой {0, 1,…, k - 1} {\ displaystyle \ textstyle \ {0,1, \ точки, k-1 \}}\textstyle \{0, 1, \dots, k - 1\}. A k - {\ displaystyle \ textstyle k-}\ textstyle k- сумма независимых целочисленных случайных величин порядка n {\ displaystyle \ textstyle n}\ textstyle n - распределение сумма Икс = ∑ я Икс я {\ displaystyle \ textstyle X = \ sum _ {i} X_ {i}}\textstyle X = \sum_i X_i. Для изучения класса

k - SIIRV = {D: D представляет собой k-сумму независимых целочисленных случайных величин} {\ displaystyle \ textstyle k-SIIRV = \ {D: D {\ text {представляет собой k-сумму независимая целочисленная случайная величина}} \}}\ textstyle k-SIIRV = \ {D: D \ text {представляет собой k-сумму независимой целочисленной случайной величины} \}

имеется следующий результат

Теорема

Пусть D ∈ k - SIIRV {\ displaystyle \ textstyle D \ in k-SIIRV}\textstyle D \in k-SIIRVто есть алгоритм, который дает n {\ displaystyle \ textstyle n}\ textstyle n , ϵ>0 {\ displaystyle \ textstyle \ epsilon>0}\textstyle \epsilon>0 и доступ к GEN (D) {\ displaystyle \ textstyle GEN D)}\textstyle GEN(D)находит D ′ {\ displaystyle \ textstyle D '}\textstyle D'такой, что Pr [d (D, D ′) ≤ ϵ] ≥ 1 - δ {\ displaystyle \ textstyle \ Pr [d (D, D ') \ leq \ epsilon] \ geq 1- \ delta}\textstyle \Pr[ d(D, D') \le \epsilon ] \ge 1 - \delta. Примерная сложность этого алгоритма poly (k / ϵ) {\ displaystyle \ textstyle {\ text {poly}} (k / \ epsilon)}\textstyle \text{poly}(k / \ epsilon)и время выполнения также poly (k / ϵ) {\ displaystyle \ textstyle {\ text {poly}} (k / \ epsilon)}\textstyle \text{poly}(k / \ epsilon).

Другая часть состоит в том, что выборка и временная сложность не зависит от n {\ displaystyle \ textstyle n}\ textstyle n . Можно заключить эту независимость для предыдущего раздела, если мы установим k = 2 {\ displaystyle \ textstyle k = 2}\textstyle k = 2.

Обучающие смеси гауссианов

Пусть случайные величины X ∼ N (μ 1, Σ 1) {\ displaystyle \ textstyle X \ sim N (\ mu _ {1}, \ Sigma _ {1})}\ textstyle X \ sim N (\ mu_1, \ Sigma_1) и Y ∼ N (μ 2, Σ 2) {\ displaystyle \ textstyle Y \ sim N (\ mu _ {2}, \ Sigma _ {2})}\ textstyle Y \ sim N (\ mu_2, \ Sigma_2) . Определите случайную переменную Z {\ displaystyle \ textstyle Z}\textstyle Z, которая принимает то же значение, что и X {\ displaystyle \ textstyle X}\textstyle Xс вероятностью w 1 {\ displaystyle \ textstyle w_ {1}}\ textstyle w_1 и то же значение, что и Y {\ displaystyle \ textstyle Y}\ textstyle Y с вероятностью w 2 = 1 - w 1 {\ displaystyle \ textstyle w_ {2} = 1-w_ {1}}\ textstyle w_2 = 1 - w_1 . Тогда, если F 1 {\ displaystyle \ textstyle F_ {1}}\ textstyle F_ 1 - это плотность X {\ displaystyle \ textstyle X}\textstyle Xи F 2 {\ displaystyle \ textstyle F_ {2}}\ textstyle F_2 - плотность Y {\ displaystyle \ textstyle Y}\ textstyle Y плотность Z {\ displaystyle \ textstyle Z }\textstyle Zравно F = w 1 F 1 + w 2 F 2 {\ displaystyle \ textstyle F = w_ {1} F_ {1} + w_ {2} F_ {2}}\ textstyle F = w_1 F_1 + w_2 F_2 . В этом случае Z {\ displaystyle \ textstyle Z}\textstyle Z, как говорят, следует смеси гауссианцев. Пирсон был первым, кто ввел понятие смеси гауссианов в своей попытке объяснить распределение вероятностей, из которого он получил те же данные, которые он хотел проанализировать. Поэтому, выполнив множество вычислений вручную, он наконец приспособил свои данные к смеси гауссиан. Задача обучения в этом случае - определить параметры смеси w 1, w 2, μ 1, μ 2, Σ 1, Σ 2 {\ displaystyle \ textstyle w_ {1}, w_ {2}, \ mu _ {1}, \ mu _ {2}, \ Sigma _ {1}, \ Sigma _ {2}}\ textstyle w_1, w_2, \ mu_1, \ mu_2, \ Sigma_1, \ Sigma_2 .

Первая попытка решить эту проблему была от. В этой работе предполагается, что два средних значения гауссианцев находятся достаточно далеко друг от друга. Это означает, что существует нижняя граница расстояния | | μ 1 - μ 2 | | {\ displaystyle \ textstyle || \ mu _ {1} - \ mu _ {2} ||}\ textstyle || \ mu_1 - \ mu_2 || . Используя это предположение, Дасгупта и многие ученые после него смогли узнать параметры смеси. Процедура обучения начинается с кластеризации выборок в два разных кластера с минимизацией некоторой метрики. Используя предположение, что средние значения гауссианов находятся далеко друг от друга, с высокой вероятностью выборки в первом кластере соответствуют выборкам из первого гауссиана, а выборки во втором кластере - выборкам из второго. Теперь, когда образцы разделены, μ i, Σ i {\ displaystyle \ textstyle \ mu _ {i}, \ Sigma _ {i}}\ textstyle \ mu_i, \ Sigma_i может быть вычислено с помощью простых статистических оценок и wi {\ displaystyle \ textstyle w_ {i}}\ textstyle w_ {i } , сравнивая величину кластеров.

Если G M {\ displaystyle \ textstyle GM}\ textstyle GM представляет собой набор всех смесей двух гауссианов, с помощью вышеуказанной процедуры можно доказать теоремы, подобные следующим.

Теорема

Пусть D ∈ G M {\ displaystyle \ textstyle D \ in GM}\ textstyle D \ в GM с | | μ 1 - μ 2 | | ≥ сп макс (λ макс (Σ 1), λ макс (Σ 2)) {\ displaystyle \ textstyle || \ mu _ {1} - \ mu _ {2} || \ geq c {\ sqrt {n \ max (\ lambda _ {max} (\ Sigma _ {1}), \ lambda _ {max} (\ Sigma _ {2}))}}}{\displaystyle \textstyle ||\mu _{1}-\mu _{2}||\geq c{\sqrt {n\max(\lambda _{max}(\Sigma _{1}),\lambda _{max}(\Sigma _{2}))}}}, где c>1/2 {\ displaystyle \ textstyle c>1/2}\textstyle c>1/2 и λ max (A) {\ displaystyle \ textstyle \ lambda _ {max} (A)}\ textstyle \ lambda_ {max} (A) наибольшее собственное значение A { \ displaystyle \ textstyle A}\ textstyle A , тогда есть алгоритм, который дает ϵ>0 {\ displaystyle \ textstyle \ epsilon>0}\textstyle \epsilon>0 , 0 < δ ≤ 1 {\displaystyle \textstyle 0<\delta \leq 1}\ textstyle 0 <\ delta \ le 1 и доступ к GEN (D) {\ displaystyle \ textstyle GEN (D)}\textstyle GEN(D)находит приближение wi ′, μ i ′, Σ i ′ {\ displaystyle \ textstyle w '_ {i}, \ mu' _ {i}, \ Sigma '_ {i}}\textstyle w'_i, \mu'_i, \Sigma'_i из такие параметры, что Pr [| | w i - w i ′ | | ≤ ϵ] ≥ 1 - δ {\ displaystyle \ textstyle \ Pr [|| w_ {i} -w '_ {i} || \ leq \ epsilon] \ geq 1- \ delta}\textstyle \Pr[ ||w_i - w'_i|| \le \epsilon ] \ge 1 - \delta(соответственно для μ я {\ displaystyle \ textstyle \ mu _ {i}}\ textstyle \ mu_i и Σ i {\ displaystyle \ textstyle \ Sigma _ {i}}\ textstyle \ Sigma_i . примерная сложность этого алгоритма M = 2 O (log 2 ⁡ (1 / (ϵ δ))) {\ displaystyle \ textstyle M = 2 ^ {O (\ log ^ {2} (1 / (\ epsilon \ delta)))}}\ стиль текста M = 2 ^ {O (\ log ^ 2 (1 / (\ epsilon \ delta)))} и время выполнения равно O (M 2 d + M dn) {\ displaystyle \ textstyle O (M ^ {2} d + Mdn)}\textstyle O(M^2 d + M dn).

Вышеупомянутый результат также может быть обобщен в k - {\ displaystyle \ textstyle k-}\ textstyle k- смеси гауссиан.

Для случая смешения двух гауссиан есть результаты обучения без предположение о расстоянии между их средними значениями, как в следующем примере, в котором в качестве меры расстояния используется расстояние полной вариации.

Теорема

Пусть F ∈ GM {\ displaystyle \ textstyle F \ in GM}\ textstyle F \ in GM тогда есть алгоритм, который дает ϵ>0 {\ displaystyle \ textstyle \ epsilon>0}\textstyle \epsilon>0 , 0 < δ ≤ 1 {\displaystyle \textstyle 0<\delta \leq 1}\ textstyle 0 <\ delta \ le 1 и доступ к GEN (D) {\ displaystyle \ textstyle GEN (D)}\textstyle GEN(D)находит wi ′, μ i ′, Σ i ′ {\ displaystyle \ textstyle w '_ {i}, \ mu' _ {i}, \ Sigma '_ {i}}\textstyle w'_i, \mu'_i, \Sigma'_i такие, что если F ′ = w 1 ′ F 1 ′ + w 2 ′ F 2 ′ {\ displaystyle \ textstyle F '= w' _ {1} F '_ {1} + w' _ {2} F '_ {2}}\textstyle F' = w'_1 F'_1 + w'_2 F'_2, где F i' = N (μ i ', Σ i') {\ displaystyle \ textstyle F '_ {i} = N (\ mu' _ {i}, \ Sigma '_ {i})}\textstyle F'_i = N(\mu'_i, \Sigma'_i)затем Pr [d (F, F ') ≤ ϵ] ≥ 1 - δ {\ displaystyle \ textstyle \ Pr [d (F, F') \ leq \ epsilon] \ geq 1- \ delta}\textstyle \Pr[ d(F, F') \le \epsilon ] \ge 1 - \delta. Сложность выборки и время работы этого алгоритма: poly (n, 1 / ϵ, 1 / δ, 1 / w 1, 1 / w 2, 1 / d (F 1, F 2)) {\ displaystyle \ textstyle {\ текст {поли}} (п, 1 / \ эпсилон, 1 / \ дельта, 1 / w_ {1}, 1 / w_ {2}, 1 / d (F_ {1}, F_ {2}))}\textstyle \text{poly}(n, 1 / \epsilon, 1 / \delta, 1 / w_1, 1 / w_2, 1 / d(F_1, F_2)).

Расстояние между F 1 {\ displaystyle \ textstyle F_ {1}}\ textstyle F_ 1 и F 2 {\ displaystyle \ textstyle F_ {2}}\ textstyle F_2 не влияет на качество результата алгоритма, а только на сложность выборки и время выполнения.

Ссылки
  1. ^ M. Кирнс, Ю. Мансур, Д. Рон, Р. Рубинфельд, Р. Шапир, Л. Селли Об обучаемости дискретных распределений. Симпозиум ACM по теории вычислений, 1994 [1]
  2. ^Л. Valiant Теория, которой можно научиться. Сообщения ACM, 1984
  3. ^Лоренцо Росаско, Томазо Поджио, «Регуляризационный тур по машинному обучению - MIT-9.520 Лекционные заметки» Рукопись, декабрь 2014 г. [2]
  4. ^C. Даскалакис, Г. Камат Быстрее и пример почти оптимальных алгоритмов для правильного обучения смесей гауссианов. Ежегодная конференция по теории обучения, 2014 г. [3]
  5. ^С. Даскалакис, И. Диакониколас, Р. Серведио, изучение биномиальных распределений Пуассона. Симпозиум ACM по теории вычислений, 2012 г. [4]
  6. ^С. Даскалакис, К. Пападимитриу Редкие обложки для сумм индикаторов. Теория вероятностей и смежные области, 2014 [5]
  7. ^C. Даскалакис, И. Диакониколас, Р. О’Доннелл, Р. Серведио, Л. Тан Вычисление сумм независимых целочисленных случайных величин. Симпозиум IEEE по основам компьютерных наук, 2013 г. [6]
  8. ^К. Вклад Пирсона в математическую теорию эволюции. Философские труды Королевского общества в Лондоне, 1894 г. [7]
  9. ^ С. Дасгупта изучает смеси гауссианцев. Симпозиум IEEE по основам компьютерных наук, 1999 [8]
  10. ^ А. Kalai, A. Moitra, G. Valiant, эффективно изучающие смеси двух гауссианцев Симпозиум ACM по теории вычислений, 2010 г. [9pting
Последняя правка сделана 2021-05-17 09:16:52
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте