Теория распределенного обучения или изучение распределения вероятностей является основой в теория вычислительного обучения. Он был предложен Майклом Кирнсом, Дана Рон, Рониттом Рубинфельдом, Робертом Шапайром, а в 1994 году он был вдохновлен PAC-framework, представленный Leslie Valiant.
В этой структуре входные данные - это количество выборок, взятых из распределения, которое принадлежит определенному классу распределений. Цель состоит в том, чтобы найти эффективный алгоритм, который на основе этих выборок с высокой вероятностью определяет распределение, из которого были взяты эти выборки. Из-за своей универсальности эта структура использовалась в большом количестве различных областей, таких как машинное обучение, алгоритмы аппроксимации, прикладная вероятность и статистика.
В этой статье объясняются основные определения, инструменты и результаты в этой структуре с точки зрения теории вычислений.
Содержание
- 1 Определения
- 2 Первые результаты
- 3 Covers
- 4 Обучающие суммы случайных величин
- 4.1 Обучение Биномиальные распределения Пуассона
- 4.2 Изучение сумм независимых целочисленных случайных переменных
- 5 Изучение смесей гауссианов
- 6 Ссылки
Определения
Пусть быть опорой интересующих распределений. Как и в оригинальной работе Kearns et al. если конечно, можно без ограничения общности предположить, что где - количество битов, которые должны использоваться для представления любого . Мы сосредотачиваемся на распределении вероятностей на .
Есть два возможных представления распределения вероятностей на .
- функция распределения вероятностей (или оценщик) оценщик для принимает в качестве входных данных любое и выводит действительное число , который обозначает вероятность того, что согласно , т.е. если .
- генератор генератор для принимает как введите строку действительно случайных битов и выведите согласно распределению . Генератор можно интерпретировать как процедуру, имитирующую выборку из распределения с заданной последовательностью подбрасываний монеты.
Распределение вызывается для получения полиномиального генератора (соответственно оценщика), если его генератор (соответственно оценщик) существует и может быть вычислен за полиномиальное время.
Пусть класс распределения по X, то есть - это такой набор, что каждый является распределением вероятностей с поддержкой . для простоты также может быть записан как .
Перед определением обучаемости необходимо определить хорошее приближение распределения . Есть несколько способов измерить расстояние между двумя распределениями. Три более распространенных возможности:
Самым сильным из этих расстояний является расхождение Кульбака-Лейблера и самое слабое - расстояние Колмогорова. Это означает, что для любой пары распределений , :
Следовательно, например, если и близки по отношению к Расхождение Кульбака-Лейблера то они также близки по отношению ко всем остальным расстояниям.
Следующие определения справедливы для всех расстояний, поэтому символ обозначает расстояние между распределение и распределение с использованием одного из описанных выше расстояний. Хотя обучаемость класса распределений может быть определена с использованием любого из этих расстояний, приложения относятся к определенному расстоянию.
Базовый ввод, который мы используем для изучения распределения, - это количество выборок, взятых этим распределением. С вычислительной точки зрения предполагается, что такая выборка дается за постоянный промежуток времени. Это похоже на доступ к оракулу , который возвращает образец из распределения . Иногда интерес, помимо измерения временной сложности, состоит в том, чтобы измерить количество выборок, которые необходимо использовать для изучения конкретного распределения в классе дистрибутивы . Эта величина называется выборочной сложностью алгоритма обучения.
Чтобы проблема распределенного обучения была более ясной, рассмотрим проблему контролируемого обучения, как это определено в. В этой структуре теории статистического обучения обучающий набор и цель - найти целевую функцию , которая минимизирует некоторую функцию потерь, например квадратная функция потерь. Более формально , где - функция потерь, например и распределение вероятностей, в соответствии с которым выбираются элементы обучающего набора. Если условное распределение вероятностей известно, то целевая функция имеет замкнутую форму . Итак, набор - это набор выборок из распределения вероятностей . Теперь цель теории распределенного обучения - найти с заданным , который можно использовать для поиска цели функция .
Определение обучаемости
Класс распределений называется эффективно обучаемым если для каждого и предоставлен доступ к для неизвестного распределение , существует алгоритм полиномиального времени , называемый обучением алгоритм , который выводит генератор или вычислитель распределения такой, что
Если мы знаем, что , тогда называется алгоритм правильного обучения, иначе называется алгоритм неправильного обучения .
В некоторых настройках класс распределений - это класс с хорошо известными распределениями, которые можно описать набором параметров. Например, может быть классом всех гауссовских распределений . В этом случае алгоритм должен уметь оценивать параметры . В этом случае называется алгоритмом обучения параметрам .
Очевидно, что изучение параметров для простых распределений является очень хорошо изученной областью, которая называется статистической оценкой и существует очень длинная библиография по различным оценкам для различных видов простых известных распределений. Но теория обучения распределений имеет дело с классом обучения распределений, которые имеют более сложное описание.
Первые результаты
В своей основополагающей работе Kearns et al. имеют дело со случаем, когда описывается в терминах схемы с конечным полиномиальным размером, и они доказали следующее для некоторых конкретных классов распределения.
- вентильные распределения для этого типа распределений не существует вычислителя полиномиального размера, кроме случаев . С другой стороны, этот класс эффективно обучается с помощью генератора.
- Распределения вентилей четности этот класс эффективно обучается как с генератором, так и с вычислителем.
- Смеси шаров Хэмминга этот класс эффективно обучается обоими генератор и оценщик.
- Вероятностные конечные автоматы этот класс не может быть эффективно изучен с помощью оценщика в соответствии с допущением о шумовой четности, которое является невозможным предположением в среде обучения PAC.
Охватывает
Один очень распространенный метод поиска алгоритма обучения для класса распределений - сначала найдите маленькую обложку .
Определение
Набор называется - обложка если для каждого существует так, что . Обложка мала, если она имеет полиномиальный размер относительно параметров, описывающих .
Как только существует эффективная процедура, которая для каждого находит маленькую обложку C ϵ {\ displaystyle \ textstyle C _ {\ epsilon}}of C, тогда единственная оставшаяся задача - выбрать из распределение , которое ближе к распределению , которое необходимо выучить.
Проблема в том, что при нетривиально, как мы можем сравнить и , чтобы решить, какой из них ближе всего к , потому что неизвестен. Следовательно, для этих сравнений необходимо использовать образцы из . Очевидно, что результат сравнения всегда имеет вероятность ошибки. Таким образом, задача аналогична поиску минимума в наборе элементов с использованием зашумленных сравнений. Для достижения этой цели существует множество классических алгоритмов. Самый последний алгоритм, обеспечивающий наилучшие гарантии, был предложен Даскалакисом, и этот алгоритм устанавливает быстрый турнир между элементами где победитель этого турнира является элементом, который равен близко к (т.е. ) с вероятностью не менее . Для этого их алгоритм использует выборки из и выполняется в время, где .
Изучение сумм случайных величин
Изучение простых хорошо известных распределений - хорошо изученная область, и есть много оценок, которые можно используемый. Еще один сложный класс распределений - это распределение суммы переменных, подчиняющееся простым распределениям. Эта процедура обучения имеет тесную связь с предельными теоремами, такими как центральная предельная теорема, потому что они стремятся исследовать один и тот же объект, когда сумма стремится к бесконечной сумме. Недавно были получены два описанных здесь результата: изучение биномиальных распределений Пуассона и обучение сумм независимых целочисленных случайных величин. Все приведенные ниже результаты верны при использовании расстояния общего отклонения в качестве меры расстояния.
Изучение биномиальных распределений Пуассона
Рассмотрим независимые случайные величины Бернулли с вероятностями успеха . Биномиальное распределение Пуассона порядка - это распределение суммы . Для изучения класса . Первый из следующих результатов касается случая неправильного обучения , а второй - правильного изучения .
Теорема
Пусть , тогда существует алгоритм, который дает , , и доступ к находит такой, что . Примерная сложность этого алгоритма и время выполнения равно .
Теорема
Пусть тогда существует алгоритм, которому задан класс , , и доступ к находит такой, что . Примерная сложность этого алгоритма составляет и время выполнения составляет .
Одна часть приведенных выше результатов заключается в том, что сложность примера алгоритма обучения не зависит от , хотя описание линейно в . Кроме того, второй результат является почти оптимальным с точки зрения сложности выборки, поскольку существует нижняя граница .
В доказательстве используется небольшая обложка , созданная Даскалакису и Пападимитриу, чтобы получить этот алгоритм.
Изучение сумм независимых целочисленных случайных переменных
Рассмотрим независимых случайных величин каждый из которых следует произвольному распределению с поддержкой . A сумма независимых целочисленных случайных величин порядка - распределение сумма . Для изучения класса
имеется следующий результат
Теорема
Пусть то есть алгоритм, который дает , и доступ к находит такой, что . Примерная сложность этого алгоритма и время выполнения также .
Другая часть состоит в том, что выборка и временная сложность не зависит от . Можно заключить эту независимость для предыдущего раздела, если мы установим .
Обучающие смеси гауссианов
Пусть случайные величины и . Определите случайную переменную , которая принимает то же значение, что и с вероятностью и то же значение, что и с вероятностью . Тогда, если - это плотность и - плотность плотность равно . В этом случае , как говорят, следует смеси гауссианцев. Пирсон был первым, кто ввел понятие смеси гауссианов в своей попытке объяснить распределение вероятностей, из которого он получил те же данные, которые он хотел проанализировать. Поэтому, выполнив множество вычислений вручную, он наконец приспособил свои данные к смеси гауссиан. Задача обучения в этом случае - определить параметры смеси .
Первая попытка решить эту проблему была от. В этой работе предполагается, что два средних значения гауссианцев находятся достаточно далеко друг от друга. Это означает, что существует нижняя граница расстояния . Используя это предположение, Дасгупта и многие ученые после него смогли узнать параметры смеси. Процедура обучения начинается с кластеризации выборок в два разных кластера с минимизацией некоторой метрики. Используя предположение, что средние значения гауссианов находятся далеко друг от друга, с высокой вероятностью выборки в первом кластере соответствуют выборкам из первого гауссиана, а выборки во втором кластере - выборкам из второго. Теперь, когда образцы разделены, может быть вычислено с помощью простых статистических оценок и , сравнивая величину кластеров.
Если представляет собой набор всех смесей двух гауссианов, с помощью вышеуказанной процедуры можно доказать теоремы, подобные следующим.
Теорема
Пусть с , где и наибольшее собственное значение , тогда есть алгоритм, который дает , и доступ к находит приближение из такие параметры, что (соответственно для и . примерная сложность этого алгоритма и время выполнения равно .
Вышеупомянутый результат также может быть обобщен в смеси гауссиан.
Для случая смешения двух гауссиан есть результаты обучения без предположение о расстоянии между их средними значениями, как в следующем примере, в котором в качестве меры расстояния используется расстояние полной вариации.
Теорема
Пусть тогда есть алгоритм, который дает , и доступ к находит такие, что если , где затем . Сложность выборки и время работы этого алгоритма: .
Расстояние между и не влияет на качество результата алгоритма, а только на сложность выборки и время выполнения.
Ссылки
- ^ M. Кирнс, Ю. Мансур, Д. Рон, Р. Рубинфельд, Р. Шапир, Л. Селли Об обучаемости дискретных распределений. Симпозиум ACM по теории вычислений, 1994 [1]
- ^Л. Valiant Теория, которой можно научиться. Сообщения ACM, 1984
- ^Лоренцо Росаско, Томазо Поджио, «Регуляризационный тур по машинному обучению - MIT-9.520 Лекционные заметки» Рукопись, декабрь 2014 г. [2]
- ^C. Даскалакис, Г. Камат Быстрее и пример почти оптимальных алгоритмов для правильного обучения смесей гауссианов. Ежегодная конференция по теории обучения, 2014 г. [3]
- ^С. Даскалакис, И. Диакониколас, Р. Серведио, изучение биномиальных распределений Пуассона. Симпозиум ACM по теории вычислений, 2012 г. [4]
- ^С. Даскалакис, К. Пападимитриу Редкие обложки для сумм индикаторов. Теория вероятностей и смежные области, 2014 [5]
- ^C. Даскалакис, И. Диакониколас, Р. О’Доннелл, Р. Серведио, Л. Тан Вычисление сумм независимых целочисленных случайных величин. Симпозиум IEEE по основам компьютерных наук, 2013 г. [6]
- ^К. Вклад Пирсона в математическую теорию эволюции. Философские труды Королевского общества в Лондоне, 1894 г. [7]
- ^ С. Дасгупта изучает смеси гауссианцев. Симпозиум IEEE по основам компьютерных наук, 1999 [8]
- ^ А. Kalai, A. Moitra, G. Valiant, эффективно изучающие смеси двух гауссианцев Симпозиум ACM по теории вычислений, 2010 г. [9pting