Полу-контролируемое обучение

редактировать
Пример влияния немаркированных данных на полу-контролируемое обучение. На верхней панели показана граница решения, которую мы могли бы принять, увидев только один положительный (белый кружок) и один отрицательный (черный кружок) пример. На нижней панели показана граница решения, которую мы могли бы принять, если бы в дополнение к двум помеченным примерам нам дали набор немаркированных данных (серые кружки). Это можно рассматривать как выполнение кластеризации и последующую маркировку кластеров помеченными данными, отодвигание границы принятия решения от областей с высокой плотностью или изучение нижележащего одномерного многообразия, в котором находятся данные.

Полу-контролируемое обучение - это подход к машинному обучению, который объединяет небольшой объем помеченных данных с большим объемом немаркированных данных во время обучения. Полу-контролируемое обучение находится между неконтролируемым обучением (без помеченных данных обучения) и контролируемым обучением (только с помеченными данными обучения).

Немаркированные данные при использовании вместе с небольшим количеством помеченных данных могут значительно повысить точность обучения. Для получения помеченных данных для задачи обучения часто требуется квалифицированный агент-человек (например, для расшифровки аудиосегмента) или физический эксперимент (например, определение трехмерной структуры белка или определение наличия масла в конкретном месте). Стоимость, связанная с процессом маркировки, таким образом, может сделать большие, полностью маркированные обучающие наборы невозможными, в то время как получение немаркированных данных является относительно недорогим. В таких ситуациях обучение без учителя может иметь большую практическую ценность. Полу-контролируемое обучение также представляет теоретический интерес в машинном обучении и как модель человеческого обучения.

Набор l {\ displaystyle l}l независимо одинаково распределенных примеров x 1,…, xl ∈ X {\ displaystyle x_ {1}, \ dots, x_ {l} \ in X}x_ {1}, \ dots, x_ {l} \ in X с соответствующими метками y 1,…, yl ∈ Y {\ displaystyle y_ {1}, \ dots, y_ {l} \ in Y}y_ {1}, \ dots, y_ {l} \ in Y и u {\ displaystyle u}u немаркированные примеры xl + 1,…, xl + u ∈ X {\ displaystyle x_ {l + 1}, \ dots, x_ { l + u} \ in X}x_ {l +1}, \ точки, x_ {l + u} \ in X обрабатываются. Полу-контролируемое обучение объединяет эту информацию, чтобы превзойти характеристики классификации, которые могут быть получены либо путем отбрасывания немаркированных данных и выполнения контролируемого обучения, либо путем отбрасывания меток и выполнения неконтролируемого обучения.

Полу-контролируемое обучение может относиться к трансдуктивному обучению или индуктивному обучению. Цель трансдуктивного обучения - вывести правильные метки для заданных немаркированных данных xl + 1,…, xl + u {\ displaystyle x_ {l + 1}, \ dots, x_ {l + u}}Только x_ {l + 1}, \ dots, x_ {l + u} . Цель индуктивного обучения состоит в том, чтобы вывести правильное отображение от X {\ displaystyle X}X до Y {\ displaystyle Y}Y .

Интуитивно проблема обучения может рассматриваться как экзамен и помеченные данные как образцы задач, которые учитель решает для класса, чтобы помочь в решении другого набора задач. В трансдуктивной среде эти нерешенные проблемы выступают в роли экзаменационных вопросов. В индуктивной обстановке они становятся практическими задачами, из которых состоит экзамен.

Нет необходимости (и, согласно принципу Вапника, неосмотрительно) выполнять трансдуктивное обучение посредством вывода правила классификации по всему входному пространству; однако на практике алгоритмы, формально разработанные для преобразования или индукции, часто используются как взаимозаменяемые.

Содержание
  • 1 Допущения
    • 1.1 Предположение о непрерывности
    • 1.2 Предположение о кластере
    • 1.3 Допущение о многообразии
  • 2 История
  • 3 Методы
    • 3.1 Генеративные модели
    • 3.2 Низкая плотность разделение
    • 3.3 Графические методы
    • 3.4 Эвристические подходы
  • 4 В человеческом познании
  • 5 См. также
  • 6 Ссылки
  • 7 Источники
  • 8 Внешние ссылки
Допущения

Чтобы можно было использовать немаркированные данные, должна существовать некоторая связь с базовым распределением данных. Алгоритмы полууправляемого обучения используют по крайней мере одно из следующих предположений:

Предположение о непрерывности

Точки, которые расположены близко друг к другу, с большей вероятностью будут иметь общий ярлык. Это также обычно предполагается при обучении с учителем и дает предпочтение геометрически простым границам принятия решения. В случае полууправляемого обучения предположение о гладкости дополнительно дает предпочтение границам решения в областях с низкой плотностью, поэтому несколько точек находятся близко друг к другу, но находятся в разных классах.

Допущение кластера

Данные имеют тенденцию образовывать дискретные кластеры, и точки в одном кластере с большей вероятностью имеют общую метку (хотя данные, которые имеют общую метку, могут распространяться по нескольким кластерам). Это частный случай предположения о гладкости, который приводит к изучению признаков с помощью алгоритмов кластеризации.

Допущение о коллекторе

Данные лежат приблизительно на коллекторе гораздо меньшей размерности, чем пространство ввода. В этом случае изучение многообразия с использованием как помеченных, так и немаркированных данных может избежать проклятия размерности. Затем обучение может продолжаться с использованием расстояний и плотностей, определенных на многообразии.

Предположение о многообразии практично, когда многомерные данные генерируются некоторым процессом, который может быть трудно моделировать напрямую, но который имеет только несколько степеней свободы. Например, человеческий голос управляется несколькими голосовыми связками, а изображения различных выражений лица - несколькими мышцами. В этих случаях расстояния и гладкость в естественном пространстве порождающей задачи лучше, чем рассмотрение пространства всех возможных акустических волн или изображений, соответственно.

История

Эвристический подход к самообучению (также известный как самообучение или самообучение) исторически является самым старым подходом к полу-контролируемому обучению, с примерами приложений, начинающихся в 1960-е.

Структура трансдуктивного обучения была официально представлена ​​Владимиром Вапником в 1970-х. Интерес к индуктивному обучению с использованием генеративных моделей также начался в 1970-х годах. , вероятно, приблизительно правильное обучение с учителем для полууправляемого обучения смеси Гаусса было продемонстрировано Рэтсаби и Венкатешем в 1995 году.

Полу-контролируемое обучение в последнее время стало более распространенным. популярны и практически актуальны из-за множества проблем, для которых доступны огромные объемы немаркированных данных, например текст на веб-сайтах, последовательности белков или изображения.

Методы

Генеративные модели

Генеративные подходы к статистическому обучению сначала стремятся оценить p (x | y) { \ displaystyle p (x | y)}p (x | y) , распределение точек данных, принадлежащих каждому классу. Вероятность p (y | x) {\ displaystyle p (y | x)}p (y | x) того, что данная точка x {\ displaystyle x}x имеет метку y {\ displaystyle y}y тогда пропорционально p (x | y) p (y) {\ displaystyle p (x | y) p (y)}p (x | y) p (y) по правилу Байеса. Полу-контролируемое обучение с помощью генеративных моделей можно рассматривать либо как расширение контролируемого обучения (классификация плюс информация о p (x) {\ displaystyle p (x)}p (x) ) или как расширение обучения без учителя (кластеризация плюс некоторые метки).

Генеративные модели предполагают, что распределения принимают определенную форму p (x | y, θ) {\ displaystyle p (x | y, \ theta)}p (x | y, \ theta) , параметризованные вектором θ {\ displaystyle \ theta}\ theta . Если эти предположения неверны, немаркированные данные могут фактически снизить точность решения по сравнению с тем, что было бы получено только на основе помеченных данных. Однако, если предположения верны, то немаркированные данные обязательно улучшают производительность.

Немаркированные данные распределяются в соответствии со смесью распределений индивидуальных классов. Чтобы узнать распределение смеси по немаркированным данным, оно должно быть идентифицируемым, то есть разные параметры должны давать разные суммарные распределения. Распределения гауссовой смеси идентифицируемы и обычно используются для генеративных моделей.

Параметризованное совместное распределение можно записать как p (x, y | θ) = p (y | θ) p (x | y, θ) {\ displaystyle p (x, y | \ theta) = p (y | \ theta) p (x | y, \ theta)}p (x, y | \ theta) = p (y | \ theta) p (x | y, \ theta) , используя цепное правило . Каждый вектор параметров θ {\ displaystyle \ theta}\ theta связан с функцией принятия решения f θ (x) = argmax yp (y | x, θ) {\ displaystyle f _ {\ theta } (x) = {\ underset {y} {\ operatorname {argmax}}} \ p (y | x, \ theta)}f _ {\ theta} (x) = {\ underset {y} {\ operatorname {argmax}}} \ p (y | x, \ theta) . Затем параметр выбирается на основе соответствия как помеченным, так и немаркированным данным, взвешенным по λ {\ displaystyle \ lambda}\ lambda :

argmax Θ (log ⁡ p ({xi, yi} i = 1 l | θ) + λ журнал ⁡ п ({xi} я = l + 1 l + u | θ)) {\ displaystyle {\ underset {\ Theta} {\ operatorname {argmax}}} \ left (\ log p (\ {x_ { i}, y_ {i} \} _ {i = 1} ^ {l} | \ theta) + \ lambda \ log p (\ {x_ {i} \} _ {i = l + 1} ^ {l + u} | \ theta) \ right)}{\ underset {\ Theta} {\ operatorname {argmax}}} \ left (\ log p (\ {x_ {i}, y_ {i} \} _ {i = 1} ^ {l} | \ theta) + \ lambda \ log p (\ {x_ {i} \} _ {i = l + 1} ^ {l + u} | \ theta) \ right)

Разделение с низкой плотностью

Другой основной класс методов пытается разместить границы в областях с небольшим количеством точек данных (помеченных или немаркированных). Одним из наиболее часто используемых алгоритмов является машина опорных векторов трансдукции, или TSVM (которая, несмотря на свое название, может также использоваться для индуктивного обучения). В то время как машины опорных векторов для контролируемого обучения ищут границу принятия решения с максимальным запасом над помеченными данными, цель TSVM - разметка немаркированных данных так, чтобы граница решения имела максимальный запас по всем данным. В дополнение к стандартному шарнирным потерям (1 - yf (x)) + {\ displaystyle (1-yf (x)) _ {+}}(1- yf (x)) _ {+} для маркированных данных, функция потерь (1 - | f (x) |) + {\ displaystyle (1- | f (x) |) _ {+}}(1- | f (x) |) _ {+} вводится для немаркированных данных, позволяя y = знак ⁡ е (x) {\ displaystyle y = \ operatorname {sign} {f (x)}}y = \ operatorname {sign} {f (x)} . Затем TSVM выбирает f ∗ (x) = h ∗ (x) + b {\ displaystyle f ^ {*} (x) = h ^ {*} (x) + b}f^{*}(x)=h^{*}(x)+bиз воспроизведение гильбертова пространства ядра H {\ displaystyle {\ mathcal {H}}}{\ mathcal {H}} путем минимизации регуляризованного эмпирического риска :

f ∗ = argmin f (∑ i = 1 l (1 - yif (xi)) + + λ 1 ‖ h ‖ H 2 + λ 2 ∑ i = l + 1 l + u (1 - | f (xi) |) +) {\ displaystyle f ^ {*} = {\ underset {f} {\ operatorname {argmin}}} \ left (\ displaystyle \ sum _ {i = 1} ^ {l} (1-y_ {i} f ( x_ {i})) _ {+} + \ lambda _ {1} \ | h \ | _ {\ mathcal {H}} ^ {2} + \ lambda _ {2} \ sum _ {i = l + 1 } ^ {l + u} (1- | f (x_ {i}) |) _ {+} \ right)}{\ displaystyle f ^ {* } = {\ underset {f} {\ operatorname {argmin}}} \ left (\ displaystyle \ sum _ {i = 1} ^ {l} (1-y_ {i} f (x_ {i})) _ { +} + \ lambda _ {1} \ | h \ | _ {\ mathcal {H}} ^ {2} + \ lambda _ {2} \ sum _ {i = l + 1} ^ {l + u} ( 1- | f (x_ {i}) |) _ {+} \ right)}

Точное решение неразрешимо из-за не- выпуклого члена (1 - | f (x) |) + {\ displaystyle (1- | f (x) |) _ {+}}(1- | f (x) |) _ {+} , поэтому исследования сосредоточены на полезных приближениях.

Другие подходы, которые реализуют разделение с низкой плотностью, включают гауссовские модели процессов, регуляризацию информации и минимизацию энтропии (частным случаем которых является TSVM).

Методы на основе графиков

Методы на основе графиков для полууправляемого обучения используют графическое представление данных с узлом для каждого помеченного и немеченного примера. Граф может быть построен с использованием знаний предметной области или подобия примеров; два обычных метода - подключить каждую точку данных к ее k {\ displaystyle k}kближайшим соседям или к примерам на некотором расстоянии ϵ {\ displaystyle \ epsilon}\ epsilon . Вес W ij {\ displaystyle W_ {ij}}W_ {ij} края между xi {\ displaystyle x_ {i}}x_ {i} и xj {\ displaystyle x_ {j}}x_ {j} затем устанавливается в e - ‖ xi - xj ‖ 2 ϵ {\ displaystyle e ^ {\ frac {- \ | x_ {i} -x_ {j} \ | ^ {2}} {\ epsilon}}}{\ displaystyle e ^ {\ frac {- \ | x_ {i} -x_ {j} \ | ^ {2}} {\ epsilon}}} .

В рамках регуляризации многообразия граф служит представителем многообразия. В стандартную задачу регуляризации по Тихонову добавлен член, чтобы обеспечить гладкость решения относительно многообразия (во внутреннем пространстве задачи), а также относительно внешнего входного пространства. Задача минимизации принимает вид

argmin f ∈ H (1 l ∑ i = 1 l V (f (xi), yi) + λ A ‖ f ‖ H 2 + λ I ∫ M ‖ ∇ M f (x) ‖ 2 dp (x)) {\ displaystyle {\ underset {f \ in {\ mathcal {H}}} {\ operatorname {argmin}}} \ left ({\ frac {1} {l}} \ displaystyle \ sum _ { i = 1} ^ {l} V (f (x_ {i}), y_ {i}) + \ lambda _ {A} \ | f \ | _ {\ mathcal {H}} ^ {2} + \ lambda _ {I} \ int _ {\ mathcal {M}} \ | \ nabla _ {\ mathcal {M}} f (x) \ | ^ {2} dp (x) \ right)}{\ displaystyle {\ underset {f \ in {\ mathcal {H}}} {\ operatorname {argmin}}} \ left ({\ frac {1} {l}} \ displaystyle \ sum _ {i = 1} ^ {l} V (f (x_ {i}), y_ {i}) + \ lambda _ {A} \ | f \ | _ {\ mathcal {H}} ^ {2} + \ lambda _ {I} \ int _ {\ mathcal {M} } \ | \ nabla _ {\ mathcal {M}} f (x) \ | ^ {2} dp (x) \ right)}

где H {\ displaystyle {\ mathcal {H}}}{\ mathcal {H}} - воспроизводящее ядро ​​гильбертово пространство и M {\ displaystyle {\ mathcal {M}}}{\ mathcal {M}} - это многообразие, на котором лежат данные. Параметры регуляризации λ A {\ displaystyle \ lambda _ {A}}\ lambda _ {A} и λ I {\ displaystyle \ lambda _ {I}}\ lambda _ {I} управляют гладкостью в окружающее и внутреннее пространство соответственно. График используется для аппроксимации внутреннего члена регуляризации. Определение лапласиана графа L = D - W {\ displaystyle L = DW}L = DW , где D ii = ∑ j = 1 l + u W ij {\ displaystyle D_ {ii} = \ sum _ {j = 1} ^ {l + u} W_ {ij}}D_ {ii} = \ sum _ {j = 1} ^ {l + u} W_ {ij} и f {\ displaystyle \ mathbf {f}}\ mathbf {f} вектор [е (x 1)… f (xl + u)] {\ displaystyle [f (x_ {1}) \ dots f (x_ {l + u})]}[f (x_ {1}) \ dots f (x_ {l + u})] , у нас есть

е TL е = ∑ я, j = 1 l + u W ij (fi - fj) 2 ≈ ∫ M ‖ ∇ M f (x) ‖ 2 dp (x) {\ displaystyle \ mathbf {f} ^ {T} L \ mathbf {f} = \ displaystyle \ sum _ {i, j = 1} ^ {l + u} W_ {ij} (f_ {i} -f_ {j}) ^ {2} \ приблизительно \ int _ {\ mathcal {M}} \ | \ nabla _ {\ mathcal {M}} f (x) \ | ^ {2} dp (x)}{\ displaystyle \ mathbf {f} ^ {T} L \ mathbf {f} = \ displaystyle \ sum _ {i, j = 1} ^ {l + u} W_ {ij } (f_ {i} -f_ {j}) ^ {2} \ приблизительно \ int _ {\ mathcal {M}} \ | \ nabla _ {\ mathcal {M}} f (x) \ | ^ {2} dp (x)} .

Лапласиан также можно использовать для расширения контролируемого алгоритмы обучения: регуляризованный метод наименьших квадратов и поддержка векторных машин (SVM) до полууправляемых версий. Лапласовский регуляризованный метод наименьших квадратов и лапласианский SVM.

Эвристические подходы

Некоторые методы полууправляемого обучения по своей сути не приспособлены к обучению как на немаркированных, так и на маркированных данных, а вместо этого используют немаркированные данные в рамках контролируемого обучения. Например, помеченные и немаркированные примеры x 1,…, xl + u {\ displaystyle x_ {1}, \ dots, x_ {l + u}}x_ {1}, \ dots, x_ {l + u} могут указывать на выбор представления, метрика расстояния или ядро ​​ для данных на неконтролируемом первом этапе. Тогда контролируемое обучение основывается только на помеченных примерах.

Самообучение - это метод-оболочка для частично контролируемого обучения. Сначала алгоритм обучения с учителем обучается только на основе помеченных данных. Затем этот классификатор применяется к немаркированным данным, чтобы создать больше помеченных примеров в качестве входных данных для алгоритма обучения с учителем. Обычно на каждом шаге добавляются только метки, в которых классификатор наиболее уверен.

Совместное обучение - это расширение самообучения, при котором несколько классификаторов обучаются различным (идеально непересекающимся) наборам функций и генерируют помеченные примеры друг для друга.

В человеческом познании

Человеческие реакции на формальные неполноценные задачи обучения привели к различным выводам о степени влияния немаркированных данных. Более естественные проблемы обучения также можно рассматривать как примеры частично контролируемого обучения. Большая часть человеческого концептуального обучения включает в себя небольшое количество прямых инструкций (например, родительские ярлыки для предметов в детстве) в сочетании с большим количеством немаркированного опыта (например, наблюдение за объектами без их именования и подсчета или, по крайней мере, без обратной связи).

Младенцы человека чувствительны к структуре немаркированных естественных категорий, таких как изображения собак и кошек, мужских и женских лиц. Младенцы и дети принимают во внимание не только немаркированные примеры, но и процесс выборки, из которого возникают помеченные примеры.

См. Также
Ссылки
Источники
  • Шапель, Оливье; Шёлкопф, Бернхард; Зиен, Александр (2006). Полу-контролируемое обучение. Кембридж, Массачусетс: MIT Press. ISBN 978-0-262-03358-9. CS1 maint: ref = harv (ссылка )
Внешние ссылки
Последняя правка сделана 2021-06-07 09:43:41
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте