Ансамблевое обучение

редактировать

В статистике и машинном обучении, методы ансамбля используют несколько алгоритмов обучения, чтобы получить лучшую предсказательную производительность , чем можно было бы получить только с помощью любого из составляющих алгоритмов обучения. В отличие от статистического ансамбля в статистической механике, который обычно бесконечен, ансамбль машинного обучения состоит только из конкретного конечного набора альтернативных моделей, но обычно позволяет использовать гораздо более гибкую структуру среди этих альтернатив.

Содержание

1 Обзор
2 Теория ансамблей
3 Размер ансамбля
4 Общие типы ансамблей
- 4.1 Оптимальный байесовский классификатор
- 4.2 Агрегирование начальной загрузки (упаковка)
- 4.3 Повышение
- 4.4 Усреднение байесовской модели
- 4.5 Комбинация байесовской модели
- 4.6 Блок моделей
- 4.7 Стекирование
5 Реализации в статистических пакетах
6 Приложения для ансамблевого обучения
- 6.1 Дистанционное зондирование
  - 6.1.1 Картирование земного покрова
  - 6.1.2 Обнаружение изменений
- 6.2 Компьютерная безопасность
  - 6.2.1 Распределенный отказ в обслуживании
  - 6.2.2 Обнаружение вредоносных программ
  - 6.2.3 Обнаружение вторжений
- 6.3 Распознавание лиц
- 6.4 Распознавание эмоций
- 6.5 Выявление мошенничества
- 6.6 Принятие финансовых решений
- 6.7 Медицина
7 См. Также
8 Ссылки
9 Дополнительная литература
10 Внешние ссылки

Обзор

Алгоритмы контролируемого обучения выполняют задачу поиска в пространстве гипотез, чтобы найти подходящую гипотезу, которая позволит сделать хорошие прогнозы для конкретной проблемы. Даже если пространство гипотез содержит гипотезы, которые очень хорошо подходят для конкретной проблемы, может быть очень сложно найти хорошую. Ансамбли объединяют несколько гипотез, чтобы сформировать (надеюсь) лучшую гипотезу. Термин «ансамбль» обычно используется для обозначения методов, которые генерируют несколько гипотез с использованием одного и того же базового обучающегося. Более широкий термин систем с несколькими классификаторами также охватывает гибридизацию гипотез, которые не вызваны одним и тем же базовым учащимся.

Оценка предсказания ансамбля обычно требует больше вычислений, чем оценка предсказания одной модели. В каком-то смысле ансамблевое обучение можно рассматривать как способ компенсации плохих алгоритмов обучения за счет выполнения большого количества дополнительных вычислений. С другой стороны, альтернатива состоит в том, чтобы сделать намного больше обучения на одной не-ансамблевой системе. Система ансамбля может быть более эффективной в повышении общей точности для того же увеличения вычислительных ресурсов, ресурсов хранения или связи за счет использования этого увеличения двух или более методов, чем было бы улучшено за счет увеличения использования ресурсов для одного метода. Быстрые алгоритмы, такие как деревья решений, обычно используются в методах ансамбля (например, случайные леса ), хотя более медленные алгоритмы также могут выиграть от ансамблевых методов.

По аналогии, методы ансамбля использовались также в сценариях неконтролируемого обучения, например, в консенсусной кластеризации или в обнаружении аномалий.

Теория ансамбля

Ансамбль сам по себе является алгоритмом обучения с учителем, поскольку его можно обучить, а затем использовать для прогнозирования. Таким образом, обученный ансамбль представляет единственную гипотезу. Эта гипотеза, однако, не обязательно содержится в пространстве гипотез моделей, из которых она построена. Таким образом, можно показать, что ансамбли обладают большей гибкостью в функциях, которые они могут представлять. Эта гибкость теоретически может позволить им переполнить обучающие данные больше, чем это могла бы сделать одна модель, но на практике некоторые методы ансамбля (особенно упаковка ) имеют тенденцию уменьшать количество проблем. связано с чрезмерной подгонкой обучающих данных.

Эмпирически, ансамбли, как правило, дают лучшие результаты при значительном разнообразии моделей. Поэтому многие ансамблевые методы стремятся способствовать разнообразию комбинируемых моделей. Возможно, не интуитивно понятные, но более случайные алгоритмы (например, деревья случайных решений) могут использоваться для создания более сильного ансамбля, чем очень продуманные алгоритмы (например, деревья решений, уменьшающие энтропию). Однако было показано, что использование множества сильных алгоритмов обучения более эффективно, чем использование методов, которые пытаются упростить модели, чтобы способствовать разнообразию.

Размер ансамбля

Хотя Количество компонентных классификаторов ансамбля оказывает большое влияние на точность прогноза, существует ограниченное количество исследований, посвященных этой проблеме. Априорное определение размера ансамбля, а также объема и скорости потоков больших данных делает это еще более важным для онлайн-классификаторов ансамблей. В основном статистические тесты использовались для определения правильного количества компонентов. Совсем недавно теоретическая основа предложила, что существует идеальное количество классификаторов компонентов для ансамбля, так что наличие большего или меньшего, чем это количество классификаторов, ухудшит точность. Это называется «законом убывающей отдачи при построении ансамбля». Их теоретическая основа показывает, что использование того же количества независимых классификаторов компонентов в качестве меток классов дает наивысшую точность.

Общие типы ансамблей

Оптимальный классификатор Байеса

Оптимальный классификатор Байеса это метод классификации. Это совокупность всех гипотез в пространстве гипотез. В среднем ни один другой ансамбль не может превзойти его. Наивный байесовский оптимальный классификатор - это вариант этого, который предполагает, что данные условно не зависят от класса, и делает вычисления более выполнимыми. Каждой гипотезе дается голос, пропорциональный вероятности того, что обучающий набор данных будет выбран из системы, если эта гипотеза верна. Чтобы облегчить обучающие данные конечного размера, голос каждой гипотезы также умножается на априорную вероятность этой гипотезы. Оптимальный байесовский классификатор может быть выражен следующим уравнением:

y = argmaxcj ∈ C ∑ hi ∈ HP (cj | hi) P (T | hi) P (hi) {\ displaystyle y = {\ underset {c_ { j} \ in C} {\ mathrm {argmax}}} \ sum _ {h_ {i} \ in H} {P (c_ {j} | h_ {i}) P (T | h_ {i}) P ( h_ {i})}}

{\ displaystyle y = {\ underset {c_ {j} \ in C} {\ mathrm {argmax}}} \ sum _ {h_ {i} \ in H} {P (c_ {j} | h_ {i}) P (T | h_ {i}) P (h_ {i})}}

, где $y {\ displaystyle y}$ $y$ - прогнозируемый класс, $C {\ displaystyle C}$ $C$ - набор все возможные классы, $H {\ displaystyle H}$ $H$ - пространство гипотез, $P {\ displaystyle P}$ $P$ относится к вероятности, а $T { \ displaystyle T}$ $T$ - обучающие данные. Как совокупность, оптимальный классификатор Байеса представляет гипотезу, которая не обязательно находится в $H {\ displaystyle H}$ $H$ . Однако гипотеза, представленная оптимальным классификатором Байеса, является оптимальной гипотезой в пространстве ансамбля (пространство всех возможных ансамблей, состоящее только из гипотез в $H {\ displaystyle H}$ $H$ ).

Эту формулу можно переформулировать, используя теорему Байеса, которая гласит, что апостериорная величина пропорциональна вероятности, умноженной на предыдущую:

P (hi | T) ∝ P (T | привет) P (привет) {\ Displaystyle P (h_ {i} | T) \ propto P (T | h_ {i}) P (h_ {i})}

{\ displaystyle P (h_ {i} | T) \ propto P (T | h_ {i}) P (h_ {i})}

, следовательно,

y = argmaxcj ∈ C ∑ привет ∈ HP (cj | привет) P (привет | T) {\ displaystyle y = {\ underset {c_ {j} \ in C} {\ mathrm {argmax}}} \ sum _ {h_ {i} \ in H} {P (c_ {j} | h_ {i}) P (h_ {i} | T)}}

{\ displaystyle y = {\ underset {c_ {j} \ in C} {\ mathrm {argmax}}} \ sum _ {h_ {i} \ in H} {P (c_ {j} | h_ {i}) P (h_ {i} | T)}}

Агрегирование бутстрапа (упаковка)

Агрегирование бутстрапа, часто сокращенно называемое упаковкой, включает в себя каждая модель в ансамбле голосует с равным весом. Чтобы способствовать изменчивости модели, пакетирование обучает каждую модель в ансамбле, используя случайно составленное подмножество обучающей выборки. Например, алгоритм случайного леса объединяет деревья случайных решений с пакетом для достижения очень высокой точности классификации.

При пакетировании образцы генерируются таким образом, что образцы отличаются от каждого другое, однако допускается замена. Замена означает, что экземпляр может встречаться в нескольких выборках несколько раз или вообще не может появиться в некоторых выборках. Затем эти образцы передаются нескольким учащимся, а затем результаты каждого учащегося объединяются в форме голосования.

Повышение

Повышение включает постепенное построение ансамбля путем обучения каждого нового экземпляра модели, чтобы выделить обучающие экземпляры, которые предыдущие модели неправильно классифицировали. В некоторых случаях было показано, что повышение точности дает более высокую точность, чем упаковка, но также имеет тенденцию с большей вероятностью соответствовать обучающим данным. Безусловно, наиболее распространенной реализацией повышения является Adaboost, хотя сообщается, что некоторые новые алгоритмы позволяют достичь лучших результатов.

При повышении равный вес (равномерное распределение вероятностей) дается образцы обучающих данных (скажем, D1) в самом стартовом раунде. Эти данные (D1) затем передаются базовому учащемуся (например, L1). Неправильно классифицированным экземплярам по L1 присваивается вес выше, чем правильно классифицированным экземплярам, но с учетом того, что общее распределение вероятностей будет равно 1. Эти усиленные данные (скажем, D2) затем передаются второму базовому ученику (скажем, L2) и так далее. Затем результаты объединяются в форме голосования.

Байесовская модель, усредняющая

Байесовская модель, усредняющая (BMA), делает прогнозы, используя среднее значение по нескольким моделям с весами, заданными апостериорной вероятностью каждой модели с учетом данных. Известно, что BMA обычно дает лучшие ответы, чем одна модель, полученная, например, с помощью пошаговой регрессии, особенно когда очень разные модели имеют почти одинаковую производительность в обучающем наборе, но в остальном могут работать совершенно по-разному.

Самым очевидным вопросом для любой техники, использующей теорему Байеса, является априорный вопрос, т. Е. Определение вероятности (возможно, субъективной) того, что каждая модель лучше всего подходит для заданная цель. Концептуально BMA можно использовать с любыми предшествующими версиями. Пакеты ensembleBMA и BMA для R используют априорность, подразумеваемую байесовским информационным критерием, (BIC), после Raftery (1995). Пакет BAS для R поддерживает использование априорных значений, подразумеваемых информационным критерием Акаике (AIC) и другими критериями по сравнению с альтернативными моделями, а также априорных значений по коэффициентам.

Разница между BIC и AIC - это сила предпочтения экономии. Штраф за сложность модели составляет $ln ⁡ (n) k {\ displaystyle \ ln (n) k}$ ${\ displaystyle \ ln (n) k}$ для BIC и $2 k {\ displaystyle 2k}$ <153.>для АПК. Асимптотическая теория большой выборки установила, что если есть лучшая модель, то с увеличением размера выборки BIC будет строго согласованным, то есть почти наверняка найдет ее, в то время как AIC может и не найти, потому что AIC может продолжать использовать чрезмерную апостериорную вероятность для моделей, которые сложнее, чем нужно. Если, с другой стороны, нас больше интересует эффективность, то есть минимальная среднеквадратичная ошибка предсказания, то асимптотически AIC и AICc «эффективны», а BIC - нет.

Burnham and Anderson (1998, 2002) внесли свой вклад в значительной степени для ознакомления более широкой аудитории с основными идеями усреднения байесовской модели и популяризации методологии. Доступность программного обеспечения, включая другие бесплатные пакеты с открытым исходным кодом для R помимо упомянутых выше, помогло сделать методы доступными для более широкой аудитории.

Haussler et al. (1994) показали, что когда BMA используется для классификации, его ожидаемая ошибка не более чем в два раза превышает ожидаемую ошибку байесовского оптимального классификатора.

Байесовская комбинация моделей

Байесовская комбинация моделей (BMC) является алгоритмическая коррекция усреднения байесовской модели (BMA). Вместо того, чтобы производить выборку каждой модели в ансамбле по отдельности, она производит выборку из пространства возможных ансамблей (с модельными весами, взятыми случайным образом из распределения Дирихле с однородными параметрами). Эта модификация преодолевает тенденцию BMA сводиться к тому, чтобы отдавать весь вес одной модели. Хотя BMC несколько дороже с точки зрения вычислений, чем BMA, он дает значительно лучшие результаты. Было показано, что результаты BMC в среднем лучше (со статистической значимостью), чем BMA и бэггинг.

Использование закона Байеса для вычисления весов моделей требует вычисления вероятности данных для каждой модели. Как правило, ни одна из моделей в ансамбле не является в точности распределением, из которого были сгенерированы обучающие данные, поэтому все они правильно получают значение, близкое к нулю для этого члена. Это было бы хорошо, если бы ансамбль был достаточно большим, чтобы сэмплировать все пространство модели, но это редко возможно. Следовательно, каждый шаблон в обучающих данных приведет к смещению веса ансамбля в сторону модели в ансамбле, которая наиболее близка к распределению обучающих данных. По сути, это сводится к излишне сложному методу выбора модели.

Возможные веса для ансамбля можно визуализировать как лежащие на симплексе. В каждой вершине симплекса весь вес придается одной модели в ансамбле. BMA сходится к вершине, ближайшей к распределению обучающих данных. Напротив, BMC сходится к точке, где это распределение проецируется на симплекс. Другими словами, вместо выбора одной модели, наиболее близкой к генерирующему распределению, он ищет комбинацию моделей, наиболее близкую к генерирующему распределению.

Результаты BMA часто можно аппроксимировать с помощью перекрестной проверки, чтобы выбрать лучшую модель из набора моделей. Аналогичным образом результаты BMC могут быть аппроксимированы с помощью перекрестной проверки для выбора наилучшей комбинации ансамбля из случайной выборки возможных весов.

Набор моделей

«Набор моделей» - это метод ансамбля, в котором алгоритм выбора модели используется для выбора лучшей модели для каждой проблемы. При тестировании только с одной проблемой набор моделей может дать не лучшие результаты, чем лучшая модель в наборе, но при оценке множества проблем, в среднем, она дает гораздо лучшие результаты, чем любая модель в наборе.

Наиболее распространенным подходом, используемым для выбора модели, является выборка с перекрестной проверкой (иногда называемая «конкурсом на выпечку»). Он описывается следующим псевдокодом:

Для каждой модели m в ведре: Сделайте c раз: (где 'c' - некоторая константа) Случайно разделите набор обучающих данных на два набора данных: A и B. Обучите m с помощью A Тест m с помощью B Выберите модель, которая получает наивысший средний балл

Выбор перекрестной проверки можно суммировать следующим образом: «попробуйте их все с обучающим набором и выберите ту, которая работает лучше всего. ".

Стробирование - это обобщение выбора перекрестной проверки. Он включает в себя обучение другой модели обучения, чтобы решить, какая из моделей в корзине лучше всего подходит для решения проблемы. Часто для модели стробирования используется перцептрон . Его можно использовать для выбора «лучшей» модели или для присвоения линейного веса предсказаниям каждой модели в корзине.

Когда набор моделей используется с большим набором задач, может быть желательно избежать обучения некоторых моделей, обучение которых занимает много времени. Ориентирное обучение - это метаобучение, направленное на решение этой проблемы. Он включает в себя обучение только быстрых (но неточных) алгоритмов в бакете, а затем использование производительности этих алгоритмов, чтобы помочь определить, какой медленный (но точный) алгоритм, скорее всего, будет работать лучше.

Стекинг

Накопление (иногда называемое комплексным обобщением) включает в себя обучение алгоритма обучения для объединения прогнозов нескольких других алгоритмов обучения. Сначала все другие алгоритмы обучаются с использованием доступных данных, затем алгоритм объединителя обучается делать окончательный прогноз, используя все прогнозы других алгоритмов в качестве дополнительных входных данных. Если используется произвольный алгоритм объединителя, то наложение теоретически может представлять любой из методов ансамбля, описанных в этой статье, хотя на практике в качестве объединителя часто используется модель логистической регрессии .

Стекирование обычно дает производительность лучше, чем любая из обученных моделей. Он успешно использовался как для задач обучения с учителем (регрессия, классификация и дистанционное обучение), так и для обучения без учителя (оценка плотности). Он также использовался для оценки частоты ошибок при упаковке. Сообщается, что он превосходит усреднение байесовской модели. Два лучших участника конкурса Netflix использовали смешивание, которое можно рассматривать как форму наложения.

Реализации в статистических пакетах

R : по крайней мере три пакета предлагают инструменты усреднения байесовской модели, включая BMS (аббревиатура от Bayesian Model Selection), пакет BAS (аббревиатура от Bayesian Adaptive Sampling) и пакет BMA.
Python : Scikit-learn, пакет для машинного обучения на Python предлагает пакеты для ансамблевого обучения, включая пакеты для методов упаковки и усреднения.
MATLAB : ансамбли классификации реализованы в Statistics and Machine Learning Toolbox.

Приложения для ансамблевого обучения

В последние годы из-за растущей вычислительной мощности, которая позволяет обучать большой ансамблевому обучению в разумные сроки, количество ее приложений постоянно растет. Некоторые из применений ансамблевых классификаторов включают:

Дистанционное зондирование

Картирование земного покрова

Картирование земного покрова - одно из основных приложений спутника наблюдения Земли датчики, использующие дистанционное зондирование и геопространственные данные, для идентификации материалов и объектов, находящихся на поверхности целевых областей. Обычно классы целевых материалов включают дороги, здания, реки, озера и растительность. Некоторые различные подходы к ансамблевому обучению, основанные на искусственных нейронных сетях, анализе главных компонентов ядра (KPCA), деревьях решений с повышением, случайный лес и автоматическое проектирование систем множественных классификаторов предлагаются для эффективной идентификации объектов земного покрова.

Обнаружение изменений

Обнаружение изменений - это задача анализа изображений, состоящая в идентификации мест, где почвенный покров изменился с течением времени. Обнаружение изменений широко используется в таких областях, как рост городов, динамика лесов и растительности, землепользование и мониторинг стихийных бедствий. Самые ранние применения ансамблевых классификаторов для обнаружения изменений разработаны с большинством голосов, Байесовским средним и максимальной апостериорной вероятностью.

Компьютерная безопасность

Распределенная отказ в обслуживании

Распределенный отказ в обслуживании - одна из наиболее опасных кибератак, которые могут случиться с провайдером интернет-услуг. Комбинируя выходные данные отдельных классификаторов, ансамблевые классификаторы уменьшают общую ошибку обнаружения и отличия таких атак от легитимных массовых скоплений флэш-памяти.

Обнаружение вредоносных программ

Классификация кодов вредоносных программ, таких как компьютерные вирусы, компьютерные черви, трояны, программы-вымогатели и шпионские программы с использованием машинного обучения Технология основана на проблеме категоризации документов. Системы ансамблевого обучения показали надлежащую эффективность в этой области.

Обнаружение вторжений

Система обнаружения вторжений контролирует компьютерную сеть или компьютер системы для идентификации кодов злоумышленников, таких как процесс обнаружения аномалий. Ансамблевое обучение успешно помогает таким системам мониторинга снизить общую ошибку.

Распознавание лиц

Распознавание лиц, которое в последнее время стало одной из самых популярных областей исследований распознавания образов, справляется с идентификацией или верификацией человека по его / ее цифровым изображениям.

Иерархические ансамбли на основе классификатора Габора Фишера и анализа независимых компонентов предварительной обработки являются одними из самые ранние ансамбли, использовавшиеся в этой области.

Распознавание эмоций

Хотя распознавание речи в основном основано на глубоком обучении, потому что большинство игроков отрасли в этом такие поля, как Google, Microsoft и IBM, показывают, что основная технология их распознавания речи основана на этом подходе, основанном на речи распознавание эмоций также может иметь удовлетворительные результаты при ансамблевом обучении.

Оно также успешно используется в лице распознавание эмоций.

Обнаружение мошенничества

Обнаружение мошенничества занимается выявлением банковского мошенничества, такого как отмывание денег, и которые имеют обширные области исследований и приложений из машинного обучения. Поскольку ансамблевое обучение повышает надежность моделирования нормального поведения, оно было предложено в качестве эффективного метода обнаружения таких случаев мошенничества и действий в банковских системах и системах кредитных карт.

Принятие финансовых решений

Точность прогнозирования банкротства бизнеса - очень важный вопрос при принятии финансовых решений. Поэтому предлагаются разные ансамблевые классификаторы для прогнозирования финансовых кризисов и финансовых бедствий. Кроме того, в задаче манипулирования на основе торговли, когда трейдеры пытаются манипулировать ценами акций путем покупки и продажи, требуются ансамблевые классификаторы для анализа изменений на фондовом рынке. данные и обнаружение подозрительных симптомов курсов акций манипуляций.

Медицина

Ансамблевые классификаторы успешно применяются в неврологии, протеомике и медицинский диагноз, аналогичный нейрокогнитивному расстройству (т.е. болезнь Альцгеймера или миотоническая дистрофия ), обнаружение на основе наборов данных МРТ. 116>

См. Также

Ссылки

Дополнительная литература

Чжоу Чжихуа ( 2012). Ансамблевые методы: основы и алгоритмы. Чепмен и Холл / CRC. ISBN 978-1-439-83003-1.
Роберт Шапир ; Йоав Фройнд (2012). Повышение: основы и алгоритмы. Массачусетский технологический институт. ISBN 978-0-262-01718-3.

Внешние ссылки

Роби Поликар (ред.). «Ансамблевое обучение». Scholarpedia.
Набор инструментов Waffles (машинное обучение) содержит реализации Bagging, Boosting, Bayesian Model Averaging, Bayesian Model Combination, Bucket-of-Model и другие методы ансамбля