Агрегирование бутстрапа

редактировать

Агрегирование начальной загрузки, также называемое бэггинг (от b ootstrap agg regat ing ), представляет собой ансамбль машинного обучения метаалгоритм, предназначенный для повышения стабильности и точности алгоритмов машинного обучения, используемых в статистической классификации и регрессия. Это также уменьшает дисперсию и помогает избежать переобучения. Хотя он обычно применяется к методам дерева решений, его можно использовать с любым типом метода. Бэггинг - это частный случай подхода с усреднением модели.

Содержание

  • 1 Описание метода
  • 2 Пример: данные по озону
  • 3 История
  • 4 См. Также
  • 5 Ссылки
  • 6 Дополнительная литература

Описание метода

Для стандартного обучающего набора D {\ displaystyle D}D размера n, упаковка генерирует m новых обучающих наборов D i {\ displaystyle D_ {i}}D_ {i} , каждый размером n ′, путем выборки из D равномерно и с заменой. При выборке с заменой некоторые наблюдения могут повторяться в каждом D i {\ displaystyle D_ {i}}D_ {i} . Если n = n, то для большого n ожидается, что набор D i {\ displaystyle D_ {i}}D_ {i} будет иметь дробь (1 - 1 / e ) (≈63,2%) уникальных примеров D, остальные - дубликаты. Такой пример известен как образец начальной загрузки. Затем m моделей подбираются с использованием m вышеупомянутых бутстрап-выборок и комбинируются путем усреднения выходных данных (для регрессии) или голосования (для классификации).

Иллюстрация концепции агрегирования начальной загрузки

Bagging ведет к «улучшениям для нестабильных процедур», которые включают, например, искусственные нейронные сети, классификации и деревья регрессии, и выбор подмножества в линейной регрессии. Было показано, что бэггинг улучшает обучение прообразу. С другой стороны, это может незначительно ухудшить производительность стабильных методов, таких как K-ближайшие соседи.

Пример: данные по озону

Чтобы проиллюстрировать основные принципы упаковки в мешки, ниже представлен анализ взаимосвязь между озоном и температурой (данные из Rousseeuw and Leroy (1986), анализ выполнен в R ).

Взаимосвязь между температурой и озоном в этом наборе данных, очевидно, нелинейна, судя по диаграмме рассеяния. Чтобы математически описать эту взаимосвязь, используются сглаживания LOESS (с полосой пропускания 0,5). Вместо построения единственного сглаживающего устройства из полного набора данных было отрисовано 100 бутстрапов выборок данных. Каждый образец отличается от исходного набора данных, но похож на него по распределению и изменчивости. Для каждого образца бутстрапа подбирался сглаживающий фильтр LOESS. Затем были сделаны прогнозы на основе этих 100 сглаживателей для всего диапазона данных. Первые 10 прогнозируемых плавных совпадений показаны серыми линиями на рисунке ниже. Линии явно очень неровные, и они не соответствуют данным - из-за того, что пропускная способность слишком мала.

Ozone.png

Взяв среднее значение из 100 сглаживающих устройств, каждое из которых соответствует подмножеству исходного набора данных, мы приходим к одному предиктору с упаковкой (красная линия). Очевидно, что среднее значение более стабильно и меньше overfit.

History

Bagging (B ootstrap agg regat ing ) был предложен Лео Брейманом в 1994 году для улучшения классификации путем объединения классификаций случайно сгенерированных обучающих наборов.

См. также

Ссылки

Дополнительная литература

Последняя правка сделана 2021-05-13 14:45:16
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте