Гиперпараметр (машинное обучение)

редактировать

Не путать с гиперпараметром (байесовским).

В машинном обучении, A гиперпараметр является параметром, значение которого используется для управления процессом обучения. Напротив, значения других параметров (обычно весов узлов) выводятся посредством обучения.

Гиперпараметры можно классифицировать как гиперпараметры модели, которые нельзя вывести при подгонке машины к обучающему набору, потому что они относятся к задаче выбора модели, или гиперпараметрам алгоритма, которые в принципе не влияют на производительность модели, но влияют на скорость и скорость. качество учебного процесса. Примером гиперпараметра модели является топология и размер нейронной сети. Примерами гиперпараметров алгоритмов являются скорость обучения и размер мини- пакета.

Для разных алгоритмов обучения модели требуются разные гиперпараметры, для некоторых простых алгоритмов (таких как обычная регрессия методом наименьших квадратов ) их не требуется. Учитывая эти гиперпараметры, алгоритм обучения изучает параметры на основе данных. Например, LASSO - это алгоритм, который добавляет гиперпараметр регуляризации к обычной регрессии методом наименьших квадратов, который должен быть установлен перед оценкой параметров с помощью алгоритма обучения.

СОДЕРЖАНИЕ

1 Соображения
- 1.1 Параметры, которые сложно усвоить
- 1.2 Необучаемые параметры
- 1.3 Возможность настройки
- 1.4 Надежность
2 Оптимизация
3 Воспроизводимость
- 3.1 Услуги
- 3.2 Программное обеспечение
4 См. Также
5 ссылки

Соображения

Время, необходимое для обучения и тестирования модели, может зависеть от выбора ее гиперпараметров. Гиперпараметр обычно бывает непрерывного или целочисленного типа, что приводит к проблемам оптимизации смешанного типа. Существование некоторых гиперпараметров зависит от значений других, например, размер каждого скрытого слоя в нейронной сети может зависеть от количества слоев.

Сложно обучаемые параметры

Обычно, но не всегда, гиперпараметры не могут быть изучены с помощью хорошо известных методов на основе градиента (таких как градиентный спуск, LBFGS), которые обычно используются для изучения параметров. Эти гиперпараметры - это те параметры, которые описывают представление модели, которые не могут быть изучены обычными методами оптимизации, но, тем не менее, влияют на функцию потерь. Примером может служить гиперпараметр допуска для ошибок в машинах опорных векторов.

Необучаемые параметры

Иногда гиперпараметры невозможно узнать из обучающих данных, потому что они агрессивно увеличивают емкость модели и могут подтолкнуть функцию потерь к плохому минимуму - переоснащение и улавливание шума в данных - в отличие от правильного отображения разнообразия структура данных. Например, если мы рассматриваем степень полиномиального уравнения, подходящего для модели регрессии, как обучаемый параметр, это просто повысит степень до тех пор, пока модель не будет идеально соответствовать данным, что даст небольшую ошибку обучения - но плохую производительность обобщения.

Возможность настройки

Большинство вариаций производительности можно отнести всего к нескольким гиперпараметрам. Настраиваемость алгоритма, гиперпараметра или взаимодействующих гиперпараметров - это мера того, насколько можно повысить производительность, настроив его. Для LSTM, хотя скорость обучения, за которой следует размер сети, являются его наиболее важными гиперпараметрами, пакетирование и импульс не оказывают существенного влияния на его производительность.

Хотя некоторые исследования рекомендуют использовать размеры мини-партий в тысячах, другие исследования показали, что лучшая производительность достигается при размерах мини-партий от 2 до 32.

Надежность

Присущая обучению стохастичность напрямую подразумевает, что эффективность эмпирического гиперпараметра не обязательно является его истинной производительностью. Методы, которые не устойчивы к простым изменениям гиперпараметров, случайных начальных чисел или даже к различным реализациям одного и того же алгоритма, не могут быть интегрированы в критически важные системы управления без значительного упрощения и робастизации.

В частности, алгоритмы обучения с подкреплением требуют измерения их производительности на большом количестве случайных начальных чисел, а также измерения их чувствительности к выбору гиперпараметров. Их оценка с использованием небольшого количества случайных семян не позволяет адекватно оценить производительность из-за большой дисперсии. Некоторые методы обучения с подкреплением, например DDPG (Deep Deterministic Policy Gradient), более чувствительны к выбору гиперпараметров, чем другие.

Оптимизация

Основная статья: Оптимизация гиперпараметров

Оптимизация гиперпараметров находит кортеж гиперпараметров, который дает оптимальную модель, которая минимизирует предопределенную функцию потерь для заданных тестовых данных. Целевая функция принимает кортеж гиперпараметров и возвращает соответствующие потери.

Воспроизводимость

Помимо настройки гиперпараметров, машинное обучение включает в себя хранение и организацию параметров и результатов, а также обеспечение их воспроизводимости. В отсутствие надежной инфраструктуры для этой цели исследовательский код часто быстро развивается и ставит под угрозу такие важные аспекты, как бухгалтерский учет и воспроизводимость. Платформы онлайн-сотрудничества для машинного обучения идут дальше, позволяя ученым автоматически обмениваться, организовывать и обсуждать эксперименты, данные и алгоритмы. Воспроизводимость может быть особенно сложной для моделей глубокого обучения.

Существует ряд соответствующих сервисов и программного обеспечения с открытым исходным кодом:

Услуги

Имя	Интерфейсы
Comet.ml	Python
OpenML	ОТДЫХ, Python, Java, R
Веса и отклонения	Python

Программное обеспечение

Имя	Интерфейсы	Магазин
Определенный	ОТДЫХ, Python	PostgreSQL
OpenML Docker	ОТДЫХ, Python, Java, R	MySQL
священный	Python	файл, MongoDB, TinyDB, SQL

Смотрите также

Рекомендации