Уменьшение размерности

редактировать

Процесс уменьшения количества рассматриваемых случайных величин

Уменьшение размерности или уменьшение размерности - это преобразование данных из многомерного пространства в низкоразмерное пространство, так что низкоразмерное представление сохраняет некоторые значимые свойства исходных данных, в идеале близкие к его внутреннему измерению. Работа в объемных пространствах может быть нежелательной по многим причинам; необработанные данные часто разрежены из-за проклятия размерности, и анализ данных обычно сложно поддается вычислению. Снижение размерности часто встречается в областях, которые имеют дело с большим количеством наблюдений и / или большим количеством переменных, таких как обработка сигналов, распознавание речи, нейроинформатика и биоинформатика.

Методы обычно делятся на линейные и нелинейные. Подходы также можно разделить на выбор признаков и извлечение признаков. Снижение размерности можно использовать для уменьшения шума, визуализации данных, кластерного анализа или в качестве промежуточного шага для облегчения других анализов.

Содержание

1 Выбор характеристик
2 Проекция характеристик
- 2.1 Анализ главных компонентов (PCA)
- 2.2 Факторизация неотрицательной матрицы (NMF)
- 2.3 PCA ядра
- 2.4 График- на основе ядра PCA
- 2.5 Линейный дискриминантный анализ (LDA)
- 2.6 Обобщенный дискриминантный анализ (GDA)
- 2.7 Автоэнкодер
- 2.8 t-SNE
- 2.9 UMAP
3 Уменьшение размерности
4 Приложения
5 См. Также
6 Примечания
7 Ссылки
8 Внешние ссылки

Выбор функции

Выбор функции Подходы пытаются найти подмножество входных переменных (также называемых функциями или атрибуты). Этими тремя стратегиями являются: стратегия фильтрации (например, получение информации ), стратегия оболочки (например, поиск, основанный на точности) и встроенная стратегия (выбранные функции добавляются или удаляются при построении модели на основе ошибок прогнозирования.).

Анализ данных, такой как регрессия или классификация, может быть выполнен в уменьшенном пространстве более точно, чем в исходном пространстве.

Проекция объекта

Проекция признаков (также называемая извлечением признаков) преобразует данные из многомерного пространства в пространство меньших измерений. Преобразование данных может быть линейным, как в анализе главных компонентов (PCA), но также существует множество методов уменьшения нелинейной размерности. Для многомерных данных представление тензор может использоваться для уменьшения размерности посредством обучения многолинейных подпространств.

анализа главных компонентов (PCA)

Основной линейный метод уменьшения размерности, главный компонент анализ, выполняет линейное отображение данных в пространство более низкой размерности таким образом, чтобы дисперсия данных в представлении низкой размерности была максимальной. На практике создается ковариационная (и иногда корреляционная ) матрица данных и вычисляются собственные векторы для этой матрицы. Собственные векторы, которые соответствуют наибольшим собственным значениям (главные компоненты), теперь можно использовать для восстановления значительной части дисперсии исходных данных. Более того, первые несколько собственных векторов часто можно интерпретировать с точки зрения крупномасштабного физического поведения системы, потому что они часто вносят подавляющую часть энергии системы, особенно в низкоразмерных системах. Тем не менее, это необходимо доказывать в каждом конкретном случае, поскольку не все системы демонстрируют такое поведение. Исходное пространство (с размерностью числа точек) было уменьшено (с потерей данных, но, надеюсь, с сохранением наиболее важной дисперсии) до пространства, охватываемого несколькими собственными векторами.

Неотрицательная матричная факторизация (NMF)

NMF разлагает неотрицательную матрицу на произведение двух неотрицательных матриц, что является многообещающим инструментом в областях, где существуют только неотрицательные сигналы, таких как астрономия. NMF хорошо известен со времен правила мультипликативного обновления, разработанного Lee Seung, которое постоянно развивается: включение неопределенностей, учет отсутствующих данных и параллельные вычисления, последовательное построение, которое приводит к стабильности и линейности NMF, а также другие обновляет, включая обработку недостающих данных в обработке цифровых изображений.

. Благодаря стабильной компонентной основе во время строительства и процессу линейного моделирования, последовательный NMF может сохранять поток в прямая визуализация околозвездных структур в астромонии, как один из методов обнаружения экзопланет, особенно для прямой визуализации околозвездных дисков. По сравнению с PCA, NMF не удаляет среднее значение матриц, что приводит к нефизическим неотрицательным потокам, поэтому NMF может сохранять больше информации, чем PCA, как показано Реном и др.

Kernel PCA

Анализ главных компонентов может использоваться нелинейным образом с помощью трюка с ядром . Полученный метод позволяет создавать нелинейные отображения, которые максимизируют дисперсию данных. Полученная в результате методика называется ядро PCA.

Графическое ядро PCA

Другие известные нелинейные методы включают методы обучения множеству, такие как Isomap, локально линейное вложение (LLE), гессианское LLE, лапласовские собственные карты и методы, основанные на анализе касательного пространства. Эти методы создают низкоразмерное представление данных с использованием функции стоимости, которая сохраняет локальные свойства данных и может рассматриваться как определение ядра на основе графов для Kernel PCA.

Совсем недавно были предложены методы, которые вместо определения фиксированного ядра пытаются изучить ядро с помощью полуопределенного программирования. Наиболее ярким примером такой техники является разворачивание максимальной дисперсии (MVU). Основная идея MVU состоит в том, чтобы точно сохранить все попарные расстояния между ближайшими соседями (во внутреннем пространстве продукта), при этом максимизируя расстояния между точками, которые не являются ближайшими соседями.

Альтернативный подход к сохранению соседства заключается в минимизации функции стоимости, которая измеряет различия между расстояниями во входном и выходном пространствах. Важные примеры таких методов включают: классическое многомерное масштабирование, которое идентично PCA; Isomap, который использует геодезические расстояния в пространстве данных; карты распространения, которые используют расстояния распространения в пространстве данных; t-распределенное стохастическое вложение соседей (t-SNE), которое минимизирует расхождение между распределениями по парам точек; и криволинейный компонентный анализ.

Другой подход к уменьшению нелинейной размерности заключается в использовании автоэнкодеров, особого вида нейронных сетей с прямой связью со скрытым слоем «узкое горлышко». Обучение глубинных кодировщиков обычно выполняется с использованием жадного послойного предварительного обучения (например, с использованием стека из ограниченных машин Больцмана ), за которым следует этап точной настройки на основе обратного распространения ошибки.

Линейный дискриминантный анализ (LDA)

Линейный дискриминантный анализ (LDA) - это обобщение линейного дискриминанта Фишера, метода, используемого в статистике, распознавании образов и машинном обучении, чтобы найти линейную комбинацию признаков, которая характеризует или разделяет два или больше классов объектов или событий.

Обобщенный дискриминантный анализ (GDA)

GDA занимается нелинейным дискриминантным анализом с использованием оператора функции ядра. Основная теория близка к машинам опорных векторов (SVM), поскольку метод GDA обеспечивает отображение входных векторов в многомерное пространство признаков. Подобно LDA, цель GDA состоит в том, чтобы найти проекцию для функций в пространство с более низкой размерностью, максимизируя отношение разброса между классами к разбросу внутри класса.

Автоэнкодер

Автоэнкодеры могут использоваться для изучения нелинейных функций уменьшения размеров и кодирования вместе с обратной функцией от кодирования до исходного представления.

t-SNE

T-распределенное стохастическое соседнее встраивание (t-SNE) - это метод нелинейного уменьшения размерности, полезный для визуализации многомерных наборов данных.

UMAP

Аппроксимация и проекция однородного многообразия (UMAP) - это метод нелинейного уменьшения размерности. Визуально он похож на t-SNE, но предполагает, что данные равномерно распределены на локально связном римановом многообразии и что риманова метрика локально постоянный или приблизительно локально постоянный.

Уменьшение размерности

Для наборов данных большой размерности (т. Е. С числом измерений более 10) уменьшение размерности обычно выполняется до применения алгоритма K-ближайших соседей (k-NN), чтобы избежать последствий проклятия размерности .

Извлечение признаков и уменьшение размеров можно объединить за один шаг с помощью анализа главных компонентов (PCA), линейный дискриминантный анализ (LDA), канонический корреляционный анализ (CCA) или методы факторизации неотрицательной матрицы (NMF) в качестве этапа предварительной обработки, за которым следует кластеризация K-NN на векторах признаков в пространстве уменьшенной размерности. В машинном обучении этот процесс также называется низкоразмерным встраиванием.

для очень многомерных наборов данных (например, при выполнении поиска по сходству в видеопотоках в реальном времени, данных ДНК или многомерных временной ряд ) с быстрым приближенным поиском K-NN с использованием хеширования с учетом местоположения, случайной проекции, «эскизов» или другого подобия большого размера. методы поиска из набора инструментов VLDB могут быть единственно возможным вариантом.

Приложения

Метод уменьшения размерности, который иногда используется в неврологии, - это максимально информативные измерения, которые находят низкоразмерное представление набора данных таким образом, чтобы сохранялось как можно больше информации об исходных данных.

См. Также

Примечания

Ссылки

Внешние ссылки

Уменьшение размерности

анализа главных компонентов (PCA)

Неотрицательная матричная факторизация (NMF)

Kernel PCA

Графическое ядро ​​PCA

Линейный дискриминантный анализ (LDA)

Обобщенный дискриминантный анализ (GDA)

Автоэнкодер

t-SNE

UMAP

Графическое ядро PCA