Холодный старт (рекомендательные системы)

редактировать

Холодный старт - потенциальная проблема в компьютерной информации системы, которые включают в себя степень автоматизированного моделирования данных. В частности, это касается проблемы, заключающейся в том, что система не может сделать никаких выводов для пользователей или элементов, о которых она еще не собрала достаточную информацию.

Содержание

1 Затронутые системы
- 1.1 Новое сообщество
- 1.2 Новый элемент
- 1.3 Новый пользователь
2 Стратегии смягчения последствий
- 2.1 Завершение профиля
- 2.2 Сопоставление функций
- 2.3 Взвешивание гибридных характеристик
- 2.4 Дифференциация весов регуляризации
3 См. Также
4 Ссылки
5 Внешние ссылки

Затронутые системы

Проблема холодного запуска - хорошо известная и хорошо изученная проблема для рекомендательных систем. Рекомендательные системы формируют особый тип метода фильтрации информации (IF), который пытается представить информационные элементы (электронная коммерция, фильмы, музыка, книги, новости, изображения, веб-страницы ), которые могут заинтересовать пользователя. Обычно рекомендательная система сравнивает профиль пользователя с некоторыми эталонными характеристиками. Эти характеристики могут быть связаны с характеристиками элемента (фильтрация на основе содержимого ) или социальной средой пользователя и прошлым поведением (совместная фильтрация ). В зависимости от системы, пользователь может быть связан с различными видами взаимодействий: рейтинги, закладки, покупки, лайки, количество посещений страницы и т. Д.

Существует три случая холодного старта:

Новое сообщество : относится к запуску рекомендателя, когда, хотя каталог элементов может существовать, почти нет пользователей, а отсутствие взаимодействия с пользователем очень затрудняет предоставление надежных рекомендаций
Новый элемент : в систему добавлен новый элемент, он может содержать некоторую информацию, но взаимодействия отсутствуют
Новый пользователь : новый пользователь регистрируется и еще не оказал никакого взаимодействия, поэтому невозможно предоставить персонализированные рекомендации

Новое сообщество

Новая проблема сообщества, или системная самозагрузка, относится к запуску системы, когда практически отсутствует информация, на которую рекомендатель может положиться. Этот случай представляет собой недостатки как нового пользователя, так и случая нового элемента, поскольку все элементы и пользователи являются новыми. По этой причине некоторые методы, разработанные для решения этих двух случаев, неприменимы к начальной загрузке системы.

Новый элемент

Проблема с холодным запуском элемента связана с тем, что элементы, добавленные в каталог, либо не взаимодействуют, либо имеют очень мало взаимодействий. Это представляет проблему в основном для алгоритмов совместной фильтрации из-за того, что они полагаются на взаимодействия элемента для выработки рекомендаций. Если взаимодействия недоступны, чистый алгоритм совместной работы не может рекомендовать элемент. Если доступно только несколько взаимодействий, хотя совместный алгоритм сможет рекомендовать их, качество этих рекомендаций будет низким. Возникает еще одна проблема, которая больше не связана с новинками, а скорее с непопулярными. В некоторых случаях (например, рекомендации фильмов) может случиться так, что несколько элементов получают чрезвычайно большое количество взаимодействий, в то время как большинство элементов получают только часть из них. Это называется смещением популярности .

Количество взаимодействий пользователя, связанных с каждым элементом в наборе данных Movielens. Некоторые элементы имеют очень большое количество взаимодействий, более 5000, в то время как большинство других имеет менее 100

В контексте элементов холодного старта важна смещение популярности, потому что может случиться так, что многие элементы, даже если они были в каталоге месяцами, получили лишь несколько взаимодействий. Это создает отрицательный цикл, в котором непопулярные элементы будут плохо рекомендованы, поэтому они будут гораздо менее заметны, чем популярные, и будут бороться за взаимодействие. Хотя ожидается, что некоторые элементы будут менее популярны, чем другие, эта проблема, в частности, связана с тем фактом, что у рекомендателя недостаточно информации для совместной работы, чтобы рекомендовать их значимым и надежным образом.

Фильтрация на основе содержимого алгоритмы, с другой стороны, теоретически гораздо менее подвержены проблеме с новым предметом. Поскольку рекомендатели на основе контента выбирают, какие элементы рекомендовать, в зависимости от характеристик, которыми они обладают, даже если для нового элемента не существует взаимодействия, его функции все равно позволят сделать рекомендацию. Это, конечно, предполагает, что новый элемент уже будет описан своими атрибутами, что не всегда так. Рассмотрим случай так называемых редакционных функций (например, режиссер, состав, название, год), они всегда известны, когда элемент, в данном случае фильм, добавляется в каталог. Однако другие виды атрибутов могут не быть, например функции, извлеченные из отзывов пользователей и тегов. Алгоритмы на основе контента, основанные на функциях, предоставляемых пользователем, также страдают от проблемы с холодным запуском элементов, поскольку для новых элементов, если нет (или очень мало) взаимодействий, также не будут доступны (или очень мало) пользовательских обзоров и тегов.

Новый пользователь

Новый случай пользователя относится к тому моменту, когда новый пользователь регистрируется в системе, и в течение определенного периода времени рекомендующий должен предоставлять рекомендации, не полагаясь на прошлые взаимодействия пользователя, поскольку пока ничего не произошло. Эта проблема приобретает особую важность, когда рекомендатель является частью услуги, предлагаемой пользователям, поскольку пользователь, который сталкивается с рекомендациями низкого качества, может вскоре решить прекратить использование системы, прежде чем он обеспечит достаточное взаимодействие, чтобы позволить рекомендателю понять его / ее интересы. Основная стратегия работы с новыми пользователями - попросить их предоставить некоторые предпочтения для создания первоначального профиля пользователя. Необходимо найти порог между продолжительностью процесса регистрации пользователя, который, если он будет слишком длинным, может привести к тому, что слишком много пользователей откажется от него, и объемом исходных данных, необходимых для правильной работы рекомендателя.

Как и в случае с новыми элементами, не все рекомендательные алгоритмы затрагиваются одинаково. будут затронуты, поскольку они полагаются на профиль пользователя, чтобы оценить, насколько актуальны предпочтения других пользователей. Алгоритмы совместной фильтрации подвержены наибольшему влиянию, поскольку без взаимодействия невозможно сделать вывод о предпочтениях пользователя. алгоритмы ведут себя несколько иначе. Алгоритм, основанный на пользовательском контенте, будет полагаться на особенности пользователя (например, возраст, пол, страна), чтобы найти похожих пользователей и рекомендовать элементы, с которыми они взаимодействовали, положительно, таким образом, будучи устойчивым к новому пользовательскому случаю. Обратите внимание, что вся эта информация собирается в процессе регистрации, либо путем запроса пользователя ввести данные самостоятельно, либо путем использования уже имеющихся данных, например в своих аккаунтах в социальных сетях.

Стратегии смягчения последствий

Благодаря большому количеству доступных рекомендательных алгоритмов, а также типу и характеристикам системы было разработано множество стратегий для смягчения проблемы холодного запуска. Основной подход состоит в том, чтобы полагаться на гибридные рекомендатели, чтобы смягчить недостатки одной категории или модели путем объединения их с другой.

Все три категории холодного старта (новое сообщество, новый элемент и новый пользователь) имеют общее отсутствие взаимодействия с пользователем и некоторые общие черты в стратегиях, доступных для их решения.

Распространенной стратегией при работе с новыми элементами является объединение рекомендателя совместной фильтрации для теплых элементов с рекомендациями фильтрации на основе содержимого для холодных элементов.. Хотя эти два алгоритма можно комбинировать по-разному, главный недостаток этого метода связан с низким качеством рекомендаций, которое часто демонстрируют рекомендатели на основе содержимого в сценариях, где трудно предоставить исчерпывающее описание характеристик элемента. В случае новых пользователей, если демографические характеристики отсутствуют или их качество слишком низкое, общая стратегия состоит в том, чтобы предложить им неперсонализированные рекомендации. Это означает, что им могут быть рекомендованы просто самые популярные товары в мире или для их конкретного географического региона или языка.

Завершение профиля

Одна из доступных опций при работе с холодными пользователями или предметами - быстрое получение некоторых данных о предпочтениях. Это можно сделать разными способами в зависимости от объема необходимой информации. Эти методы называются стратегиями выявления предпочтений. Это может быть сделано либо явно (путем запроса пользователя), либо неявно (путем наблюдения за поведением пользователя). В обоих случаях проблема холодного запуска будет означать, что пользователь должен приложить определенные усилия, используя систему в ее «простом» состоянии, что способствует построению своего профиля пользователя, прежде чем система сможет начать предоставлять какие-либо разумные рекомендации.

Например, MovieLens, веб-ориентированная система рекомендаций для фильмов, просит пользователя оценить некоторые фильмы как часть регистрации. Хотя стратегия извлечения предпочтений - простой и эффективный способ работы с новыми пользователями, дополнительные требования во время регистрации сделают процесс более трудоемким для пользователя. Более того, качество полученных предпочтений может быть не идеальным, поскольку пользователь может оценивать элементы, которые он / она видел несколько месяцев или лет назад, или предоставленные оценки могут быть почти случайными, если пользователь предоставил их, не обращая внимания только на быстрое завершение регистрации.

Создание профиля пользователя также может быть автоматизировано путем интеграции информации из других действий пользователя, таких как истории просмотра или платформы социальных сетей. Если, например, пользователь читал информацию о конкретном музыкальном исполнителе с медиа-портала, то соответствующая рекомендательная система автоматически предложит релизы этого исполнителя, когда пользователь посетит музыкальный магазин.

Разновидностью предыдущего подхода является автоматическое присвоение оценок новым элементам на основе оценок, присвоенных сообществом другим аналогичным элементам. Сходство элементов будет определяться в соответствии с характеристиками элементов, основанными на содержании.

Также возможно создать исходный профиль пользователя на основе характеристик личности пользователя и использовать такой профиль для выработки персонализированной рекомендации. Личностные характеристики пользователя могут быть идентифицированы с использованием такой модели личности, как пятифакторная модель (FFM).

Еще один из возможных методов - применить активное обучение (машинное обучение). Основная цель активного обучения состоит в том, чтобы направлять пользователя в процессе определения предпочтений, чтобы попросить его оценить только те элементы, которые с точки зрения рекомендаций будут наиболее информативными. Это делается путем анализа доступных данных и оценки полезности точек данных (например, рейтинги, взаимодействия). В качестве примера предположим, что мы хотим построить два кластера из определенного облака точек. Как только мы определили две точки, каждая из которых принадлежит другому кластеру, какая точка будет следующей наиболее информативной? Если мы возьмем точку, близкую к уже известной, мы можем ожидать, что она, скорее всего, будет принадлежать к тому же кластеру. Если мы выберем точку, которая находится между двумя кластерами, знание того, к какому кластеру она принадлежит, поможет нам определить, где находится граница, что позволит классифицировать многие другие точки с помощью всего нескольких наблюдений.

Проблема холодного запуска также проявляется в интерфейсах агентов. Поскольку такой агент обычно изучает предпочтения пользователя неявно, наблюдая закономерности в его поведении - «наблюдение через плечо», - потребуется время, прежде чем агент сможет выполнить какие-либо адаптации, персонализированные для пользователя. Даже в этом случае его помощь будет ограничена действиями, которые он ранее наблюдал за пользователем. Проблема холодного запуска может быть преодолена путем введения элемента сотрудничества между агентами, помогающими различным пользователям. Таким образом, новые ситуации могут быть обработаны путем запроса других агентов поделиться тем, что они уже узнали от своих соответствующих пользователей.

Отображение функций

В последние годы были предложены более продвинутые стратегии, все они полагаться на машинное обучение и пытаться объединить контент и информацию для совместной работы в одной модели. Одним из примеров такого подхода является сопоставление атрибутов с функциями, адаптированное к алгоритмам. Основная идея заключается в следующем. Модель матричной факторизации представляет взаимодействия пользователя с элементом как продукт двух прямоугольных матриц, содержание которых изучается с использованием известных взаимодействий посредством машинного обучения. Каждый пользователь будет связан со строкой первой матрицы, а каждый элемент - со столбцом второй матрицы. Строка или столбец, связанные с конкретным пользователем или элементом, называются скрытыми факторами. Когда добавляется новый элемент, с ним не связаны скрытые факторы, и отсутствие взаимодействий не позволяет изучить их, как это было сделано с другими предметами. Если каждый элемент связан с некоторыми характеристиками (например, автором, годом, издателем, участниками), можно определить функцию внедрения, которая с учетом характеристик элемента оценивает соответствующие скрытые факторы элемента. Функцию встраивания можно разработать разными способами, и она обучается с данными, уже доступными из теплых элементов. В качестве альтернативы можно применить метод, специфичный для группы. Специфичный для группы метод дополнительно разбивает каждый латентный фактор на две аддитивные части: одна часть соответствует каждому элементу (и / или каждому пользователю), а другая часть совместно используется элементами в каждой группе элементов (например, группа фильмов может быть фильмы того же жанра). Затем, когда поступает новый элемент, мы можем присвоить ему метку группы и аппроксимировать его латентный фактор с помощью специфичной для группы части (соответствующей группы элементов). Таким образом, хотя отдельная часть нового элемента недоступна, групповая часть обеспечивает немедленное и эффективное решение. То же самое относится и к новому пользователю, так как если для него доступна некоторая информация (например, возраст, национальность, пол), то его / ее латентные факторы могут быть оценены с помощью функции внедрения или латентного фактора, специфичного для группы.

Гибридное взвешивание характеристик

Еще один недавний подход, который имеет сходство с сопоставлением функций, - это создание рекомендаций по гибридной фильтрации на основе содержимого, в которой функции, либо элементы, либо пользователей, оцениваются в соответствии с их восприятием важности. Чтобы определить фильм, который может понравиться пользователю, разные атрибуты (например, актеры, режиссер, страна, название) будут иметь разное значение. В качестве примера рассмотрим сериал Джеймс Бонд, где главный актер много раз менялся за эти годы, а некоторые нет, например Лоис Максвелл. Следовательно, ее присутствие, вероятно, будет лучшим идентификатором такого фильма, чем присутствие одного из различных главных действующих лиц. Хотя в рекомендательных системах существуют различные методы для применения взвешивания характеристик к характеристикам пользователя или элемента, большинство из них относятся к домену поиска информации, например tf – idf, Okapi BM25, лишь некоторые из них были разработаны специально для рекомендателей.

Гибридные методы взвешивания признаков, в частности, адаптированы для области рекомендательной системы. Некоторые из них изучают вес функции, непосредственно используя взаимодействие пользователя с элементами, например FBSM. Другие полагаются на промежуточную совместную модель, обученную на теплых элементах, и пытаются изучить веса характеристик контента, которые будут лучше приближаться к совместной модели.

Многие из гибридных методов можно рассматривать как частные случаи.

Дифференциация весов регуляризации

Вышеупомянутые методы основаны на связанной информации от пользователей или элементов. Недавно появился другой подход, который смягчает проблему холодного старта, устанавливая более низкие ограничения для скрытых факторов, связанных с элементами или пользователями, которые раскрывают больше информации (например, популярные элементы и активные пользователи), и устанавливая более высокие ограничения для других (например, менее популярные элементы. и неактивные пользователи). Показано, что от этой стратегии выигрывают различные модели рекомендаций. Дифференцирующие веса регуляризации можно интегрировать с другими стратегиями смягчения последствий холодного старта.

См. Также

Ссылки

Внешние ссылки