Встраивание слов

редактировать

Встраивание слов - собирательное название для набора языкового моделирования и изучения функций методы обработки естественного языка (NLP), при которых слова или фразы из словаря отображаются в векторы из действительных чисел. Концептуально он включает математическое встраивание из пространства с множеством измерений на слово в непрерывное векторное пространство с гораздо меньшей размерностью.

Методы для создания этого сопоставления включают нейронные сети, уменьшение размерности на слове матрицу совместной встречаемости, вероятностные модели, метод объяснимой базы знаний, и явное представление в терминах контекста, в котором появляются слова.

Внедрение слов и фраз при использовании в качестве базового входного представления, как было показано, повышает производительность в задачах НЛП, таких как синтаксический анализ и анализ настроений.

Содержание
  • 1 Развитие и история подхода
  • 2 Ограничения
  • 3 Для биологических последовательностей: BioVectors
  • 4 Векторы мыслей
  • 5 Программное обеспечение
    • 5.1 Примеры применения
  • 6 См. Также
  • 7 Ссылки
Развитие и история подхода

В лингвистике вложения слов обсуждались в области исследований распределительная семантика. Он направлен на количественную оценку и категоризацию семантических сходств между лингвистическими элементами на основе их свойств распределения в больших выборках языковых данных. Основная идея о том, что «слово характеризуется компанией, которую оно составляет», была популяризирована Фёртом.

. Понятие семантического пространства с лексическими элементами (словами или многословными терминами), представленными как векторы или вложения, основано на вычислительные задачи сбора характеристик распределения и их использования в практических целях для измерения сходства между словами, фразами или целыми документами. Первое поколение моделей семантического пространства - это модель векторного пространства для поиска информации. Такие модели векторного пространства для слов и их распределительных данных, реализованные в их простейшей форме, приводят к очень разреженному векторному пространству высокой размерности (см. Проклятие размерности ). Уменьшение количества измерений с помощью методов линейной алгебры, таких как разложение по сингулярным числам, затем привело к внедрению скрытого семантического анализа в конце 1980-х годов и подхода случайного индексирования. для сбора контекстов совпадения слов. В 2000 г. Bengio et al. представил в серии статей «Нейро-вероятностные языковые модели» для уменьшения высокой размерности представлений слов в контекстах путем «изучения распределенного представления для слов». Вложения слов бывают двух разных стилей, в одном из которых слова выражаются как векторы совпадающих слов, а в другом слова выражаются как векторы лингвистических контекстов, в которых эти слова встречаются; эти разные стили изучаются в (Lavelli et al., 2004). Роуис и Сол опубликовали в Science, как использовать «локально линейное встраивание » (LLE) для открытия представлений многомерных структур данных. Большинство новых методов встраивания слов, появившихся примерно после 2005 года, основаны на архитектуре нейронной сети вместо более вероятностных и алгебраических моделей, поскольку в некоторых фундаментальных работах Йошуа Бенджио и его коллеги.

подход был принят Многие исследовательские группы после достижений примерно в 2010 году сделали теоретические работы по качеству векторов и скорости обучения модели, а достижения в области аппаратного обеспечения позволили с пользой изучить более широкое пространство параметров. В 2013 году команда Google во главе с Томасом Миколовым создала word2vec, набор инструментов для встраивания слов, который может обучать модели векторного пространства быстрее, чем предыдущие подходы. Подход word2vec широко использовался в экспериментах и ​​сыграл важную роль в повышении интереса к встраиванию слов как технологии, перемещая направление исследований из специализированных исследований в более широкие эксперименты и, в конечном итоге, открывая путь для практического применения.

Ограничения

Одно из основных ограничений встраивания слов (в общем, модели векторных пространств слова ) состоит в том, что слова с несколькими значениями объединяются в единое представление (один вектор в семантическом пространстве). Другими словами, многозначность и омонимия не рассматриваются должным образом. Например, в предложении «Клуб, который я попробовал вчера, был великолепен!», Неясно, связан ли термин клуб со значением слова клубный бутерброд, бейсбольный клуб, клуб, гольф-клуб или любой другой смысл, который может иметь этот клуб. Необходимость сочетать несколько значений для каждого слова в разных векторах (многосмысловые вложения) является мотивацией для нескольких вкладов в НЛП, чтобы разделить односмысловые вложения на многосмысленные.

Большинство подходов, которые производят многозначные вложения вложения могут быть разделены на две основные категории по их словесному представлению, т. е. неконтролируемые и основанные на знаниях. На основе word2vec skip-gram, Multi-Sense Skip-Gram (MSSG) выполняет распознавание смысла слов и встраивание одновременно, сокращая время обучения, предполагая при этом определенное количество смыслов для каждого слова. В непараметрической мультисмысловой пропускной грамме (NP-MSSG) это число может варьироваться в зависимости от каждого слова. Объединение предшествующих знаний лексических баз данных (например, WordNet, ConceptNet, BabelNet ), встраивания слов и устранения неоднозначности слов, меток наиболее подходящей смысловой аннотации (MSSA) смыслы слова с помощью неконтролируемого и основанного на знаниях подхода с учетом контекста слова в заранее определенном скользящем окне. Как только слова устранены, их можно использовать в стандартной технике встраивания слов, так что создаются многосмысленные вложения. Архитектура MSSA позволяет многократно выполнять процесс устранения неоднозначности и аннотации в самоулучшающейся манере.

Использование мультисмысловых вложений, как известно, улучшает производительность в нескольких задачах НЛП, таких как тегирование части речи, идентификация семантической связи и семантическая взаимосвязь. Однако задачи, включающие распознавание именованных сущностей и анализ тональности, похоже, не выигрывают от множественного векторного представления.

Для биологических последовательностей: BioVectors

Вложения слов для n-граммов в биологические последовательности (например, ДНК, РНК и белки) для применения биоинформатики были предложены Асгари и Мофрад. Названные био-векторы (BioVec) для обозначения биологических последовательностей в целом с белковыми векторами (ProtVec) для белков (аминокислотными последовательностями) и ген-векторами (GeneVec) для последовательностей генов, это представление может широко использоваться в приложениях глубокого анализа. обучение протеомике и геномике. Результаты, представленные Асгари и Мофрадом, предполагают, что BioVectors могут характеризовать биологические последовательности с точки зрения биохимических и биофизических интерпретаций лежащих в основе паттернов.

Векторы мысли

Векторы мысли являются расширением встраивания слов в целые предложения или даже документы. Некоторые исследователи надеются, что это может улучшить качество машинного перевода.

программного обеспечения

Программное обеспечение для обучения и использования встраивания слов включает Word2vec Томаса Миколова, GloVe <Стэнфордского университета, GN-GloVe, AllenNLP's ELMo, BERT, fastText, Gensim, Indra и Deeplearning4j. Анализ главных компонентов (PCA) и T-распределенное стохастическое соседнее вложение (t-SNE) используются для уменьшения размерности векторных пространств слов и визуализации вложений слов и кластеров .

Примеры применения

Например, fastText также используется для вычисления вложений слов для текстовых корпусов в Sketch Engine, доступных в Интернете.

См. Также
Ссылки
Последняя правка сделана 2021-06-21 03:30:18
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте