Разработка концепций

редактировать

Анализ концепций - это действие, результатом которого является извлечение концептов из артефактов. Решения задачи обычно включают аспекты искусственного интеллекта и статистики, такие как интеллектуальный анализ данных и интеллектуальный анализ текста. Поскольку артефакты обычно представляют собой слабо структурированную последовательность слов и других символов (а не понятий), проблема нетривиальна, но она может дать мощное понимание значения, происхождения и сходства документов.

Содержание

1 Методы
2 Приложения
- 2.1 Обнаружение и индексирование похожих документов в больших корпусах
- 2.2 Кластеризация документов по темам
3 См. Также
4 Ссылки

Методы

Традиционно преобразование слов в понятия выполнялось с использованием тезауруса, и для вычислительных методов наблюдается тенденция делать то же самое. Используемые тезаурусы либо специально созданы для данной задачи, либо уже существующая языковая модель, обычно связанная с WordNet.

Принстона. Отображение слов в понятия часто неоднозначно. Обычно каждое слово в данном языке относится к нескольким возможным концепциям. Люди используют контекст для устранения неоднозначности различных значений данного фрагмента текста, когда доступные системы машинного перевода не могут легко вывести контекст.

Однако для целей исследования концепций эти неоднозначности, как правило, менее важны, чем в случае машинного перевода, поскольку в больших документах неоднозначности имеют тенденцию выравниваться, как и в случае интеллектуального анализа текста.

Есть много методов для устранения неоднозначности, которые можно использовать. Примерами являются лингвистический анализ текста и использование информации о частоте ассоциации слов и понятий, которая может быть выведена из больших корпусов текста. В последнее время появились методы, основанные на семантическом сходстве между возможными концепциями и контекстом, и они вызвали интерес в научном сообществе.

Приложения

Обнаружение и индексирование похожих документов в больших корпусах

Одним из побочных эффектов вычисления статистики документов в области понятий, а не в области слов, является то, что концепции образуют естественные древовидные структуры, основанные на гипернимии и меронимии. Эти структуры можно использовать для генерации простой статистики членства в дереве, которую можно использовать для поиска любого документа в. Если размер документа также рассматривается как другое измерение этого пространства, тогда может быть создана чрезвычайно эффективная система индексирования. Этот метод в настоящее время используется в коммерческих целях для поиска аналогичных юридических документов в корпусе из 2,5 миллионов документов.

Кластеризация документов по темам

Стандартные методы числовой кластеризации могут использоваться в «концептуальном пространстве», как описано выше, для поиска и индексации документов по предполагаемой теме. Они численно намного более эффективны, чем их собратья интеллектуального анализа текста, и, как правило, ведут себя более интуитивно, поскольку они лучше сопоставляются с мерами сходства, генерируемыми человеком.

См. Также

Ссылки

^Юэнь-Сянь Цзэн, Чун-Йен Чанг, Шу-Ну Чанг Рундгрен и Карл -Johan Rundgren, «Разработка концептуальных карт из новостных статей для измерения гражданской научной грамотности в СМИ », «Компьютеры и образование», Vol. 55, No. 1, август 2010 г., стр. 165-177.
^Юэнь-Сянь Цзэн, «Автоматическое создание тезауруса для китайских документов », Журнал Американского общества информационных наук и технологий, Vol. 53, No. 13, ноябрь 2002 г., стр. 1130-1138.
^Юэнь-Сянь Цзэн, «Общие названия для кластеризованных документов », Экспертные системы с приложениями, Том. 37, No. 3, 15 марта 2010 г., стр. 2247-2254.