Тезаурус (поиск информации)

редактировать

В контексте поиска информации тезаурус (множественное число: «тезаурус») представляет собой форму управляемый словарь, который стремится диктовать семантические проявления метаданных при индексировании объектов контента. Тезаурус служит для минимизации семантической неоднозначности, обеспечивая единообразие и согласованность в хранении и поиске проявлений объектов контента. ANSI / NISO Z39.19-2005 определяет объект контента как «любой элемент, который должен быть описан для включения в систему поиска информации, веб-сайт или другой источник информации». Тезаурус помогает назначать предпочтительные термины для передачи семантических метаданных, связанных с объектом контента.

Тезаурус служит для руководства как индексатора, так и искателя при выборе одного и того же предпочтительного термина или комбинации предпочтительных терминов для представления заданного предмет. ISO 25964, международный стандарт для тезаурусов поиска информации, определяет тезаурус как «управляемый и структурированный словарь, в котором концепции представлены терминами, организованными таким образом, что отношения между концепциями становятся явными, а предпочтительные термины сопровождаются вводными записями для синонимов или квазисинонимов ».

Тезаурус состоит как минимум из трех элементов: 1 - список слов (или терминов), 2 - отношения между словами (или терминами), обозначенные их относительным положением в иерархии (например, родительский / более широкий термин; дочерний / более узкий термин, синоним и т. д.), 3 - набор правил использования тезауруса.

Содержание

  • 1 История
  • 2 Цель
  • 3 Структура
  • 4 См. Также
  • 5 Ссылки
  • 6 Внешние ссылки

История

Где бы там ни было При больших собраниях информации, будь то на бумаге или в компьютерах, ученые столкнулись с проблемой точного определения предметов, которые они ищут. Использование классификационных схем для упорядочивания документов было лишь частичным решением. Другой подход заключался в индексации содержимого документов с использованием слов или терминов, а не кодов классификации. В 1940-х и 1950-х годах некоторые пионеры, такие как Кальвин Мурс, Чарльз Л. Бернье, Эван Дж. Крейн и Ганс Питер Лун, собрали свои индексные термины. в различных списках, которые они назвали «тезаурусом» (по аналогии с хорошо известным тезаурусом, разработанным Питером Роже ). Первым таким списком, серьезно использовавшимся при поиске информации, был тезаурус, разработанный в 1959 году в компании EI Dupont de Nemours.

Первыми двумя из этих списков, которые были опубликованы, были Тезаурус дескрипторов ASTIA (1960) и Тезаурус химической инженерии Американского института инженеров-химиков (1961), потомок тезауруса Дюпон. Далее последовали другие, кульминацией которых стал влиятельный Тезаурус технических и научных терминов (TEST), опубликованный совместно Объединенным советом инженеров и Министерством обороны США в 1967 году. TEST не просто послужил примером; В Приложении 1 к нему представлены правила и условные обозначения тезауруса, которые с тех пор используются при построении тезауруса. С тех пор были созданы сотни тезаурусов, а может быть, и тысячи. Наиболее заметными нововведениями со времени проведения ТЕСТА стали: а) переход от одноязычного к многоязычному; и (b) Добавление концептуально организованного отображения к основному алфавитному представлению.

Здесь мы упоминаем только некоторые из национальных и международных стандартов, которые неуклонно основывались на основных правилах, изложенных в TEST:

  • ЮНЕСКО Руководство по созданию и развитию одноязычных тезаурусов. 1970 г. (за ним последовали более поздние издания в 1971 и 1981 гг.)
  • DIN 1463 Руководство по созданию и развитию одноязычных тезаурусов. 1972 г. (с последующими изданиями)
  • ISO 2788 Руководство по созданию и развитию одноязычных тезаурусов. 1974 (пересмотренный 1986)
  • Американский национальный стандарт ANSI для структуры, построения и использования тезауруса. 1974 г. (пересмотренный 1980 г. и замененный ANSI / NISO Z39.19-1993)
  • ISO 5964 Руководство по созданию и развитию многоязычных тезаурусов. 1985
  • Руководство ANSI / NISO Z39.19 по построению, формату и управлению одноязычными тезаурусами. 1993 г. (пересмотрен в 2005 г. и переименован в «Руководство по построению, форматированию и управлению одноязычными управляемыми словарями».)
  • Тезаурусы ISO 25964 и взаимодействие с другими словарями. Часть 1 (Тезаурусы для поиска информации) опубликована в 2011 г.; Часть 2 (Взаимодействие с другими словарями) опубликована в 2013 году.

Наиболее четко видимая тенденция в этой истории развития тезауруса - переход от контекста мелкомасштабной изоляции к сетевому миру. Доступ к информации заметно расширился, когда тезаурусы пересекли границу между одноязычными и многоязычными приложениями. В последнее время, как видно из названий последних стандартов ISO и NISO, стало очевидным, что тезаурусы должны работать в тесном взаимодействии с другими формами словарного запаса или системы организации знаний, такими как схемы предметных заголовков, схемы классификации, таксономии и т. Д. онтологии. На официальном веб-сайте ISO 25964 представлена ​​дополнительная информация, включая список для чтения.

Цель

При поиске информации тезаурус может использоваться как форма контролируемого словаря для помощи в индексировании соответствующих метаданные для несущих информацию объектов. Тезаурус помогает выразить проявления концепции заданным образом, чтобы помочь в улучшении точности и запоминания. Это означает, что семантические концептуальные выражения сущностей, несущих информацию, легче найти благодаря единообразию языка. Кроме того, тезаурус используется для поддержания иерархического списка терминов, обычно отдельных слов или связанных фраз, что помогает индексатору сужать термины и ограничивать семантическую двусмысленность.

Тезаурус Искусство и архитектура, например, используется бесчисленными музеями по всему миру для каталогизации своих коллекций. AGROVOC, тезаурус Продовольственной и сельскохозяйственной организации ООН, используется для индексации и / или поиска в ее базе данных AGRIS всемирной литературы по сельскохозяйственным исследованиям.

Структура

Тезаурусы для поиска информации формально организованы таким образом, что существующие отношения между концепциями становятся ясными. Например, «цитрусовые» могут быть связаны с более широким понятием «фрукты» и с более узким понятием «апельсины», «лимоны» и т. Д. Когда термины отображаются в Интернете, связи между ними упрощают поиск просматривайте тезаурус, выбирая полезные термины для поиска. Когда один термин может иметь более одного значения, например таблицы (мебель) или таблицы (данные), они перечисляются отдельно, чтобы пользователь мог выбрать, какое понятие искать, и избежать получения нерелевантных результатов. Для любого одного понятия перечислены все известные синонимы, такие как «коровье бешенство», «губчатая энцефалопатия крупного рогатого скота», «коровий энцефалопат» и т. Д. Идея состоит в том, чтобы помочь всем индексаторам и всем искателям использовать один и тот же термин для обозначения та же концепция, чтобы результаты поиска были максимально полными. Если тезаурус многоязычный, отображаются эквивалентные термины на других языках. В соответствии с международными стандартами, концепции, как правило, располагаются иерархически внутри фасетов или сгруппированы по темам или темам. В отличие от общего тезауруса, который используется в литературных целях, тезаурусы информационного поиска обычно сосредоточены на одной дисциплине, предмете или области исследования.

См. Также

Ссылки

Внешние ссылки

  • Официальный сайт ISO 25964
  • TemaTres - Веб-приложение для управления формальным представлением знаний, тезаурусов, таксономий и многоязычных словарей
  • Taxonomy Warehouse
  • BARTOC, Базельский реестр тезауров, онтологий и классификации.
Последняя правка сделана 2021-06-11 08:34:46
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте