Управляемый словарь

редактировать

Управляемые словари позволяют систематизировать знания для последующего поиска. Они используются в схемах предметного индексирования, предметных рубриках, тезаурусах, таксономиях и других системах организации знаний. Схемы контролируемой лексики требуют использования заранее определенных утвержденных терминов, которые были предварительно выбраны разработчиками схем, в отличие от словарей естественного языка, которые не имеют таких ограничений.

Содержание

1 В библиотеке и информатике
- 1.1 Типы, используемые в библиотеках
2 Языки индексирования
- 2.1 Преимущества
- 2.2 Проблемы
3 Приложения
- 3.1 Техническая коммуникация
- 3.2 Семантическая сеть и структурированные данные
4 См. Также
5 Ссылки
6 Внешние ссылки

В библиотеке и информатике

В библиотеке и информатике, контролируемый словарь - это тщательно подобранный список из слов и фраз, которые используются для тегов единиц информации (документа или работы), чтобы их было проще получено поиском. Управляемые словари решают проблемы омографов, синонимов и полисем посредством взаимного соответствия между концептами и утвержденными терминами. Короче говоря, контролируемые словари уменьшают двусмысленность, присущую нормальным человеческим языкам, где одному и тому же понятию могут быть присвоены разные имена, и обеспечивают согласованность.

Например, в Предметных заголовках Библиотеки Конгресса (система предметных заголовков, использующая контролируемый словарь), разрешенные термины - в данном случае предметные заголовки - должны быть выбраны для обработки вариантов выбора. между вариантами написания одного и того же слова (американское или британское), выбором между научными и популярными терминами (таракан против Periplaneta americana) и выбором между синонимами (автомобиль или автомобиль), среди других сложных вопросов.

Выбор разрешенных терминов основывается на принципах пользовательской гарантии (какие термины пользователи могут использовать), литературной гарантии (какие термины обычно используются в литературе и документах) и структурной гарантии (термины, выбранные учитывая структуру, объем контролируемой лексики).

Управляемые словари также обычно решают проблему омографов с квалификаторами. Например, термин «пул» должен быть квалифицирован как относящийся либо к плавательному бассейну, либо к игровому пулу, чтобы гарантировать, что каждый разрешенный термин или заголовок относится только к одной концепции.

Типы, используемые в библиотеках

В библиотеках используются два основных типа инструментов управляемого словарного запаса: предметные заголовки и тезаурусы. Хотя различия между ними уменьшаются, есть еще некоторые незначительные различия.

Исторически предметные заголовки создавались каталогизаторами для описания книг в каталогах библиотек, в то время как тезаурусы использовались индексаторами для применения терминов индекса к документам и статьям. Предметные заголовки имеют тенденцию быть более широкими по объему, описывая целые книги, в то время как тезаурусы имеют тенденцию быть более специализированными, охватывая очень конкретные дисциплины. Также из-за системы карточного каталога, предметные заголовки, как правило, содержат термины в косвенном порядке (хотя с появлением автоматизированных систем это устраняется), в то время как термины тезауруса всегда расположены в прямом порядке. В предметных заголовках также обычно используется более предварительная координация терминов, так что разработчик контролируемого словаря объединяет различные концепции вместе, чтобы сформировать один утвержденный предметный заголовок. (например, дети и терроризм), в то время как тезаурусы, как правило, используют прямые термины в единственном числе. Наконец, тезаурусы перечисляют не только эквивалентные термины, но также более узкие, широкие термины и связанные термины среди различных разрешенных и несанкционированных терминов, в то время как исторически большинство предметных заголовков этого не делали.

Например, предметный заголовок Библиотеки Конгресса не имел особой синдетической структуры до 1943 года, и только в 1985 году он начал принимать термин типа тезауруса "Более широкий термин "и" Узкий термин ".

термины выбираются и систематизируются обученными профессионалами (включая библиотекарей и информатиков), которые обладают опытом в данной предметной области. Термины из контролируемого словаря могут точно описать, о чем на самом деле данный документ, даже если сами термины не встречаются в тексте документа. Хорошо известные системы предметных рубрик включают систему Библиотеки Конгресса, MeSH и Sears. Хорошо известные тезаурусы включают тезаурус по искусству и архитектуре и тезаурус ERIC.

Выбор разрешенных терминов для использования - непростая задача, помимо областей, уже рассмотренных выше, разработчик должен учитывать специфику выбранного термина, использовать ли прямой ввод, согласованность и стабильность языка. Наконец, еще одним важным вопросом является количество предварительных согласований (и в этом случае степень пересчета по сравнению с синтезом становится проблемой) и пост-координаты в системе.

Элементы контролируемого словаря (термины / фразы), используемые в качестве тегов , для помощи в процессе идентификации содержимого документов или других объектов информационной системы (например, СУБД, веб-служб), квалифицируются как метаданные.

Языки индексирования

Существует три основных типа языков индексирования.

Управляемый язык индексирования - индексатор может использовать только утвержденные термины для описания документа
Естественный язык язык индексирования - любой термин из рассматриваемого документа может использоваться для описания документа
Свободный язык индексации - любой термин (не только из документа) может использоваться для описания документа

При индексировании документа индексатор также должен выбрать уровень полноты индексации, уровень детализации документа. описано. Например, при использовании низкой полноты индексации второстепенные аспекты работы не будут описаны с помощью терминов индекса. Как правило, чем выше полнота индексации, тем больше терминов индексируется для каждого документа.

В последние годы стал популярным свободный текстовый поиск как средство доступа к документам. Это предполагает использование индексации на естественном языке с исчерпывающим максимальным значением индексации (индексируется каждое слово в тексте). Было проведено множество исследований для сравнения эффективности и действенности свободного текстового поиска с документами, которые были проиндексированы экспертами с использованием нескольких хорошо подобранных дескрипторов контролируемого словаря.

Преимущества

Часто утверждается, что контролируемые словари повышают точность поиска по произвольному тексту, например, сокращают нерелевантные элементы в списке поиска. Эти нерелевантные элементы (ложные срабатывания ) часто вызваны неоднозначностью, присущей естественному языку. Возьмем, к примеру, английское слово football. Футбол - это название, данное множеству различных командных видов спорта. Самым популярным из этих командных видов спорта во всем мире является ассоциативный футбол, который в некоторых странах также называют футболом. Слово футбол также применяется к футболу регби (союз регби и лига регби ), американский футбол, австралийский футбол по правилам., гэльский футбол и канадский футбол. Таким образом, при поиске футбола будут найдены документы, относящиеся к нескольким совершенно различным видам спорта. Управляемый словарь решает эту проблему за счет пометки документов таким образом, чтобы исключить двусмысленность.

По сравнению с поиском по свободному тексту, использование контролируемого словаря может значительно повысить производительность системы поиска информации, если производительность измеряется точностью (процент документов в списке поиска, которые на самом деле релевантные теме поиска).

В некоторых случаях контролируемая лексика также может улучшить запоминание, потому что, в отличие от схем естественного языка, после поиска правильного авторизованного термина нет необходимости искать другие термины, которые могли бы быть синонимами этого термина.

Проблемы

Контролируемый поиск по словарю может привести к неудовлетворительному отзыву, так как он не сможет найти некоторые документы, которые действительно имеют отношение к вопросу поиска.

Это особенно проблематично, когда вопрос поиска включает в себя термины, которые достаточно касаются предметной области, так что индексатор мог решить пометить его, используя другой термин (но искатель может подумать о том же). По сути, этого может избежать только опытный пользователь контролируемого словаря, понимание которого совпадает с пониманием индексатора.

Другая возможность состоит в том, что статья просто не помечена индексатором из-за низкой полноты индексации. Например, в статье футбол может быть упомянут как второстепенный объект, а индексатор может решить не помечать его словом «футбол», потому что это недостаточно важно по сравнению с основным направлением. Но оказывается, что для искателя эта статья актуальна и, следовательно, вспомнить не удается. Независимо от того, произвольный текстовый поиск найдет эту статью автоматически.

С другой стороны, поиск по произвольному тексту имеет высокую полноту (выполняется поиск каждого слова), поэтому, хотя он имеет гораздо более низкую точность, он имеет потенциал для быстрого отзыва, если поисковый человек преодолевает проблему синонимов, вводя каждое слово сочетание.

Контролируемые словари могут быстро устареть в быстро развивающихся областях знаний, если разрешенные термины не обновляются регулярно. Даже в идеальном сценарии контролируемая лексика часто менее конкретна, чем слова самого текста. Индексаторы, пытающиеся выбрать подходящие термины для индекса, могут неверно истолковать автора, хотя эта конкретная проблема не является фактором в свободном тексте, поскольку в нем используются собственные слова автора.

Использование контролируемых словарей может быть дорогостоящим по сравнению с поиском по свободному тексту, поскольку для индексации каждой записи необходимы специалисты-люди или дорогостоящие автоматизированные системы. Кроме того, пользователь должен быть знаком со схемой управляемого словаря, чтобы использовать систему наилучшим образом. Но как уже упоминалось, контроль синонимов, омографов может помочь повысить точность.

Для помощи в создании контролируемых словарей было разработано множество методологий, включая фасетную классификацию, которая позволяет описывать данную запись данных или документ множеством способов.

Приложения

Контролируемые словари, такие как Предметные заголовки Библиотеки Конгресса, являются важным компонентом библиографии, изучения и классификации книг.. Первоначально они были разработаны в библиотеке и информатике. В 1950-х годах правительственные агентства начали разрабатывать контролируемые словари для растущей журнальной литературы в специализированных областях; примером является Медицинские предметные заголовки (MeSH), разработанные США. Национальная медицинская библиотека. Впоследствии появились коммерческие фирмы (так называемые службы реферирования и индексирования), которые индексировали быстрорастущую литературу во всех областях знаний. В 1960-х годах индустрия онлайн-библиографических баз данных развивалась на основе коммутируемого доступа X.25 сетей. Эти услуги редко были доступны общественности, потому что ими было трудно пользоваться; Специализированные библиотекари, называемые поисковыми посредниками, выполняли поисковую работу. В 80-е годы появились первые полнотекстовые базы данных; эти базы данных содержат полный текст статей указателя, а также библиографическую информацию. Онлайновые библиографические базы данных перекочевали в Интернет и теперь общедоступны; однако большинство из них являются проприетарными и могут быть дорогими в использовании. Студенты колледжей и университетов могут иметь доступ к некоторым из этих услуг бесплатно; некоторые из этих услуг могут быть доступны бесплатно в публичной библиотеке.

Техническая коммуникация

В крупных организациях могут быть введены контролируемые словари для улучшения технической коммуникации. Использование контролируемого словаря гарантирует, что все используют одно и то же слово для обозначения одного и того же. Такая единообразие терминов - одна из наиболее важных концепций в техническом письме и управлении знаниями, где прилагаются усилия, чтобы использовать одно и то же слово в документе или организация вместо немного разных, чтобы обозначать одно и то же.

Семантическая сеть и структурированные данные

Поиск в сети можно значительно улучшить путем разработки управляемого словаря для описания веб-страниц; использование такого словаря может привести к созданию семантической сети, в которой содержание веб-страниц описывается с использованием машиночитаемой схемы метаданных. Одним из первых предложений по такой схеме является инициатива Dublin Core. Примером управляемого словаря, который можно использовать для индексации веб-страниц, является PSH.

. Маловероятно, что одна схема метаданных когда-либо сможет описать содержимое всей сети. Чтобы создать семантическую сеть Web, может потребоваться использовать две или более систем метаданных для описания содержимого Web-страницы. EXchangeable Faceted Metadata Language (XFML) разработан, чтобы позволить создателям контролируемых словарей публиковать и совместно использовать системы метаданных. XFML разработан на основе принципов фасетной классификации.

Управляемые словари семантической сети определяют концепции и отношения (термины), используемые для описания области интересов или области беспокойство. Например, чтобы объявить человека в машиночитаемом формате, необходим словарь, имеющий формальное определение «Человек», например словарь Друг друга (FOAF ), в котором есть слово «Человек». класс, который определяет типичные свойства человека, включая, помимо прочего, имя, почетный префикс, принадлежность, адрес электронной почты и домашнюю страницу или словарь Person в Schema.org. Точно так же книгу можно описать, используя словарь Book Schema.org и общие термины публикации из словаря Dublin Core, событие со словарем событий Schema.org и так далее.

Чтобы использовать машиночитаемые термины из любого контролируемого словаря, веб-дизайнеры могут выбирать из множества форматов аннотаций, включая RDFa, HTML5 Microdata или JSON-LD в разметке или сериализации RDF (RDF / XML, Turtle, N3, TriG, TriX) во внешних файлах.

См. Также

Ссылки

Внешние ссылки

Каталог связанных открытых словарей (LOV)