Предметное индексирование

редактировать

Предметизация является актом описания или классификации в документе по индексным терминам или других символами для того, чтобы указать, что документ о, чтобы суммировать его содержание или увеличить находимости. Другими словами, речь идет об идентификации и описании предмета документов. Указатели составляются отдельно на трех различных уровнях: термины в документе, таком как книга; объекты в коллекции, например, в библиотеке; и документы (например, книги и статьи) в определенной области знаний.

Индексирование тем используется при поиске информации, особенно для создания библиографических указателей для поиска документов по определенной теме. Примерами служб академического индексирования являются Zentralblatt MATH, Chemical Abstracts и PubMed. Термины индекса в основном назначались экспертами, но ключевые слова авторов также распространены.

Процесс индексации начинается с любого анализа тематики документа. Затем индексатор должен идентифицировать термины, которые надлежащим образом идентифицируют предмет, либо извлекая слова непосредственно из документа, либо назначая слова из контролируемого словаря. Затем термины в указателе представлены в систематическом порядке.

Индексаторы должны решить, сколько терминов включить и насколько конкретными должны быть термины. Вместе это дает глубину индексации.

СОДЕРЖАНИЕ

  • 1 Предметный анализ
    • 1.1 Автоматический и ручной анализ темы
  • 2 Выбор срока
    • 2.1 Извлечение / производное индексирование
    • 2.2 Индексация присвоения
  • 3 Предметный указатель
  • 4 Глубина индексации
    • 4.1 Исчерпание
    • 4.2 Специфичность
  • 5 Теория индексации
  • 6 См. Также
  • 7 ссылки
  • 8 Дальнейшее чтение

Предметный анализ

Первым шагом в индексации является определение предмета документа. При ручном индексировании индексатор будет рассматривать предмет с точки зрения ответа на ряд вопросов, таких как «Имеет ли документ дело с конкретным продуктом, состоянием или явлением?». Поскольку на анализ влияют знания и опыт индексатора, из этого следует, что два индексатора могут анализировать контент по-разному и, таким образом, предлагать разные термины индекса. Это повлияет на успех поиска.

Автоматический и ручной анализ темы

Автоматическое индексирование следует за установленными процессами анализа частот встречаемости словосочетаний и сравнения результатов с другими документами для отнесения к тематическим категориям. Это не требует понимания индексируемого материала. Это приводит к более равномерной индексации, но за счет интерпретации истинного смысла. Компьютерная программа не понимает смысла утверждений и поэтому может не присвоить некоторые соответствующие термины или присвоить их неправильно. Индексаторы-люди сосредотачивают свое внимание на определенных частях документа, таких как заголовок, аннотация, резюме и выводы, поскольку глубокий анализ полного текста является дорогостоящим и требует много времени. проанализированы, но также можно перенаправить на определенные части документа.

Выбор срока

Второй этап индексации включает перевод предметного анализа в набор индексных терминов. Это может включать извлечение из документа или назначение из контролируемого словаря. Благодаря широко доступной возможности проводить полнотекстовый поиск многие люди стали полагаться на свой собственный опыт в проведении информационного поиска, и полнотекстовый поиск стал очень популярным. Предметное индексирование и его эксперты, профессиональные индексаторы, каталогизаторы и библиотекари по- прежнему имеют решающее значение для организации и поиска информации. Эти эксперты понимают контролируемые словари и могут найти информацию, которую невозможно найти с помощью полнотекстового поиска. Стоимость экспертного анализа для создания предметного указателя нелегко сравнить со стоимостью оборудования, программного обеспечения и рабочей силы для производства сопоставимого набора полнотекстовых материалов с полной возможностью поиска. Благодаря новым веб-приложениям, которые позволяют каждому пользователю комментировать документы, социальные теги приобрели популярность, особенно в Интернете.

Одно из приложений индексации, книжный указатель, остается относительно неизменным, несмотря на информационную революцию.

Извлечение / производное индексирование

Индексирование с извлечением подразумевает извлечение слов непосредственно из документа. Он использует естественный язык и хорошо подходит для автоматизированных методов, при которых вычисляется частота слов, а слова с частотой, превышающей заранее определенный порог, используются в качестве терминов индекса. Будет использован стоп-лист, содержащий общие слова (такие как «the», «и»), и такие стоп-слова будут исключены как термины индекса.

Индексирование с автоматическим извлечением может привести к потере смысла терминов из-за индексации отдельных слов, а не фраз. Хотя можно выделить часто встречающиеся фразы, это становится более трудным, если ключевые понятия непоследовательно сформулированы во фразах. Индексирование с автоматическим извлечением также имеет проблему, заключающуюся в том, что даже при использовании стоп-листа для удаления общих слов некоторые часто используемые слова могут оказаться бесполезными для разрешения различий между документами. Например, термин «глюкоза» может часто встречаться в любом документе, относящемся к диабету. Следовательно, использование этого термина, скорее всего, вернет большую часть или все документы в базе данных. Посткоординированное индексирование, при котором термины объединяются во время поиска, уменьшило бы этот эффект, но ответственность за связывание соответствующих терминов будет лежать на искателе, а не на специалисте в области информации. Кроме того, редко встречающиеся термины могут иметь большое значение, например, новое лекарство может упоминаться нечасто, но новизна объекта делает любую ссылку значительной. Одним из методов, позволяющих включать более редкие термины и исключать общие слова с помощью автоматизированных методов, может быть подход относительной частоты, когда частота слова в документе сравнивается с частотой в базе данных в целом. Следовательно, термин, который встречается в документе чаще, чем можно было бы ожидать на основе остальной части базы данных, затем можно было бы использовать в качестве индексного термина, а термины, которые встречаются одинаково часто повсюду, будут исключены.

Другая проблема с автоматическим извлечением заключается в том, что он не распознает, когда обсуждается концепция, но не идентифицируется в тексте индексируемым ключевым словом.

Поскольку этот процесс основан на простом сопоставлении строк и не требует интеллектуального анализа, полученный продукт более уместно называть согласованием, чем индексом.

Индексация присвоения

Альтернативой является индексация присвоений, при которой термины индекса берутся из контролируемого словаря. Это дает преимущество контроля синонимов, поскольку предпочтительный термин индексируется, а синонимы или связанные термины направляют пользователя к предпочтительному термину. Это означает, что пользователь может находить статьи независимо от конкретного термина, использованного автором, и избавляет пользователя от необходимости знать и проверять все возможные синонимы. Это также устраняет любую путаницу, вызванную омографами, путем включения квалифицирующего термина. Третье преимущество состоит в том, что он позволяет связывать родственные термины независимо от того, связаны ли они иерархией или ассоциацией, например, в индексной позиции для перорального лекарства можно перечислить другие пероральные лекарства как родственные термины на том же уровне иерархии, но также будет связываться с более широкими такие термины, как лечение. Индексирование назначения используется при ручном индексировании для улучшения согласованности между индексаторами, поскольку разные индексаторы будут иметь контролируемый набор терминов на выбор. Контролируемые словари не устраняют несоответствия полностью, поскольку два индексатора могут интерпретировать предмет по-разному.

Представление указателя

Заключительный этап индексации - представление записей в систематическом порядке. Это может включать связывание записей. В предварительно скоординированном индексе индексатор определяет порядок, в котором термины связаны в записи, учитывая, как пользователь может сформулировать свой поиск. В пост-скоординированном указателе записи представлены по отдельности, и пользователь может связать записи посредством поиска, чаще всего выполняемого с помощью компьютерного программного обеспечения. Посткоординация приводит к потере точности по сравнению с предварительной координацией

Глубина индексации

Индексаторы должны принимать решения о том, какие записи должны быть включены и сколько записей должен включать индекс. Глубина индексации описывает тщательность процесса индексации с точки зрения полноты и специфичности.

Исчерпание

Исчерпывающий указатель - это тот, в котором перечислены все возможные термины индекса. Большая полнота дает более высокий уровень отзыва или большую вероятность того, что все релевантные статьи будут извлечены, однако это происходит за счет точности. Это означает, что пользователь может получить большее количество нерелевантных документов или документов, которые имеют мало общего с предметом. В ручной системе более высокий уровень исчерпываемости влечет за собой более высокие затраты, поскольку требуется больше человеко-часов. Дополнительное время, затрачиваемое на автоматизированную систему, было бы гораздо менее значительным. На другом конце шкалы, в выборочном указателе охвачены только самые важные аспекты. В выборочном указателе количество напоминаний сокращается, так как если индексатор не включает достаточно терминов, очень релевантная статья может быть упущена из виду. Следовательно, индексаторы должны стремиться к сбалансированности и учитывать, какой документ можно использовать. Возможно, им также придется учитывать влияние времени и средств.

Специфичность

Специфика описывает, насколько близко термины индекса соответствуют темам, которые они представляют. Индекс считается специфичным, если индексатор использует параллельные дескрипторы к концепции документа и точно отражает концепции. Специфичность имеет тенденцию увеличиваться с увеличением полноты, поскольку чем больше терминов вы включаете, тем уже будут эти термины.

Теория индексации

Hjørland (2011) обнаружил, что теории индексации на самом глубоком уровне связаны с различными теориями познания:

  • Рационалистические теории индексации (такие как теория Ранганатана) предполагают, что предметы логически конструируются из фундаментального набора категорий. Тогда основным методом предметного анализа является «аналитико-синтетический», чтобы выделить набор основных категорий (= анализ), а затем сконструировать предмет любого данного документа путем объединения этих категорий в соответствии с некоторыми правилами (= синтез).
  • Эмпирические теории индексации основаны на выборе похожих документов на основе их свойств, в частности, путем применения методов численной статистики.
  • Историцистские и герменевтические теории индексации предполагают, что предмет данного документа относится к данному дискурсу или предметной области, поэтому индексация должна отражать потребность в конкретном дискурсе или предметной области. Согласно герменевтике - это документ, который всегда пишется и интерпретируется с определенного горизонта. То же самое и с системами организации знаний и со всеми пользователями, выполняющими поиск в таких системах. Любой вопрос, задаваемый такой системе, ставится с определенного горизонта. Все эти горизонты могут быть более или менее согласованными или противоречивыми. Индексировать документ - значит попытаться внести свой вклад в поиск «релевантных» документов, зная об этих различных горизонтах.
  • Прагматические и критические теории индексации (такие как Hjørland, 1997) согласуются с историцистской точкой зрения, согласно которой субъекты соотносятся с конкретными дискурсами, но подчеркивает, что предметный анализ должен поддерживать заданные цели и ценности и должен учитывать последствия индексации одним способом или Другая. Эти теории считают, что индексирование не может быть нейтральным и что пытаться индексировать нейтральным образом - неправильная цель. Индексирование - это действие (а индексирование на основе компьютера действует в соответствии с намерениями программистов). Действия служат человеческим целям. Библиотеки и информационные службы также служат человеческим целям, поэтому их индексация должна выполняться таким образом, чтобы максимально поддерживать эти цели. На первый взгляд это выглядит странно, потому что целью библиотек и информационных служб является идентификация любого документа или фрагмента информации. Тем не менее, любой конкретный способ индексации всегда поддерживает одни виды использования за счет других. Индексируемые документы предназначены для определенных целей в сообществе. По сути, индексация должна служить тем же целям. Первичные и вторичные документы и информационные услуги являются частями одной и той же общей социальной системы. В такой системе могут быть задействованы различные теории, эпистемологии, мировоззрения и т. Д., И пользователям необходимо иметь возможность ориентироваться и перемещаться между этими разными взглядами. Это требует отображения различных эпистемологий в данной области и классификации единого документа на такой карте. Прекрасные примеры таких разных парадигм и их последствий для систем индексации и классификации приведены в области искусства Оромом (2003) и в музыке Абрахамсеном (2003).

Суть индексации, как заявили Роули и Фэрроу, заключается в оценке вклада статьи в знания и соответствующей индексации. Или, говоря словами Hjørland (1992, 1997), чтобы проиндексировать его информативный потенциал.

«Чтобы добиться хорошей последовательной индексации, индексатор должен хорошо понимать структуру предмета и характер вклада, который документ вносит в развитие знаний». (Роули и Фэрроу, 2000, стр. 99).

Смотрите также

использованная литература

дальнейшее чтение

  • Фугман, Роберт (1993). Тематический анализ и индексация. Теоретические основы и практические советы. Франкфурт-на-Майне: Index Verlag.
  • Фроманн, Б. (1990). «Правила индексации: критика ментализма в теории поиска информации». Журнал документации. 46 (2): 81–101. DOI : 10,1108 / eb026855.
Последняя правка сделана 2023-03-27 08:40:13
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте