Получение межъязыковой информации

редактировать

Поиск межъязыковой информации (CLIR ) является су b поле поиска информации, имеющее дело с получением информации, написанной на языке, отличном от языка запроса пользователя. Термин «поиск информации на нескольких языках» имеет много синонимов, из которых, возможно, наиболее часто встречаются следующие: поиск информации на нескольких языках, поиск информации на разных языках, поиск информации на нескольких языках. Термин «поиск многоязычной информации » в более общем смысле относится как к технологии поиска многоязычных коллекций, так и к технологии, которая была перемещена для обработки материалов с одного языка на другой. Термин «многоязычный поиск информации» (MLIR) включает изучение систем, которые принимают запросы на информацию на разных языках и возвращают объекты (текст и другие носители) на разных языках, переведенные на язык пользователя. Кросс-языковой поиск информации относится, в частности, к варианту использования, когда пользователи формулируют свои потребности в информации на одном языке, а система извлекает соответствующие документы на другом. Для этого в большинстве систем CLIR используются различные методы перевода. Методы CLIR можно разделить на разные категории на основе различных ресурсов перевода:

  • Методы CLIR на основе словарей
  • Методы CLIR на основе параллельных корпусов
  • Методы CLIR на основе сопоставимых корпусов
  • Методы CLIR на основе машинного переводчика

Системы CLIR настолько улучшились, что самые точные многоязычные и межъязыковые системы сегодня почти так же эффективны, как и одноязычные системы. Другие связанные задачи доступа к информации, такие как мониторинг медиа, фильтрация информации и маршрутизация, анализ тональности и извлечение информации, требуют более сложных моделей. и, как правило, больше обработки и анализа интересующих информационных элементов. Большая часть этой обработки должна учитывать специфику целевых языков, на которых она развернута.

В основном различные механизмы вариации человеческого языка создают проблемы покрытия для информационно-поисковых систем: тексты в коллекции могут относиться к интересующей теме, но использовать термины или выражения, которые не соответствуют выражению потребности в информации, предоставленной пользователем. Это может быть верно даже для одноязычного случая, но это особенно верно для межъязыкового поиска информации, когда пользователи могут знать целевой язык лишь в некоторой степени. Было обнаружено, что преимущества технологии CLIR для пользователей с низким или средним уровнем владения целевым языком больше, чем для тех, кто свободно владеет. Специальные технологии, применяемые для служб CLIR, включают морфологический анализ для обработки перегиба, декомпаундирование или составное разделение для обработки составных терминов, а также механизмы перевода для перевода запроса из одного язык на другой.

Первый семинар по CLIR прошел в Цюрихе во время конференции SIGIR-96. Семинары проводятся ежегодно с 2000 года на заседаниях Форума межъязыковой оценки (CLEF). Исследователи также собираются на ежегодную Конференцию по поиску текста (TREC), чтобы обсудить свои выводы, касающиеся различных систем и методов поиска информации, и конференция стала отправной точкой для подполя CLIR.

Google В Search была функция межъязыкового поиска, которая была удалена в 2013 году.

См. Также
  • EXCLAIM (Extensible Cross-Linguistic Automatic Information Machine)
  • CLEF (Conference и Labs of the Evaluation Forum, ранее известный как Cross-Language Evaluation Forum)
  • MLIR (поиск многоязычной информации)
Ссылки
  1. ^Ван, Цзяньцян и Дуглас В. Орд. «Соответствие значения для поиска информации на разных языках». Обработка информации и управление 48.4 (2012): 631-53.
  2. ^"Универсальные системы ответов на вопросы: видение в синтезе ", Mittal et al., IJIIDS, 5 (2), 119-142, 2011.
  3. ^Thai, Perishan." Введение в поиск межъязыковой информации Подходы ". Web. Web.simmons.edu
  4. ^Oard, Douglas." Multilingual Information Access. "Understanding Information Retrieval Systems (2011): 373-80. Web.
  5. ^Airio, Eija (2008). «Кому выгоден CLIR при поиске в сети?». Журнал документации. 64 (5): 760–778. doi : 10.1108 / 00220410810899754.
  6. ^Материалы этого семинара можно найти в книге Cross-Language Information Retrieval (Grefenstette, ed; Kluwer, 1998) ISBN 0-7923-8122-X.
  7. ^Olvera- Лобо, Мария-Долорес. "Межъязыковой поиск информации в сети". Справочник по исследованиям социальных аспектов семантических технологий и веб-сервисов (nd): 704-19. Интернет.
  8. ^"Google Drops" переведенные иностранные страницы " Вариант поиска из-за отсутствия использования ». 20 мая 2013 г.
Внешние ссылки

.

Последняя правка сделана 2021-05-16 09:39:44
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте