CiteSeer

редактировать
Система поиска и цифровая библиотека научных и академических статей
CiteSeer
Тип сайтаБиблиографическая база данных
ВладелецГосударственный университет Пенсильвании Колледж информационных наук и технологий
URLciteseerx.ist.psu.edu Измените это на Wikidata
РегистрацияНеобязательно
Запущен2008 г.; 12 лет назад (2008) / 1997; 23 года назад (1997 г.)
Текущий статусАктивный
Лицензия на контентЛицензия Creative Commons BY-NC-SA

CiteSeer (первоначально назывался CiteSeer ) - это общедоступная поисковая машина и цифровая библиотека для научных и академических статей, в основном в областях компьютер и информатика. CiteSeer считается предшественником таких инструментов академического поиска, как Google Scholar и Microsoft Academic Search. Механизмы и архивы, подобные CiteSeer, обычно собирают документы только с общедоступных веб-сайтов и не сканируют веб-сайты издателей. По этой причине авторы, чьи документы находятся в свободном доступе, с большей вероятностью будут представлены в указателе.

Целью CiteSeer является улучшение распространения и доступа к академической и научной литературе. Как некоммерческая услуга, которой может свободно пользоваться кто угодно, она рассматривается как часть движения за открытый доступ, которое пытается изменить академические и научные публикации, чтобы обеспечить более широкий доступ к научной литературе. CiteSeer бесплатно предоставляет Open Archives Initiative метаданные всех проиндексированных документов и связывает проиндексированные документы, когда это возможно, с другими источниками метаданных, такими как DBLP и ACM Portal. Чтобы продвигать открытые данные, CiteSeer делится своими данными в некоммерческих целях по лицензии Creative Commons.

CiteSeer однажды изменил свое название на ResearchIndex, а затем изменил назад.

Содержание

  • 1 История
    • 1.1 CiteSeer и CiteSeer.IST
    • 1.2 CiteSeer
  • 2 Текущие функции
    • 2.1 Автоматическое извлечение информации
    • 2.2 Целенаправленное сканирование
    • 2.3 Использование
    • 2.4 Данные
  • 3 Другие поисковые системы на основе SeerSuite
  • 4 См. Также
  • 5 Ссылки
  • 6 Дополнительная литература
  • 7 Внешние ссылки

История

CiteSeer и CiteSeer.IST

CiteSeer был создан исследователями Ли Джайлз, Куртом Боллакером и Стивом Лоуренсом в 1997 году, когда они были в Исследовательский институт NEC (ныне NEC Labs ), Принстон, Нью-Джерси, США. Целью CiteSeer было активное сканирование и сбор академических и научных документов в Интернете и использование автономной индексации цитирования, чтобы разрешить запросы по цитированию или по документу, ранжируя их по влиянию цитирования. Когда-то это называлось ResearchIndex.

CiteSeer стал общедоступным в 1998 году и имел много новых функций, недоступных в то время в академических поисковых системах. К ним относятся:

  • Автономное индексирование цитирования автоматически создает индекс цитирования, который можно использовать для поиска и оценки литературы.
  • Статистика цитирования и связанные документы были вычислены для всех статей, цитируемых в базе данных, а не только для проиндексированных статей.
  • Ссылки на ссылки, позволяющие просматривать базу данных с помощью ссылок для цитирования.
  • Контекст цитирования показывает контекст цитирования данной статьи, позволяя исследователю быстро и легко увидеть, что говорят другие исследователи. об интересующей статье.
  • Связанные документы были показаны с использованием показателей цитирования и слов, и для каждого документа показана активная и постоянно обновляемая библиография.

CiteSeer был выдан патент США # 6289342, озаглавленный «Автономное индексирование цитирования и просмотр литературы с использованием контекста цитирования», 11 сентября 2001 г. Патент был подан 20 мая 1998 г. и имеет приоритет до 5 января 1998 г. Дополнительный патент (Патент США № 6738780)) была подана 16 мая 2001 г. и предоставлена ​​18 мая 2004 г.

После NEC в 2004 г. он размещался как CiteSeer.IST в World Wide Web в Колледже информационных наук and Technology, Государственный университет Пенсильвании, и имел более 700 000 документов. Для расширенного доступа, производительности и исследований аналогичные версии CiteSeer поддерживались в таких университетах, как Массачусетский технологический институт, Цюрихский университет и Национальный университет Сингапура <159.>. Однако эти версии CiteSeer оказалось сложно поддерживать, и они больше не доступны. Поскольку CiteSeer индексирует только статьи, находящиеся в свободном доступе в Интернете, и не имеет доступа к метаданным издателя, он возвращает меньшее количество цитирований, чем сайты, такие как Google Scholar, которые имеют метаданные издателя.

CiteSeer не обновлялся полностью с 2005 года из-за ограничений в его архитектуре. Он имел репрезентативную выборку исследовательских документов в области информатики и информатики, но был ограничен по охвату, потому что он был ограничен статьями, которые общедоступны, обычно на домашней странице автора, или теми, которые были представлены автором. Чтобы преодолеть некоторые из этих ограничений, для CiteSeer была разработана модульная архитектура с открытым исходным кодом - CiteSeer.

CiteSeer

CiteSeer заменил CiteSeer, и все запросы к CiteSeer были перенаправлены. CiteSeer - это общедоступная поисковая система и цифровая библиотека и репозиторий для научных и академических статей, в первую очередь с акцентом на компьютер и информатика. Однако в последнее время CiteSeer расширяется в другие области науки, такие как экономика, физика и другие. Выпущенный в 2008 году, он был основан на предыдущей поисковой системе и цифровой библиотеке CiteSeer и построен на новой инфраструктуре с открытым исходным кодом, SeerSuite и новых алгоритмах и их реализациях. Он был разработан исследователями доктором Исааком Кунсиллом и доктором К. Ли Джайлсом из Колледжа информационных наук и технологий, Государственный университет Пенсильвании. Он продолжает поддерживать цели, обозначенные CiteSeer, по активному сканированию и сбору академических и научных документов в общедоступных веб-сайтах, а также использованию запроса цитирования путем цитирования и ранжирования документов по влиянию цитирования. В настоящее время Ли Джайлс, Прасенджит Митра, Сьюзан Гауч, Мин-Йен Кан, Прадип Тереговда, Хуан Пабло Фернандес Рамирес, Пактада Триратпитук, Цзян Ву, Дуглас Джордан, Стив Карман, Джек Кэрролл, Джим Янсен и Шуйи Чжэн активно участвовали или были участвует в его разработке. Недавно появилась возможность поиска по таблице. Он финансируется Национальным научным фондом, НАСА и Microsoft Research.

CiteSeer продолжает оставаться одним из лучших репозиториев в мире и занимает первое место в рейтинге. в июле 2010 года. В настоящее время он насчитывает более 6 миллионов документов с почти 6 миллионами уникальных авторов и 120 миллионами ссылок.

CiteSeer также делится своим программным обеспечением, данными, базами данных и метаданными с другими исследователями, в настоящее время это Amazon S3 и rsync. Его новая модульная архитектура с открытым исходным кодом и программное обеспечение (ранее доступные на SourceForge, но теперь на GitHub ) построены на Apache Solr и других Apache и инструменты с открытым исходным кодом, которые позволяют тестировать новые алгоритмы сбора, ранжирования, индексации и извлечения информации.

CiteSeer кэширует некоторые отсканированные PDF-файлы. Таким образом, каждая страница включает ссылку DMCA, которую можно использовать для сообщения о нарушениях авторских прав.

Текущие функции

Автоматическое извлечение информации

CiteSeer использует автоматизированные извлечение информации инструменты, обычно построенные на методах машинного обучения, таких как ParsCit, для извлечения метаданных научных документов, таких как название, авторы, аннотация, цитаты и т. Д. Таким образом, иногда возникают ошибки в авторах и названиях. Другие академические поисковые системы имеют похожие ошибки.

Целенаправленное сканирование

CiteSeer сканирует общедоступные научные документы в основном с веб-страниц авторов и других открытых ресурсов и не имеет доступа к метаданным издателя. Таким образом, количество цитирований в CiteSeer обычно меньше, чем в Google Scholar и Microsoft Academic Search, у которых есть доступ к метаданным издателя.

Использование

У CiteSeer почти 1 миллион пользователей по всему миру с уникальными IP-адресами и миллионы посещений ежедневно. Ежегодное скачивание PDF-файлов с документами составило почти 200 миллионов в 2015 году.

Данные

Данные CiteSeer регулярно передаются по лицензии Creative Commons BY-NC-SA исследователям во всем мире и использовался и используется во многих экспериментах и ​​соревнованиях.

Благодаря своей конечной точке OAI-PMH, CiteSeerX представляет собой открытый архив, и его содержимое индексируется как институциональный репозиторий в академические поисковые системы, например, BASE и Unpaywall потребители.

Другие поисковые системы на основе SeerSuite

Модель CiteSeer была расширена для охвата академических документов в бизнесе с помощью SmealSearch, а в электронном бизнесе - с помощью. Однако их спонсоры не поддерживали их. Когда-то можно было найти старую версию обоих из них, но она больше не используется.

Другие подобные Seer системы поиска и хранилища были созданы для химии, Chem X Seer и для археологии, ArchSeer. Другой был создан для поиска файла robots.txt, BotSeer. Все они построены на инструменте с открытым исходным кодом, который использует индексатор с открытым исходным кодом Lucene.

См. Также

Ссылки

Дополнительная литература

  • Giles, C. Lee; Bollacker, Kurt D.; Лоуренс, Стив (1998). «CiteSeer: автоматическая система индексации цитирования». Труды Третьей конференции ACM по электронным библиотекам. С. 89–98. CiteSeerX 10.1.1.30.6847. doi : 10.1145 / 276675.276685. ISBN 978-0-89791-965-4. S2CID 514080.

Внешние ссылки

Викиданные имеют свойство:
Последняя правка сделана 2021-05-15 08:40:10
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте