Google Ngram Viewer

редактировать
Интернет-поисковая система

Google Ngram Viewer или Google Книги Ngram Viewer - это поисковая система в Интернете, которая составляет график частотности любого набора поисковых строк с использованием годового подсчета н-граммов, найденных в источниках, напечатанных между 1500 и 2019 годами в текстовых корпусах Google на английском, китайском (упрощенном), французском, немецком, иврите, итальянском, русском или испанском языках. Есть также несколько специализированных корпусов английского языка, таких как американский английский, британский английский и английская художественная литература.

Программа может искать слово или фразу, включая орфографические ошибки или тарабарщину.. N-граммы сопоставляются с текстом в выбранном корпусе, опционально с использованием чувствительного к регистру орфографии (которое сравнивает точное использование прописных букв), и, если они найдены в 40 или более книгах, затем отображаются в виде графика.

Google Ngram Viewer поддерживает поиск частей речи и подстановочных знаков. Он обычно используется в исследованиях.

Содержание

  • 1 История
  • 2 Работа и ограничения
  • 3 Корпуса
  • 4 Критика
    • 4.1 Проблемы распознавания текста
  • 5 См. Также
  • 6 Ссылки
  • 7 Библиография
  • 8 Внешние ссылки

История

Программа была разработана Джоном Орвантом и Уиллом Брокманом и выпущена в середине декабря 2010 года. Она была вдохновлена ​​прототипом под названием «Книжный червь». Жан-Батист Мишель и Эрез Эйден из Культурной обсерватории Гарварда и Юань Шен из Массачусетского технологического института и Стивен Пинкер.

The Ngram Viewer изначально был основан в издании Google Книг Ngram Corpus 2009 года. По состоянию на июль 2020 года программа поддерживает корпуса 2009, 2012 и 2019 годов.

Работа и ограничения

Запятые разделяют вводимые пользователем условия поиска, указывая каждое отдельное слово или фразу, которую нужно найти. Ngram Viewer возвращает построенную линейную диаграмму в течение нескольких секунд после нажатия пользователем кнопки Enter или кнопки «Поиск» на экране.

В качестве поправки на большее количество книг, изданных в течение нескольких лет, данные нормализованы в качестве относительного уровня по количеству книг, издаваемых за каждый год.

Из-за ограничений на размер базы данных Ngram, только совпадения, найденные по крайней мере в 40 книгах, индексируются в базе данных; в противном случае база данных не смогла бы сохранить все возможные комбинации.

Обычно условия поиска не могут заканчиваться знаками препинания, хотя можно искать отдельную точку точку (точка). Кроме того, вопросительный знак в конце (например, «Почему?») Вызовет второй поиск вопросительного знака отдельно.

Пропуск точек в сокращениях позволит использовать форму сопоставления, например как использование "RMS" для поиска "RMS" против "RMS".

Корпуса

Корпуса, используемые для поиска, состоят из total_counts, 1 граммов, 2 граммов, 3 граммов, 4 граммов и 5 граммов. файлы для каждого языка. Формат файла каждого из файлов - данные, разделенные табуляцией. Каждая строка имеет следующий формат:

  • файл total_counts
    год TAB match_count TAB page_count TAB volume_count NEWLINE
  • Версия 1 ngram файл (сгенерирован в июле 2009 г.)
    ngram TAB год TAB match_count TAB page_count TAB volume_count NEWLINE
  • Файл ngram версии 2 (сгенерирован в июле 2012 г.)
    ngram TAB год TAB match_count TAB volume_count NEWLINE

Google Ngram Viewer использует match_count для построения графика.

В качестве примера, слово «Википедия» из файла версии 2 с английскими 1-граммами хранится следующим образом:

ngramгодmatch_countvolume_count
Wikipedia190411
Wikipedia1912111
Wikipedia192411
Wikipedia1925111
Википедия1929111
Википедия1943111
Википедия1946111
Википедия1947111
Википедия1949111
Википедия1951111
Википедия1953222
Википедия1955111
Википедия195811
Википедия1961222
Википедия1964222
Википедия1965111
Википедия1966152
Википедия1969333
Википедия19701294
Википедия1971444
Википедия1972222
Википедия197311
Википедия197421
Википедия1975333
Википедия1976111
Википедия1977133
Википедия1978111
Википедия197911212
Википедия1980134
Википедия1982111
Википедия198332
Википедия1984483
Википедия1985373
Википедия198664
Википедия1987132
Википедия1988143
Википедия1990122
Википедия199185
Википедия199211
Википедия199311
Википедия1994233
Википедия199541
Википедия1996233
Википедия199761
Википедия19983210
Википедия19993911
Википедия20004312
Википедия20015914
Википедия200210519
Википедия200314953
Википедия2004803285
Википедия20052964911
Википедия200698182655
Википедия2007200175400
Wikipedia2008337226825

График, построенный программой просмотра Google Ngram с использованием приведенных выше данных, здесь:

Критика

Набор данных подвергся критике за то, что он полагался на inacc urate OCR, переизбыток научной литературы и включение большого количества неправильно датированных и категоризированных текстов. Из-за этих ошибок и из-за неконтролируемой предвзятости (например, растущее количество научной литературы, что вызывает снижение популярности других терминов), использовать этот корпус для изучения языка или проверки теорий рискованно. Поскольку набор данных не включает метаданные, он может не отражать общие языковые или культурные изменения и может только намекать на такой эффект.

Были предложены рекомендации по исследованию данных из Google Ngram, которые решают многие из проблем, описанных выше.

Проблемы с оптическим распознаванием символов

Оптическое распознавание символов, или OCR, не всегда надежен, и некоторые символы могут не сканироваться правильно. В частности, системные ошибки, такие как путаница «s» и «f» в текстах до XIX века (из-за использования длинного s, который по внешнему виду был похож на «f»), могут вызывать системные предвзятость. Хотя Google Ngram Viewer утверждает, что результаты являются надежными начиная с 1800 года, плохое распознавание текста и недостаточность данных означают, что частоты, указанные для таких языков, как китайский, могут быть точными только с 1970 года, при этом более ранние части корпуса не показывают результатов для общих терминов., и данные за несколько лет, содержащие более 50% шума.

См. также

Ссылки

Библиография

Внешние ссылки

Последняя правка сделана 2021-05-22 14:02:58
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте