Google Ngram Viewer или Google Книги Ngram Viewer - это поисковая система в Интернете, которая составляет график частотности любого набора поисковых строк с использованием годового подсчета н-граммов, найденных в источниках, напечатанных между 1500 и 2019 годами в текстовых корпусах Google на английском, китайском (упрощенном), французском, немецком, иврите, итальянском, русском или испанском языках. Есть также несколько специализированных корпусов английского языка, таких как американский английский, британский английский и английская художественная литература.
Программа может искать слово или фразу, включая орфографические ошибки или тарабарщину.. N-граммы сопоставляются с текстом в выбранном корпусе, опционально с использованием чувствительного к регистру орфографии (которое сравнивает точное использование прописных букв), и, если они найдены в 40 или более книгах, затем отображаются в виде графика.
Google Ngram Viewer поддерживает поиск частей речи и подстановочных знаков. Он обычно используется в исследованиях.
Программа была разработана Джоном Орвантом и Уиллом Брокманом и выпущена в середине декабря 2010 года. Она была вдохновлена прототипом под названием «Книжный червь». Жан-Батист Мишель и Эрез Эйден из Культурной обсерватории Гарварда и Юань Шен из Массачусетского технологического института и Стивен Пинкер.
The Ngram Viewer изначально был основан в издании Google Книг Ngram Corpus 2009 года. По состоянию на июль 2020 года программа поддерживает корпуса 2009, 2012 и 2019 годов.
Запятые разделяют вводимые пользователем условия поиска, указывая каждое отдельное слово или фразу, которую нужно найти. Ngram Viewer возвращает построенную линейную диаграмму в течение нескольких секунд после нажатия пользователем кнопки Enter или кнопки «Поиск» на экране.
В качестве поправки на большее количество книг, изданных в течение нескольких лет, данные нормализованы в качестве относительного уровня по количеству книг, издаваемых за каждый год.
Из-за ограничений на размер базы данных Ngram, только совпадения, найденные по крайней мере в 40 книгах, индексируются в базе данных; в противном случае база данных не смогла бы сохранить все возможные комбинации.
Обычно условия поиска не могут заканчиваться знаками препинания, хотя можно искать отдельную точку точку (точка). Кроме того, вопросительный знак в конце (например, «Почему?») Вызовет второй поиск вопросительного знака отдельно.
Пропуск точек в сокращениях позволит использовать форму сопоставления, например как использование "RMS" для поиска "RMS" против "RMS".
Корпуса, используемые для поиска, состоят из total_counts, 1 граммов, 2 граммов, 3 граммов, 4 граммов и 5 граммов. файлы для каждого языка. Формат файла каждого из файлов - данные, разделенные табуляцией. Каждая строка имеет следующий формат:
Google Ngram Viewer использует match_count для построения графика.
В качестве примера, слово «Википедия» из файла версии 2 с английскими 1-граммами хранится следующим образом:
ngram | год | match_count | volume_count |
---|---|---|---|
Wikipedia | 1904 | 1 | 1 |
Wikipedia | 1912 | 11 | 1 |
Wikipedia | 1924 | 1 | 1 |
Wikipedia | 1925 | 11 | 1 |
Википедия | 1929 | 11 | 1 |
Википедия | 1943 | 11 | 1 |
Википедия | 1946 | 11 | 1 |
Википедия | 1947 | 11 | 1 |
Википедия | 1949 | 11 | 1 |
Википедия | 1951 | 11 | 1 |
Википедия | 1953 | 22 | 2 |
Википедия | 1955 | 11 | 1 |
Википедия | 1958 | 1 | 1 |
Википедия | 1961 | 22 | 2 |
Википедия | 1964 | 22 | 2 |
Википедия | 1965 | 11 | 1 |
Википедия | 1966 | 15 | 2 |
Википедия | 1969 | 33 | 3 |
Википедия | 1970 | 129 | 4 |
Википедия | 1971 | 44 | 4 |
Википедия | 1972 | 22 | 2 |
Википедия | 1973 | 1 | 1 |
Википедия | 1974 | 2 | 1 |
Википедия | 1975 | 33 | 3 |
Википедия | 1976 | 11 | 1 |
Википедия | 1977 | 13 | 3 |
Википедия | 1978 | 11 | 1 |
Википедия | 1979 | 112 | 12 |
Википедия | 1980 | 13 | 4 |
Википедия | 1982 | 11 | 1 |
Википедия | 1983 | 3 | 2 |
Википедия | 1984 | 48 | 3 |
Википедия | 1985 | 37 | 3 |
Википедия | 1986 | 6 | 4 |
Википедия | 1987 | 13 | 2 |
Википедия | 1988 | 14 | 3 |
Википедия | 1990 | 12 | 2 |
Википедия | 1991 | 8 | 5 |
Википедия | 1992 | 1 | 1 |
Википедия | 1993 | 1 | 1 |
Википедия | 1994 | 23 | 3 |
Википедия | 1995 | 4 | 1 |
Википедия | 1996 | 23 | 3 |
Википедия | 1997 | 6 | 1 |
Википедия | 1998 | 32 | 10 |
Википедия | 1999 | 39 | 11 |
Википедия | 2000 | 43 | 12 |
Википедия | 2001 | 59 | 14 |
Википедия | 2002 | 105 | 19 |
Википедия | 2003 | 149 | 53 |
Википедия | 2004 | 803 | 285 |
Википедия | 2005 | 2964 | 911 |
Википедия | 2006 | 9818 | 2655 |
Википедия | 2007 | 20017 | 5400 |
Wikipedia | 2008 | 33722 | 6825 |
График, построенный программой просмотра Google Ngram с использованием приведенных выше данных, здесь:
Набор данных подвергся критике за то, что он полагался на inacc urate OCR, переизбыток научной литературы и включение большого количества неправильно датированных и категоризированных текстов. Из-за этих ошибок и из-за неконтролируемой предвзятости (например, растущее количество научной литературы, что вызывает снижение популярности других терминов), использовать этот корпус для изучения языка или проверки теорий рискованно. Поскольку набор данных не включает метаданные, он может не отражать общие языковые или культурные изменения и может только намекать на такой эффект.
Были предложены рекомендации по исследованию данных из Google Ngram, которые решают многие из проблем, описанных выше.
Оптическое распознавание символов, или OCR, не всегда надежен, и некоторые символы могут не сканироваться правильно. В частности, системные ошибки, такие как путаница «s» и «f» в текстах до XIX века (из-за использования длинного s, который по внешнему виду был похож на «f»), могут вызывать системные предвзятость. Хотя Google Ngram Viewer утверждает, что результаты являются надежными начиная с 1800 года, плохое распознавание текста и недостаточность данных означают, что частоты, указанные для таких языков, как китайский, могут быть точными только с 1970 года, при этом более ранние части корпуса не показывают результатов для общих терминов., и данные за несколько лет, содержащие более 50% шума.
Технический документ, представляющий издание Google Книги Ngram Corpus 2012 года