Обычное сканирование

редактировать
Common Crawl
Тип бизнеса 501 (c) (3) некоммерческий
Доступен наанглийском языке
Головной офисСан-Франциско, Калифорния ; Лос-Анджелес, Калифорния, США
Основатель (и) Гил Эльбаз
Ключевые людиПитер Норвиг, Нова Спивак, Карл Маламуд, Курт Боллакер Джой Ито
URLcommoncrawl.org

Common Crawl является некоммерческой организацией 501 (c) (3) организация, которая сканирует Интернет и бесплатно предоставляет свои архивы и наборы данных общественности. веб-архив Common Crawl состоит из петабайт данных, собранных с 2011 года. Обычно он выполняет сканирование каждый месяц.

Common Crawl был основан Гилом Эльбазом. Советники некоммерческой организации: Питер Норвиг и Джой Ито. Сканеры организации соблюдают политики nofollow и robots.txt. Открытый исходный код для обработки набора данных Common Crawl общедоступен.

Содержание

  • 1 История
  • 2 История общих данных сканирования
  • 3 Награда Norvig Web Data Science Award
  • 4 Ссылки
  • 5 Внешние ссылки

История

Amazon Web Services начал размещать архив Common Crawl в рамках своей программы Public Data Sets в 2012 году.

Организация начала выпускать файлы метаданных и текстовый вывод поисковых роботов вместе с файлами .arc в июле того же года. Ранее в архивы Common Crawl входили только файлы.arc.

В декабре 2012 года blekko передал поисковой системе Common Crawl метаданные blekko, собранные при сканировании, проведенном с февраля по октябрь 2012. подаренные данные помогли Common Crawl «улучшить его ползать, избегая спама, порно и влияние чрезмерного SEO."

В 2013 году Common Crawl начали использовать Apache Software Foundation, Nutch веб-сканер вместо пользовательского поискового робота. Обычное сканирование переключилось с использования файлов.arc на файлы .warc в ходе сканирования в ноябре 2013 года.

Обычное сканирование использовалось для обучения OpenAI Языковая модель GPT-3, анонсированная в 2020 году.

История данных общего сканирования

Следующие данные были собраны из официального блога общего сканирования

Дата сканированияРазмер в ТиБМиллиарды страницКомментарии
ноябрь 2018 г.2202,6
октябрь 2018 г.2403,0
сентябрь 2018 г.2202,8
Август 2018 г.
июль 2018 г.2553,25
июнь 2018 г.2353,05
май 2018 г.2152,75
апрель 2018 г.2303,1
март 2018 г.2503,2
Февраль 2018 г.2703,4
Январь 2018 г.2703,4
Декабрь 2017 г.2402,9
ноябрь 2017 г.2603,2
октябрь 2017 г.3003,65
сентябрь 2017 г.2503,01
август 2017 г.2803,28
июль 2017 г.2402,89
июнь 2017 г.2603,16
май 2017 г.2502,96
апрель 2017 г.2502,94
март 2017 г.2503,07
февраль 2017 г.2503,08
январь 2017 г.2503,14
декабрь 2016 г.-2,85
октябрь 2016 г.-3,25
сентябрь 2016 г.-1,72
август 2016 г.-1,61
июль 2016-1,73
июнь 2016-1,23
май 2016-1,46
апрель 2016-1,33
февраль 2016-1,73
ноябрь 20151 511,82
сентябрь 2015 г.1061,32
август 2015 г.1491,84
июль 20151451.81
июнь 20151311.67
май 20151592,05
апрель 2015 г.1682,11
март 2015 г.1241,64
февраль 2015 г.1451,9
январь 2015 г.1391,82
декабрь 2014 г.1602,08
Ноябрь 2014 г.1351,95
октябрь 2014 г.2543,7
сентябрь 2014 г.2202,8
август 2014 г.2002,8
июль 2014 г.2663,6
апрель 2014 г.1832,6
март 2014 г.2232,8Первое сканирование Nutch
январь 2014 г.1482.3Сканирование выполняется ежемесячно
ноябрь 2013 г.1022Данные в формате файла Warc
июль 2012 г.--Данные в файле Arc формат
Январь 2012 г.--Набор общедоступных данных Amazon Web Services
Ноябрь 2011 г.405Первая доступность на Amazon

Norvig Web Премия Data Science Award

В подтверждение этого Common Crawl спонсирует Norvig Web Data Science Award, конкурс, открытый для студентов и исследователей из Бенилюкса. Награда названа в честь Питера Норвига, который также возглавляет судейский комитет присуждения награды.

Ссылки

Внешние ссылки

Последняя правка сделана 2021-05-15 07:08:22
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте