Тип бизнеса | 501 (c) (3) некоммерческий |
---|---|
Доступен на | английском языке |
Головной офис | Сан-Франциско, Калифорния ; Лос-Анджелес, Калифорния, США |
Основатель (и) | Гил Эльбаз |
Ключевые люди | Питер Норвиг, Нова Спивак, Карл Маламуд, Курт Боллакер Джой Ито |
URL | commoncrawl.org |
Common Crawl является некоммерческой организацией 501 (c) (3) организация, которая сканирует Интернет и бесплатно предоставляет свои архивы и наборы данных общественности. веб-архив Common Crawl состоит из петабайт данных, собранных с 2011 года. Обычно он выполняет сканирование каждый месяц.
Common Crawl был основан Гилом Эльбазом. Советники некоммерческой организации: Питер Норвиг и Джой Ито. Сканеры организации соблюдают политики nofollow и robots.txt. Открытый исходный код для обработки набора данных Common Crawl общедоступен.
Amazon Web Services начал размещать архив Common Crawl в рамках своей программы Public Data Sets в 2012 году.
Организация начала выпускать файлы метаданных и текстовый вывод поисковых роботов вместе с файлами .arc в июле того же года. Ранее в архивы Common Crawl входили только файлы.arc.
В декабре 2012 года blekko передал поисковой системе Common Crawl метаданные blekko, собранные при сканировании, проведенном с февраля по октябрь 2012. подаренные данные помогли Common Crawl «улучшить его ползать, избегая спама, порно и влияние чрезмерного SEO."
В 2013 году Common Crawl начали использовать Apache Software Foundation, Nutch веб-сканер вместо пользовательского поискового робота. Обычное сканирование переключилось с использования файлов.arc на файлы .warc в ходе сканирования в ноябре 2013 года.
Обычное сканирование использовалось для обучения OpenAI Языковая модель GPT-3, анонсированная в 2020 году.
Следующие данные были собраны из официального блога общего сканирования
Дата сканирования | Размер в ТиБ | Миллиарды страниц | Комментарии |
---|---|---|---|
ноябрь 2018 г. | 220 | 2,6 | |
октябрь 2018 г. | 240 | 3,0 | |
сентябрь 2018 г. | 220 | 2,8 | |
Август 2018 г. | |||
июль 2018 г. | 255 | 3,25 | |
июнь 2018 г. | 235 | 3,05 | |
май 2018 г. | 215 | 2,75 | |
апрель 2018 г. | 230 | 3,1 | |
март 2018 г. | 250 | 3,2 | |
Февраль 2018 г. | 270 | 3,4 | |
Январь 2018 г. | 270 | 3,4 | |
Декабрь 2017 г. | 240 | 2,9 | |
ноябрь 2017 г. | 260 | 3,2 | |
октябрь 2017 г. | 300 | 3,65 | |
сентябрь 2017 г. | 250 | 3,01 | |
август 2017 г. | 280 | 3,28 | |
июль 2017 г. | 240 | 2,89 | |
июнь 2017 г. | 260 | 3,16 | |
май 2017 г. | 250 | 2,96 | |
апрель 2017 г. | 250 | 2,94 | |
март 2017 г. | 250 | 3,07 | |
февраль 2017 г. | 250 | 3,08 | |
январь 2017 г. | 250 | 3,14 | |
декабрь 2016 г. | - | 2,85 | |
октябрь 2016 г. | - | 3,25 | |
сентябрь 2016 г. | - | 1,72 | |
август 2016 г. | - | 1,61 | |
июль 2016 | - | 1,73 | |
июнь 2016 | - | 1,23 | |
май 2016 | - | 1,46 | |
апрель 2016 | - | 1,33 | |
февраль 2016 | - | 1,73 | |
ноябрь 2015 | 1 51 | 1,82 | |
сентябрь 2015 г. | 106 | 1,32 | |
август 2015 г. | 149 | 1,84 | |
июль 2015 | 145 | 1.81 | |
июнь 2015 | 131 | 1.67 | |
май 2015 | 159 | 2,05 | |
апрель 2015 г. | 168 | 2,11 | |
март 2015 г. | 124 | 1,64 | |
февраль 2015 г. | 145 | 1,9 | |
январь 2015 г. | 139 | 1,82 | |
декабрь 2014 г. | 160 | 2,08 | |
Ноябрь 2014 г. | 135 | 1,95 | |
октябрь 2014 г. | 254 | 3,7 | |
сентябрь 2014 г. | 220 | 2,8 | |
август 2014 г. | 200 | 2,8 | |
июль 2014 г. | 266 | 3,6 | |
апрель 2014 г. | 183 | 2,6 | |
март 2014 г. | 223 | 2,8 | Первое сканирование Nutch |
январь 2014 г. | 148 | 2.3 | Сканирование выполняется ежемесячно |
ноябрь 2013 г. | 102 | 2 | Данные в формате файла Warc |
июль 2012 г. | - | - | Данные в файле Arc формат |
Январь 2012 г. | - | - | Набор общедоступных данных Amazon Web Services |
Ноябрь 2011 г. | 40 | 5 | Первая доступность на Amazon |
В подтверждение этого Common Crawl спонсирует Norvig Web Data Science Award, конкурс, открытый для студентов и исследователей из Бенилюкса. Награда названа в честь Питера Норвига, который также возглавляет судейский комитет присуждения награды.