Центры обработки данных Google

редактировать

Бывший центр обработки данных Google в Эмсхафен, Нидерланды

Центры обработки данных Google - большие центр обработки данных объекты Google использует для предоставления своих услуг, которые объединяют большие диски, компьютерные узлы, организованные в проходах стоек, внутренние и внешние сети, средства контроля окружающей среды (в основном охлаждение и осушение) и операционное программное обеспечение (особенно в отношении балансировки нагрузки и отказоустойчивости ).

Нет официальных данных о том, сколько серверов находится в центрах обработки данных Google, но Gartner оценил в отчете за июль 2016 года, что в то время у Google было 2,5 миллиона серверов.. Это число меняется по мере того, как компания увеличивает емкость и обновляет свое оборудование.

Содержание

1 Местоположение
2 Аппаратное обеспечение
- 2.1 Оригинальное оборудование
- 2.2 Производственное оборудование
- 2.3 Топология сети
- 2.4 Проект 02
- 2.5 Summa papermill
- 2.6 Модульные контейнерные ЦОД
- 2.7 Плавающие ЦОД
3 Программное обеспечение
- 3.1 Практика разработки ПО
4 Поисковая инфраструктура
- 4.1 Индекс
- 4.2 Типы серверов
5 Безопасность
6 Воздействие на окружающую среду
7 Ссылки
8 Дополнительная литература
9 Внешние ссылки

Расположение

Дата-центр Google в Даллес, штат Орегон

По континентам расположены следующие центры обработки данных Google:

Северная Америка:

округ Беркли, Южная Каролина, (33 ° 03′50,8 ″ с.ш., 80 ° 02′36,1 ″ з.д. / 33.064111 ° N 80.043361 ° W / 33.064111; -80.043361 ) - с 2007 года, увеличилось в 2013 году, 150 сотрудников
Каунсил-Блафс, Айова (41 ° 13′17.7 ″ N 95 ° 51'49,92 ″ Вт / 41,221583 ° N, 95,8638667 ° Вт / 41,221583; -95,8638667 ) - объявлено в 2007 г., первая фаза завершена в 2009 г., расширена в 2013 и 2014 гг., 130 сотрудников
округ Дуглас, Джорджия (33 ° 44′59,04 ″ с.ш., 84 ° 35′5,33 ″ з.д. / 33,7497333 ° N 84,5848139 ° Вт / 33,7497333; -84,5848139 ) - с 2003 г. 350 сотрудников
Бриджпорт, округ Джексон, Алабама (34 ° 54′48,4 ″ с.ш., 85 ° 44′53,1 ″ з.д. 34,913444 ° N 85,748083 ° W / 34,913444; -85,748083 )
Ленуар, Северная Каролина (35 ° 53'54,78 ″ N 81 ° 32'50,58 ″ W / 35,8985500 ° N 81,5473833 ° W / 35.8985500; -81.5473833 ) - объявлено в 2007 г., завершено в 2009 г., более 110 сотрудников
округ Монтгомери, Теннесси (36 ° 37′37,7 ″ с.ш., 87 ° 15′27,7 ″ з.д. 36.627139 ° N 87.257694 ° W / 36.627139; -87.257694 ) - объявлено в 2015 г.
округ Мэйс, Оклахома в Индустриальном парке МидАмерика (36 ° 14′28,1 ″ N 95 ° 19′48,22 ″ W / 36,241139 ° N 95,3300611 ° W / 36,241139; -95.3300611 ) - объявлено в 2007 г., расширено в 2012 г., более 400 сотрудников
Даллес, Орегон (45 ° 37′57,04 ″ с.ш. 121 ° 12′8,16 ″ з.д. / 45,6325111 ° с.ш. 121.2022667 ° з.д. / 45,6325111; -121.2022667 ) - с 2006 г. 80 штатных сотрудников
Хендерсон, Невада - объявлено в 2018 году: в 2017 году куплено 1210 акров земли в районе Tahoe Reno Industri al Center ; проект утвержден штатом Невада в ноябре 2018 г.

Южная Америка:

Квиликура, Чили (33 ° 21′30,5 ″ ю.ш. 70 ° 41′50,4 ″ з.д. / 33,358472 ° ю.ш. 70.697333 ° W / -33.358472; -70.697333 ) - объявлено в 2012 г., в сети с 2015 г., ожидается до 20 сотрудников. В 2018 году был объявлен миллионный инвестиционный план по увеличению мощностей Quilicura.
Cerrillos, Chile - объявлен на 2020 год
Colonia Nicolich, Уругвай - объявлен 2019

Europe :

Сен-Гислен, Бельгия (50 ° 28′09,6 ″ N 3 ° 51′55,7 ″ E / 50,469333 ° N 3,865472 ° E / 50,469333; 3,865472 ) - объявлено в 2007 г., завершено в 2010 г., 12 сотрудников
Хамина, Финляндия (60 ° 32′11,68 ″ с.ш., 27 ° 7′1,21 ″ в.д. / 60.5365778 ° N 27.1170028 ° E / 60.5365778; 27.1170028 ) - объявлено в 2009 г., первая фаза завершена в 2011 г., расширена в 2012 г., 90 сотрудников
Дублин, Ирландия (53 ° 19′12,39 ″ N 6 ° 26′31,43 ″ W / 53,3201083 ° N 6.4420639 ° W / 53,3201083; -6,4420639 ) - объявлено в 2011 г., завершено в 2012 г., 150 сотрудников
Eemshaven, Нидерланды (53 ° 25′32 ″ N 6 ° 51′34 ″ E / 53,425659 ° N 6,8593522 ° E / 53,425659; 6,8593522 ) - объявлено в 2014 г., завершено в 2016 г., 200 сотрудников
Fredericia, Дания - объявлено в 2018 г., планируется завершить в 2021 г.

Азия:

Джуронг Вест, Сингапур (1 ° 21′04,8 ″ с.ш., 103 ° 42′35,2 ″ в.д. / 1,351333 ° с.ш., 103,709778 ° в.д. / 1,351333 ; 103.709778 ) - объявлено в 2011 г., завершено в 2013 г.
Округ Чанхуа, Тайвань (24 ° 08′18,6 ″ с.ш., 120 ° 25′32,6 ″ в.д. / 24,138500 ° N 120.425722 ° E / 24.138500; 120.425722 ) - объявлено в 2011 г., завершено в 2013 г., 60 сотрудников
Мумбаи, Индия - объявлено в 2017 г., завершено в 2019 г.
Город Тайнань, Тайвань - объявлено в сентябре 2019
Округ Юньлинь, Тайвань - анонсирован сентябрь 2020 г.

Аппаратное обеспечение

Оригинальное оборудование

Первая производственная серверная стойка Google, около 1998 г.

Оригинальное оборудование (около 1998 г.), которое было использовался Google, когда он находился в Стэнфордском университете, включая:

Sun Microsystems Ultra II с двумя процессорами 200 МГц и 256 МБ RAM. Это была основная машина для исходной системы Backrub.
2х300 МГц сдвоенных сервера Pentium II, подаренных Intel, в том числе 512 МБ ОЗУ и жесткие диски 10 × 9 ГБ между ними. Именно по ним проводился основной поиск.
F50 IBM RS / 6000, подаренный IBM, включал 4 процессора, 512 МБ памяти и 8 × 9 ГБ жесткие диски.
Две дополнительные коробки включали 3 жестких диска по 9 ГБ и 6 жестких дисков по 4 ГБ соответственно (исходное хранилище для Backrub). Они были прикреплены к Sun Ultra II.
Блок расширения для SDD-дисков с другими жесткими дисками 8 × 9 ГБ, подаренными IBM.
Самодельный дисковый ящик, содержащий 10 × 9 ГБ Жесткие диски SCSI.

Производственное оборудование

По состоянию на 2014 год Google использовал сильно модифицированную версию Debian (GNU / Linux). В 2013 году они постепенно перешли с системы на основе Red Hat.

Целью настройки является приобретение поколений ЦП, которые предлагают лучшую производительность за доллар, а не абсолютную производительность. Как это измеряется, неясно, но, вероятно, это включает в себя эксплуатационные расходы всего сервера, а потребление мощности ЦП может быть значительным фактором. По состоянию на 2009–2010 годы серверы состояли из изготовленных на заказ систем с открытым верхом, содержащих два процессора (каждый с несколькими ядрами), значительный объем оперативной памяти, распределенный по 8 слотам DIMM, в которых размещались модули DIMM двойной высоты, и как минимум два подключенных жестких диска SATA через нестандартный блок питания формата ATX. Серверы были открытыми, поэтому в стойку могло поместиться больше серверов. Согласно CNET и книге Джона Хеннесси, каждый сервер имел новую 12-вольтовую батарею для снижения затрат и повышения энергоэффективности.

Согласно Google, их глобальная электрическая мощность центра обработки данных колеблется от 500 до 681 мегаватт. Суммарная вычислительная мощность этих серверов могла достигать от 20 до 100 петафлопс в 2008 году.

Топология сети

Подробная информация о частных сетях Google во всем мире не является общедоступной, но в публикациях Google есть ссылки на отчет "Топ-10 Атласа", в котором Google считается третьим по величине интернет-провайдером после уровня 3.

. Для работы в такой большой сети с прямыми подключениями к как можно большему количеству интернет-провайдеров в минимально возможная стоимость, Google имеет очень открытую перинг политику.

На этом сайте мы видим, что доступ к сети Google можно получить из 67 общедоступных точек обмена в 69 различных местах по всему миру.. По состоянию на май 2012 года у Google было 882 Гбит / с публичных подключений (не считая частных пиринговых соглашений, которые у Google есть с крупнейшими интернет-провайдерами). Эта общедоступная сеть используется для распространения контента среди пользователей Google, а также для сканирования Интернета для создания его поисковых индексов. Частная сторона сети является секретом, но недавнее раскрытие Google показывает, что они используют специально построенные коммутаторы-маршрутизаторы с высоким основанием (с емкостью 128 × 10 Gigabit Ethernet порт) для глобальная сеть. Запустив не менее двух маршрутизаторов на центр обработки данных (для резервирования), мы можем сделать вывод, что сеть Google масштабируется в диапазоне терабит в секунду (с двумя полностью загруженными маршрутизаторами пропускная способность для двух секций составляет 1280 Гбит / с).

Эти настраиваемые коммутаторы-маршрутизаторы подключаются к устройствам DWDM для соединения центров обработки данных и точек присутствия (PoP) через темное волокно.

от В представлении центра обработки данных сеть начинается на уровне стойки, где 19-дюймовые стойки изготавливаются по индивидуальному заказу и содержат от 40 до 80 серверов (от 20 до 40 1 U серверов с каждой стороны, а Новые серверы представляют собой стоечные системы высотой 2U (каждая стойка оснащена коммутатором Ethernet ). Серверы подключаются через канал Ethernet 1 Гбит / с к коммутатору в верхней части стойки (TOR). Затем коммутаторы TOR подключаются к кластерному коммутатору гигабит с использованием нескольких гигабитных или десяти гигабитных восходящих каналов. Сами коммутаторы кластера соединены между собой и образуют межкомпонентную структуру центра обработки данных (скорее всего, с использованием дизайна стрекозы, а не классической схемы бабочки или плоской бабочки).

С точки зрения работы, когда клиентский компьютер пытается подключиться к Google, несколько DNS-серверов преобразовывают www.google.comв несколько IP-адресов через Политика Round Robin. Кроме того, это действует как первый уровень балансировки нагрузки и направляет клиента к различным кластерам Google. Кластер Google имеет тысячи серверов, и после подключения клиента к серверу выполняется дополнительная балансировка нагрузки для отправки запросов на наименее загруженный веб-сервер. Это делает Google одной из крупнейших и наиболее сложных сетей доставки контента.

У Google есть множество центров обработки данных, разбросанных по всему миру. По крайней мере, 12 крупных центров обработки данных Google расположены в США. Самые крупные известные центры расположены в Даллес, Орегон ; Атланта, Джорджия ; Рестон, Вирджиния ; Ленуар, Северная Каролина ; и Монкс Корнер, Южная Каролина. В Европе самые крупные известные центры находятся в Эмсхафене и Гронингене в Нидерландах и Монс, Бельгия. Центр данных Google Oceania, как утверждается, расположен в Сиднее, Австралия.

Project 02

. Один из крупнейших центров обработки данных Google расположен в город Даллес, штат Орегон, на реке Колумбия, примерно в 80 милях (129 км) от Портленда. Миллионный комплекс под кодовым названием «Проект 02» был построен в 2006 году и имеет размер примерно два поля для американского футбола с градирнями высотой в четыре этажа. Место было выбрано, чтобы воспользоваться преимуществами недорогой гидроэлектроэнергии и использовать большой излишек в регионе волоконно-оптического кабеля, остатка дотком бум. План участка появился в 2008 году.

Сумма бумажная фабрика

В феврале 2009 года Stora Enso объявила о продаже бумажной фабрики Summa в Хамине, Финляндия в Google за 40 миллионов евро. Google инвестировал 200 миллионов евро в сайт для строительства центра обработки данных и объявил о дополнительных инвестициях в размере 150 миллионов евро в 2012 году. Google выбрал это место из-за доступности и близости возобновляемых источников энергии.

Модульные контейнерные центры обработки данных

В 2005 году Google исследовал контейнерный модульный центр обработки данных. Google подала заявку на патент на эту технологию в 2003 году.

Плавучие центры обработки данных

В 2013 году пресса сообщила о существовании плавающих центров обработки данных Google вдоль побережья штатов Калифорния (Остров сокровищ, здание 3) и штат Мэн. Проект развития держался в строжайшей секретности. Центры обработки данных имеют длину 250 футов, ширину 72 фута и глубину 16 футов. Патент на технологию охлаждения центра обработки данных в океане был куплен Google в 2009 году (вместе с патентом на судовой центр обработки данных с волновым приводом в 2008 году). Вскоре после этого Google объявил, что две огромные и тайно построенные инфраструктуры были просто «центрами интерактивного обучения, [...] пространством, где люди могут узнать о новых технологиях».

Google прекратил работы на баржах в в конце 2013 г. и начали продавать баржи в 2014 г.

Программное обеспечение

Большая часть программного стека, который Google использует на своих серверах, была разработана собственными силами. По словам известного сотрудника Google, C ++, Java, Python и (в последнее время) Go предпочтительнее других языков программирования.. Например, серверная часть Gmail написана на Java, а серверная часть Google Search написана на C ++. Google признал, что Python с самого начала играл важную роль и продолжает играть эту роль по мере роста и развития системы.

Программное обеспечение, на котором работает инфраструктура Google, включает:

веб-сервер Google ( GWS) - настраиваемый веб-сервер на базе Linux, который Google использует для своих онлайн-сервисов.
Системы хранения:
- Google File System и ее преемник Colossus
- Bigtable - структурированное хранилище, построенное на GFS / Colossus
- Spanner - база данных планетарного масштаба, поддерживающая внешне согласованные распределенные транзакции
- Google F1 - распределенный квази SQL СУБД на основе Spanner, заменяющая пользовательскую версию MySQL.
Служба блокировки Chubby
MapReduce и язык программирования Sawzall
Системы индексирования / поиска:
- TeraGoogle - большой поисковый индекс Google (запущен в начале 2006 г.), разработанный Анной Паттерсон из Cuil fame.
- Кофеин (перколятор) - система непрерывного индексирования (запуск d в 2010 г.).
- Hummingbird - крупное обновление индекса поиска, включая сложный поиск и голосовой поиск.
Borg программное обеспечение для декларативного планирования процессов

Google разработал несколько абстракций, которые он использует для хранения большинства его данных:

Протоколные буферы - "язык Google для данных", формат двоичной сериализации, широко используемый в компании.
(Таблица сортированных строк) - постоянный, упорядоченный, неизменяемая карта от ключей к значениям, где и ключи, и значения являются произвольными байтовыми строками. Он также используется в качестве одного из строительных блоков Bigtable.
RecordIO - последовательность записей переменного размера.

Практика разработки программного обеспечения

Большинство операций доступны только для чтения. Когда требуется обновление, запросы перенаправляются на другие серверы, чтобы упростить проблемы согласованности. Запросы делятся на подзапросы, где эти подзапросы могут быть отправлены в разные каналы в параллельном, тем самым уменьшая время задержки.

Чтобы уменьшить влияние неизбежного оборудования сбой, программное обеспечение разработано с учетом отказоустойчивости. Таким образом, когда система выходит из строя, данные по-прежнему доступны на других серверах, что увеличивает надежность.

Инфраструктура поиска

Индекс

Как и большинство поисковых систем, Google индексирует документы, создавая структуру данных, известную как инвертированный индекс. Такой индекс получает список документов по слову запроса. Индекс очень велик из-за количества документов, хранящихся на серверах.

Индекс разделен по идентификаторам документов на множество частей, называемых шардами. Каждый сегмент реплицируется на несколько серверов. Первоначально индекс обслуживался с жестких дисков, как это делается в традиционных системах поиска информации (IR). Google справился с увеличением объема запросов, увеличив количество реплик каждого шарда и, таким образом, увеличив количество серверов. Вскоре они обнаружили, что у них достаточно серверов, чтобы хранить копию всего индекса в основной памяти (хотя и с низкой репликацией или вообще без репликации), и в начале 2001 года Google перешел на систему индексации в памяти. Этот переключатель «радикально изменил многие параметры дизайна» их поисковой системы и позволил значительно увеличить пропускную способность и значительно уменьшить задержку запросов.

В июне 2010 года Google внедрил индексирование и обслуживающая система под названием "Кофеин", которая может непрерывно сканировать и обновлять поисковый индекс. Ранее Google обновлял свой поисковый индекс пакетами, используя серию заданий MapReduce. Индекс был разделен на несколько уровней, некоторые из которых обновлялись быстрее, чем другие, а основной уровень обновлялся не раньше, чем через две недели. С кофеином весь индекс постоянно обновляется постепенно. Позже Google представила систему распределенной обработки данных под названием Percolator, которая, как говорят, является основой системы индексации кофеина.

Типы серверов

Серверная инфраструктура Google разделена на несколько типов, каждый из которых предназначен для другая цель:

веб-серверы координируют выполнение запросов, отправленных пользователями, а затем форматируют результат в страницу HTML. Выполнение состоит из отправки запросов на серверы индексации, объединения результатов, вычисления их ранга, получения сводки для каждого попадания (с использованием сервера документов), запроса предложений от серверов проверки орфографии и, наконец, получения списка рекламных объявлений с сервера объявлений..
Серверы сбора данных постоянно предназначены для работы с пауками в Интернете. Поисковый робот Google известен как GoogleBot. Они обновляют базы данных индексов и документов и применяют алгоритмы Google для присвоения рангов страницам.
Каждый сервер индексирования содержит набор сегментов индекса. Они возвращают список идентификаторов документов ("docid"), так что документы, соответствующие определенному docid, содержат слово запроса. Этим серверам требуется меньше дискового пространства, но они несут наибольшую нагрузку на ЦП.
Серверы документов хранят документы. Каждый документ хранится на десятках серверов документов. При выполнении поиска сервер документов возвращает сводку для документа на основе слов запроса. Они также могут получить полный документ по запросу. Этим серверам требуется больше дискового пространства.
Серверы объявлений управляют рекламными объявлениями, предлагаемыми такими службами, как AdWords и AdSense.
Серверы проверки правописания предлагают варианты написания запросов.

Безопасность

В октябре 2013 года The Washington Post сообщила, что Агентство национальной безопасности США перехватило сообщения между центрами обработки данных Google в рамках программы под названием MUSCULAR. Это прослушивание стало возможным благодаря тому, что в то время Google не шифровал данные, передаваемые в его собственной сети. Это было исправлено, когда Google начал шифрование данных, передаваемых между центрами обработки данных в 2013 году.

Воздействие на окружающую среду

Самый эффективный центр обработки данных Google работает при температуре 35 ° C (95 ° F) с использованием только охлаждения свежим воздухом, не требует кондиционирования воздуха с электроприводом.

В декабре 2016 года Google объявила, что, начиная с 2017 года, все свои центры обработки данных, а также все свои офисы, будут полностью использовать возобновляемые источники энергии. Это обязательство сделает Google «крупнейшим в мире корпоративным покупателем возобновляемой энергии с обязательствами по достижению 2,6 гигаватт (2600 мегаватт) энергии ветра и солнца».

Ссылки

Дополнительная литература

L.A. Баррозу; Дж. Дин; У. Хёльцле (март – апрель 2002 г.). «Интернет-поиск планеты: кластерная архитектура Google» (PDF). IEEE Micro. 23(2): 22–28. doi : 10.1109 / MM.2003.1196112.
Шенкленд, Стивен, новости CNET «Google раскрывает некогда секретный сервер ». 1 апреля 2009 г.

Внешние ссылки

Публикации Google Research
Поиск планеты в Интернете: кластерная архитектура Google (Луис Андре Баррозу, Джеффри Дин, Урс Хёльзле)
Под обложками на Google: текущие системы и будущие направления (выступление Джеффа Дина на конференции Google I / O в мае 2008 г.)