Google заявляет, что закрыла ключевой дата-центр, чтобы спасти его от жары в Лондоне

Google заявляет, что закрыла ключевой дата-центр, чтобы спасти его от жары в Лондоне

Google раскрыл дополнительную информацию о том, что произошло, когда компания была вынуждена закрыть один из своих лондонских центров обработки данных в самый жаркий день года в Великобритании.

По данным Google, отключение электроэнергии в регионе Europe-west2-a в прошлом месяце произошло из-за неспособности поддерживать безопасную рабочую температуру из-за одновременного отказа нескольких резервных систем охлаждения в сочетании с «чрезвычайно высокими» наружными температурами». .

Сбой затронул многие сервисы Google, включая Google Compute Engine, Persistent Disk (PD) и Google Cloud Storage, что привело к сбоям экземпляров, ухудшению качества обслуживания и проблемам с сетью.

Что на самом деле произошло?

Инженеры Google отключили дата-центр, расположенный в пострадавшей зоне Западной Европы2, на время ремонта системы охлаждения.

Общее воздействие на облачные сервисы оценили в 18 часов 23 минуты.

Это довольно тревожная новость, особенно если учесть, что Google утверждает, что эти региональные сервисы «сконструированы так, чтобы выдерживать сбои в одной зоне».

Google объяснил ошибку непреднамеренным изменением маршрутизации трафика для внутренних сервисов, чтобы избежать всех трех зон в регионе «europe-west2» вместо затронутой зоны «europe-west2-a».

Инцидент с маршрутизацией помешал клиентам получить доступ к данным из региональных служб хранения, включая GCS и BigQuery, в нескольких зонах.

Произойдет ли это снова?

Подобные новости, по понятным причинам, весьма пугают, если вы обеспокоены глобальным потеплением, поскольку в будущем Великобританию могут ожидать еще более жаркие дни.

К счастью, Google стремится не допустить повторного воздействия сбоев такого типа на облачный хостинг.

Они включали исправление и повторное тестирование системы автоматизации переключения при сбое, чтобы обеспечить большую отказоустойчивость протоколов переключения при отказе во время подобных крупномасштабных событий.

Облачный гигант также пообещал изучить и разработать «более продвинутые методы» для постепенного снижения тепловой нагрузки на одно пространство центра обработки данных, снижая вероятность того, что потребуется полное отключение.

Кроме того, ожидается, что Google проверит свои процедуры автоматического восстановления, инструменты и системы на наличие недостатков, а также проведет проверку стандартов и оборудования систем охлаждения в центрах обработки данных, в которых размещается Google Cloud, по всему миру.