AWS объясняет неприятную причину большого сбоя в облаке на прошлой неделе

AWS объясняет неприятную причину большого сбоя в облаке на прошлой неделе

Amazon открыто рассказал о крупном сбое в работе AWS, произошедшем на прошлой неделе. Технический гигант сообщил, что его попытка увеличить мощность сервера привела к неожиданному простою в регионе AWS US-EAST-1. Причиной сбоя стало небольшое увеличение мощности сервиса AWS Kinesis, который используется для поддержки значительного количества других предложений AWS. Серверы Kinesis создают новые потоки для других серверов, участвующих во внешнем интерфейсе AWS, чтобы они могли взаимодействовать друг с другом. Дополнительная емкость привела к тому, что серверы превысили максимально разрешенное количество потоков. Хотя AWS довольно быстро обнаружила причину проблемы, вернуть все обратно в режим онлайн оказалось не так-то просто. Слишком быстрое восстановление серверов может привести к ошибкам, задержкам запросов или даже к исключению некоторых из парка. В результате Amazon удалось восстановить только несколько сотен серверов одновременно, что задержало процесс восстановления.

Улучшения, которые необходимо сделать

Amazon уже работает над рядом предложений, которые помогут предотвратить повторение подобных инцидентов в будущем. «В самой краткосрочной перспективе мы перейдем к серверам и процессорам большего объема памяти, тем самым уменьшив общее количество серверов и, следовательно, количество потоков, необходимых каждому серверу для связи между парком», — поясняется в статье AWS. «Это обеспечит значительный запас по количеству используемых потоков, поскольку общее количество потоков, которые должен поддерживать каждый сервер, прямо пропорционально количеству серверов в парке. Меньшее количество серверов означает, что каждый сервер обрабатывает меньше потоков. Мы добавляем в сервис подробные оповещения о потреблении потоков. «Кроме того, AWS стремится завершить тестирование увеличения лимитов количества потоков и улучшить время холодного запуска своего фронтенд-парка. Компания также извинилась за простой, из-за которого несколько громких сайтов отключились от сети, включая Coinbase. , Flickr и Roku Через реестр.