Como a interrupção do AWS da Amazon derrubou grandes partes da web

Se você teve problemas para acessar alguns dos seus sites e serviços favoritos em 20 de outubro, saiba que não estava sozinho. Uma grande parte da internet enfrentou horas de problemas com interrupções relatadas em diversos sites.

A culpa foi de uma falha nos serviços AWS da Amazon, com interrupções severas que causaram um enorme impacto em centenas, senão milhares, de serviços. Os próprios serviços da Amazon, como Alexa, Ring e Prime Video, estavam enfrentando problemas, assim como grandes nomes da internet, incluindo Disney+ , Hulu , Roblox , Fortnite , Zoom , The New York Times, McDonald's e outros.

Após 15 horas de interrupção, a Amazon finalmente conseguiu sinalizar que tudo estava normalizado, com seus serviços totalmente restaurados.

Falha na internet da AWS: principais atualizações

  • 15h53 PDT : Amazon emite declaração detalhando o que aconteceu.
  • 15h01 PDT : Todos os serviços da AWS retornaram às operações normais.
  • 10h03 PDT : “Continuamos aplicando medidas de mitigação para a integridade do balanceador de carga da rede e recuperando a conectividade para a maioria dos serviços da AWS.” Essa interrupção já dura mais de 10 horas.
  • 09h13 PDT : Amazon diz que está “observando conectividade e recuperação de API para serviços AWS”
  • 08h48 PDT : Boas notícias! A Amazon "reduziu a origem dos problemas de conectividade de rede que impactaram os serviços da AWS".
  • 08h04 PDT : Mais investigações são necessárias pela Amazon, pois ela analisa problemas de conectividade
  • 07h29 PDT : Amazon confirma problemas de conectividade para usuários.
  • 07:14 PDT : Nossa! As coisas parecem estar piorando . "Podemos confirmar erros significativos de API e problemas de conectividade em vários serviços na região US-EAST-1."
  • 06h42 PDT : A Amazon confirma que “ainda está enfrentando erros elevados para novos lançamentos de instâncias do EC2”.
  • 05h48 PDT : A Amazon diz que está “fazendo progresso na resolução do problema com novos lançamentos de instâncias do EC2 na região US-EAST-1”.
  • 05h10 PDT : Mais ações bem-sucedidas enquanto a Amazon continua trabalhando no processo de recuperação.
  • 04h48 PDT : A Amazon confirma que muitos serviços ainda estão afetados enquanto continua a corrigir o problema.
  • 04h08 PDT : Amazon diz que “continua trabalhando para uma recuperação total”
  • 03:35 AM PDT : “O problema subjacente de DNS foi totalmente mitigado e a maioria das operações do serviço AWS estão funcionando normalmente agora”
  • 03:03 PDT : Os serviços continuam a se recuperar enquanto a Amazon continua “a trabalhar para uma resolução completa”
  • 02h27 PDT : “Estamos vendo sinais significativos de recuperação”, observa a Amazon. Graças a Deus.
  • 02h22 PDT : A Amazon diz que está “observando os primeiros sinais de recuperação de alguns serviços da AWS impactados”
  • 02:01 AM PDT : A Amazon diz que “identificou uma potencial causa raiz para as taxas de erro”
  • 01:26 AM PDT : A Amazon diz que “pode confirmar taxas de erro significativas para solicitações feitas ao endpoint do DynamoDB na região US-EAST-1”
  • 00h51 PDT : Amazon confirma “aumento nas taxas de erro e latências para vários serviços da AWS na região US-EAST-1”
  • 00h11 PDT : A Amazon confirma que está “investigando o aumento das taxas de erro e latências para vários serviços da AWS na região US-EAST-1”

Por que os serviços da AWS caíram?

A Amazon divulgou um comunicado em 20 de outubro às 15h53 PDT, detalhando os eventos do dia.

Entre 23h49 PDT de 19 de outubro e 2h24 PDT de 20 de outubro, observamos aumento nas taxas de erro e latências para serviços da AWS na região US-EAST-1. Além disso, serviços ou recursos que dependem de endpoints US-EAST-1, como IAM e Tabelas Globais do DynamoDB, também apresentaram problemas durante esse período.

Às 00h26 do dia 20 de outubro, identificamos o gatilho do evento como problemas de resolução de DNS para os endpoints regionais do serviço DynamoDB. Após resolver o problema de DNS do DynamoDB às 2h24, os serviços começaram a se recuperar, mas tivemos um comprometimento subsequente no subsistema interno do EC2 responsável por iniciar instâncias do EC2 devido à sua dependência do DynamoDB. À medida que continuamos a lidar com os problemas de inicialização de instâncias do EC2, as verificações de integridade do Network Load Balancer também ficaram comprometidas, resultando em problemas de conectividade de rede em vários serviços, como Lambda, DynamoDB e CloudWatch.

Recuperamos as verificações de integridade do Balanceador de Carga de Rede às 9h38. Como parte do esforço de recuperação, limitamos temporariamente algumas operações, como inicializações de instâncias do EC2, processamento de filas SQS por meio de Mapeamentos de Fontes de Eventos Lambda e invocações assíncronas do Lambda. Com o tempo, reduzimos a limitação das operações e trabalhamos em paralelo para resolver problemas de conectividade de rede até que os serviços se recuperassem totalmente.

Às 15h01, todos os serviços da AWS retornaram às operações normais. Alguns serviços, como AWS Config, Redshift e Connect, continuam com um acúmulo de mensagens que serão processadas nas próximas horas. Compartilharemos um resumo detalhado da AWS após o evento.

Quanto tempo durou a interrupção da AWS?

No total, os serviços da AWS foram impactados por 15 horas em 20 de outubro de 2025, tornando-se a maior indisponibilidade da AWS da Amazon em uma década.

De acordo com nossa pesquisa sobre interrupções anteriores da AWS, a interrupção mais longa dos últimos 10 anos ocorreu em agosto de 2019, quando os serviços ficaram inativos por oito horas.

Falha na internet da AWS como aconteceu