A grande interrupção da AT&T deste ano foi pior do que pensávamos

Em 22 de fevereiro deste ano, a AT&T sofreu uma grande interrupção após uma atualização de rede malfeita. Agora, meses depois, a escala total da interrupção foi revelada – e é muito maior do que pensávamos na época.

“Todos os serviços de voz e dados 5G para clientes sem fio da AT&T estavam indisponíveis, afetando mais de 125 milhões de dispositivos, bloqueando mais de 92 milhões de chamadas de voz e impedindo mais de 25.000 chamadas para call centers 911”, disse a Federal Communications Commission (FCC) em seu relatório .

As falhas do 911 são o maior problema aqui por razões fáceis de entender. Não há nada pior do que tentar ligar para o 911 em uma emergência e não conseguir. O relatório da FCC mostra que a AT&T tentou restaurar o FirstNet (First Responder Network Authority) primeiro antes dos usuários residenciais e comerciais da AT&T, o que parece ser a maneira correta de fazer isso.

Site do Down Detector mostrando um mapa de interrupções da AT&T em 22 de fevereiro de 2024.
Mapa do Down Detector da interrupção de 22 de fevereiro. Detector de queda

No entanto, a FCC também criticou a AT&T por várias falhas, além de não ter testado a implementação da mudança de rede. A FCC apontou a falta de supervisão e controles para garantir o teste de que os processos foram seguidos ou que os próprios processos eram insuficientes. A AT&T também não estava preparada para o congestionamento causado pelos dispositivos dos usuários que tentavam se reconectar à rede ao mesmo tempo. A rede da AT&T não era suficientemente robusta para mitigar o congestionamento.

A interrupção afetou todos os 50 estados e territórios, incluindo Washington, DC, Porto Rico e as Ilhas Virgens dos EUA. A FCC criticou a AT&T no relatório por não seguir as melhores práticas, que exigem que todas as alterações na rede sejam exaustivamente testadas, revisadas e aprovadas antes da implementação. A interrupção levou mais de 12 horas para que a AT&T resolvesse e restaurasse totalmente o serviço.

Se isso parece um pouco familiar, é porque é muito semelhante à interrupção do Crowdstrike , que destruiu dispositivos Microsoft em todo o mundo na semana passada e também envolveu o lançamento de uma atualização não testada com código defeituoso que quebrou tudo. Também é bastante familiar porque a Verizon sofreu uma interrupção semelhante com um arquivo de atualização defeituoso em dezembro de 2022, algo que lhe rendeu uma penalidade da FCC e a sujeitou a um decreto de consentimento.

Para crédito da AT&T, a operadora pelo menos reconheceu a responsabilidade pela interrupção e forneceu aos clientes afetados um crédito de US$ 5 , o que provavelmente não cobriu nem uma fração das contas telefônicas da maioria das pessoas. Do lado positivo, as consequências da FCC serão provavelmente mais graves, com o Gabinete de Segurança Pública e Segurança Interna a encaminhar o assunto ao Gabinete de Execução da FCC para investigar uma potencial violação das regras da FCC.

Uma tela azul da morte em um monitor de televisão no aeroporto LaGuardia, em Nova York.
Um monitor com defeito no Aeroporto LaGuardia, em Nova York, durante a interrupção do Crowdstrike Phil Nickinson / Digital Trend

Se for considerada responsável, a AT&T poderá ser obrigada a pagar uma multa mais significativa e estar sujeita à implementação de um plano de conformidade, assim como a Verizon fez no mês passado, quando teve que pagar uma multa de US$ 1,05 milhão por sua interrupção em dezembro de 2022. Em termos de soluções, dois dias após a interrupção, a AT&T implementou novos controles técnicos.

“Isso incluiu a verificação da rede em busca de quaisquer elementos de rede sem os controles que teriam evitado a interrupção e a implementação imediata desses controles. A AT&T se envolveu em trabalho forense contínuo e implementou melhorias adicionais para promover a robustez e resiliência da rede”, afirmou a FCC. A empresa também “implementou etapas adicionais para revisão por pares e adotou procedimentos para garantir que o trabalho de manutenção não possa ocorrer sem a confirmação de que as revisões por pares exigidas foram concluídas”.

Isso deve ajudar a evitar interrupções futuras, pelo menos para a AT&T. No entanto, parece que as falhas que levam ao lançamento de atualizações não testadas são generalizadas em toda a indústria, por isso, esperançosamente, isso servirá como um alerta para as empresas.