A grande interrupção da AT&T deste ano foi pior do que pensávamos
Em 22 de fevereiro deste ano, a AT&T sofreu uma grande interrupção após uma atualização de rede malfeita. Agora, meses depois, a escala total da interrupção foi revelada – e é muito maior do que pensávamos na época.
“Todos os serviços de voz e dados 5G para clientes sem fio da AT&T estavam indisponíveis, afetando mais de 125 milhões de dispositivos, bloqueando mais de 92 milhões de chamadas de voz e impedindo mais de 25.000 chamadas para call centers 911”, disse a Federal Communications Commission (FCC) em seu relatório .
As falhas do 911 são o maior problema aqui por razões fáceis de entender. Não há nada pior do que tentar ligar para o 911 em uma emergência e não conseguir. O relatório da FCC mostra que a AT&T tentou restaurar o FirstNet (First Responder Network Authority) primeiro antes dos usuários residenciais e comerciais da AT&T, o que parece ser a maneira correta de fazer isso.
No entanto, a FCC também criticou a AT&T por várias falhas, além de não ter testado a implementação da mudança de rede. A FCC apontou a falta de supervisão e controles para garantir o teste de que os processos foram seguidos ou que os próprios processos eram insuficientes. A AT&T também não estava preparada para o congestionamento causado pelos dispositivos dos usuários que tentavam se reconectar à rede ao mesmo tempo. A rede da AT&T não era suficientemente robusta para mitigar o congestionamento.
A interrupção afetou todos os 50 estados e territórios, incluindo Washington, DC, Porto Rico e as Ilhas Virgens dos EUA. A FCC criticou a AT&T no relatório por não seguir as melhores práticas, que exigem que todas as alterações na rede sejam exaustivamente testadas, revisadas e aprovadas antes da implementação. A interrupção levou mais de 12 horas para que a AT&T resolvesse e restaurasse totalmente o serviço.
Se isso parece um pouco familiar, é porque é muito semelhante à interrupção do Crowdstrike , que destruiu dispositivos Microsoft em todo o mundo na semana passada e também envolveu o lançamento de uma atualização não testada com código defeituoso que quebrou tudo. Também é bastante familiar porque a Verizon sofreu uma interrupção semelhante com um arquivo de atualização defeituoso em dezembro de 2022, algo que lhe rendeu uma penalidade da FCC e a sujeitou a um decreto de consentimento.
Para crédito da AT&T, a operadora pelo menos reconheceu a responsabilidade pela interrupção e forneceu aos clientes afetados um crédito de US$ 5 , o que provavelmente não cobriu nem uma fração das contas telefônicas da maioria das pessoas. Do lado positivo, as consequências da FCC serão provavelmente mais graves, com o Gabinete de Segurança Pública e Segurança Interna a encaminhar o assunto ao Gabinete de Execução da FCC para investigar uma potencial violação das regras da FCC.
Se for considerada responsável, a AT&T poderá ser obrigada a pagar uma multa mais significativa e estar sujeita à implementação de um plano de conformidade, assim como a Verizon fez no mês passado, quando teve que pagar uma multa de US$ 1,05 milhão por sua interrupção em dezembro de 2022. Em termos de soluções, dois dias após a interrupção, a AT&T implementou novos controles técnicos.
“Isso incluiu a verificação da rede em busca de quaisquer elementos de rede sem os controles que teriam evitado a interrupção e a implementação imediata desses controles. A AT&T se envolveu em trabalho forense contínuo e implementou melhorias adicionais para promover a robustez e resiliência da rede”, afirmou a FCC. A empresa também “implementou etapas adicionais para revisão por pares e adotou procedimentos para garantir que o trabalho de manutenção não possa ocorrer sem a confirmação de que as revisões por pares exigidas foram concluídas”.
Isso deve ajudar a evitar interrupções futuras, pelo menos para a AT&T. No entanto, parece que as falhas que levam ao lançamento de atualizações não testadas são generalizadas em toda a indústria, por isso, esperançosamente, isso servirá como um alerta para as empresas.