No meio do colapso: uma coisa que CrowdStrike e Microsoft não conseguem consertar

Só vi uma Tela Azul da Morte no domingo, 21 de julho, durante 15 horas de viagem através de dois dos maiores aeroportos do país, apenas dois dias depois de uma atualização de software malfeita ter paralisado milhões de computadores corporativos que executavam o sistema operacional Windows.

“Talvez as coisas estejam bem”, lembro-me de pensar enquanto minha família dava os primeiros passos no aeroporto LaGuardia, em Nova York , por volta das 9h. ruim.

Eu deveria saber melhor. Eu dei literalmente dois passos dentro do prédio antes de receber o primeiro dos cerca de 3.000 e-mails atrasados ​​da Delta ao longo do dia, para acompanhar ainda mais notificações dos aplicativos Flighty e Fly Delta. Esta não seria uma viagem fácil de Nova York à Flórida, algo que fiz dezenas de vezes ao longo dos anos.

Uma notificação do aplicativo Flighty em um Apple Watch.
O geralmente excelente aplicativo Flighty simplesmente não foi projetado para acompanhar tantas trocas de fuselagem – essas notificações chegavam várias vezes por hora. Phil Nickinson/Tendências Digitais

Não sou estranho a atrasos de voos. ( Passei 15 horas no Sky Club do LAX no final de janeiro – algo que não recomendo, apesar de ser bom.) Mas este foi diferente. O tempo acontece. Problemas mecânicos acontecem. Eles são péssimos, mas todos se resumem à segurança. Desta vez? Um fornecedor de segurança terceirizado estragou um arquivo dentro do Windows. CrowdStrike deveria ter percebido. A Microsoft deveria ter percebido. Nem o fez até que fosse tarde demais. Embora a correção tenha sido relativamente simples – inicialize no modo de segurança ou continue reiniciando a máquina até que o arquivo danificado seja substituído – os efeitos de primeira ordem foram imensos.

Foram nos efeitos de segunda e terceira ordem que as coisas realmente deram errado para as companhias aéreas. A Delta foi particularmente atingida – o CEO Ed Bastian escreveu no domingo que mais de 3.500 voos foram cancelados até sábado, e muitos mais no domingo. “Por favor, venha me ver no pódio se precisar de um abraço”, disse nosso agente de portão por volta das 16h30 de domingo, enquanto o quadro era atualizado para CANCELADO.

A cena do Portão A7 do Aeroporto Internacional Hartsfield-Jackson de Atlanta no final da noite de 21 de julho de 2024.
Para muitos de nós no Aeroporto Internacional Hartsfield-Jackson de Atlanta, não havia nada a fazer senão esperar e torcer para que o próximo voo não fosse cancelado. Phil Nickinson/Tendências Digitais

A fila para o balcão de remarcação no saguão A de Atlanta – um dos sete terminais do aeroporto mais movimentado do país – era comicamente (ou tragicamente) longa. Fiquei sentado com um fone de ouvido, aguardando a fila da reserva da companhia aérea por duas horas antes de desistir. (Meu irmão, que tem um status de passageiro frequente muito mais elevado, pelo menos conseguiu que uma pessoa real lhe dissesse que eu não conseguiria sair antes da meia-noite e que a melhor coisa a fazer era manter o voo designado por agora.)

Finalmente a bordo, na madrugada de segunda-feira, 22 de julho, um comissário de bordo nos deu uma ideia do que realmente estava causando problemas: a Delta não sabia onde estavam suas tripulações. Isso foi confirmado no final do dia em outra postagem de notícias da Delta , que dizia que mais da metade de seu sistema de TI roda Windows e que tempo adicional de sincronização era necessário mesmo depois que as máquinas afetadas fossem reiniciadas.

“As tripulações da Delta estão totalmente equipadas e prontas para atender nossos clientes”, continuava a postagem. “Mas um dos sistemas mais críticos da Delta – que garante que todos os voos tenham uma tripulação completa no lugar certo e na hora certa – é profundamente complexo e exige mais tempo e suporte manual para sincronizar.”

Uma tela de entretenimento a bordo de um Delta 757-200, esperando para sair de Atlanta.
Já passava da meia-noite, mas aqueles de nós que conseguiram embarcar em um Boeing 757-200 estavam bastante entusiasmados com isso. Phil Nickinson/Tendências Digitais

Finalmente chegamos em casa quase às 2 da manhã. Cansados. Um pouco esgotado. Mas apenas cerca de oito horas de atraso, no total. Tivemos sorte. Meu irmão passou cerca de 30 horas no aeroporto de Atlanta, dois dias antes, apenas tentando voltar para casa, em Pensacola, depois de abortar uma viagem à Costa Oeste. Sem voos. Não há aluguel de carros só de ida. Exceto pela espera, não há outras opções reais além de alguém dirigindo cinco horas em cada sentido para um resgate.

Nossas histórias eram apenas duas entre milhares – e as nossas eram de risco relativamente baixo. Não tínhamos crianças viajando sozinhas. Não estávamos sem muito dinheiro, além de algumas refeições que não planejávamos fazer no aeroporto. Nossas malas chegaram no mesmo avião.

A solução imediata para a falha do CrowdStrike foi bastante simples. A CrowdStrike e a Microsoft precisam ter políticas em vigor para mitigar a possibilidade de isso acontecer novamente. (Isso, é claro, acontecerá novamente.) Mas como diz o ditado – e esta é a versão PG-13 – o cocô flui ladeira abaixo. Nada disso foi culpa das companhias aéreas. Mas rapidamente se tornou uma bagunça para limpar.

E isso é algo que uma simples reinicialização não pode resolver. Mesmo se você fizer issomais de 8 milhões de vezes .