Facebook, Instagram e WhatsApp desativados: a causa do desserviço
F acebook, Instagram e WhatsApp estão de volta a operação após a longa retração que os atingiu a partir das 17h30 de ontem, 4 de outubro, com causa desconhecida. À noite algumas hipóteses surgiram , também seguindo algumas declarações de um misterioso usuário do Reddit, agora canceladas. Hipótese que acabou sendo realidade: o Facebook confirmou que o problema por trás das interrupções está relacionado a uma mudança de configuração nos roteadores de peering da empresa. Santosh Janardhan, vice-presidente da equipe de engenharia, explicou o que aconteceu em um post no blog oficial do Facebook . Mas o que realmente aconteceu? E por que demorou tanto para resolver o problema?
O protocolo BGP
Em 4 de outubro, permanecerá na história ontem ocorreu baixo o mais longo já registrado para o Facebook, Instagram e WhatsApp. O desserviço atingiu o mundo inteiro, gerando pânico entre os usuários, que se aglomeraram no Twitter para trocar piadas e tentar entender o que havia acontecido. Se inicialmente pensamos em uma interrupção temporária, não a primeira para o Facebook e as outras plataformas, depois de algumas horas a situação tornou-se muito séria. Entre os vários rumores, tanto falsos como mais verdadeiros, surgiu uma causa possível, que então se tornou realidade: o problema do desligamento do Facebook, Instagram e WhatsApp surgiu após uma mudança na configuração dos roteadores dos serviços.
Nossa equipe de engenharia descobriu que as alterações de configuração nos roteadores de backbone , que coordenam o tráfego de rede entre nossos data centers, causaram a falha na comunicação. A suspensão do tráfego causou um efeito cascata nos data centers, parando todos os serviços.
Santosh Janardhan, Vice-presidente de Engenharia e Infraestrutura
Os roteadores de backbone nomeados por Janardhan são responsáveis pela comunicação entre diferentes sub-redes. No caso do Facebook, a rede backbone formada por esses roteadores é responsável por gerenciar o tráfego entre os diferentes data centers da empresa. Em detalhe, o “culpado” da suspensão dos serviços é a configuração do BGP – Border Gateway Protocol. Este protocolo trata da conexão de roteadores (chamados "roteadores de fronteira") que pertencem a sistemas autônomos e distintos, que por sua vez são pools de roteadores. O BGP é responsável por escolher a melhor maneira de transferir pacotes de um sistema para outro e é a base da comunicação moderna pela Internet.
No Facebook, Instagram e WhatsApp: a causa
O que aconteceu então? E o que o BGP tem a ver com isso? Para utilizar o protocolo e realizar a comunicação entre os sistemas, cada um deles deve comunicar a sua presença para ser identificado. O identificador de cada sistema é o Número do Sistema Autônomo ou ASN , que determina uma política de roteamento única para aquele sistema, ou seja, a lista de endereços IP presentes em sua rede. Essas informações são compartilhadas com o BGP para construir a rede entre sistemas.
De acordo com o que foi relatado no blog Cloudfare, o Facebook teria parado de comunicar os detalhes de seu roteamento , apagando efetivamente as conexões com os outros sistemas. A atualização de configuração de que a web falava ontem dizia respeito a uma mudança nas informações do BGP que tornava os domínios do Facebook inacessíveis. Os serviços das plataformas teriam então "desconectado" da web. As três redes sociais basicamente pararam de comunicar detalhes sobre seu roteamento, tornando os resolvedores de DNS incapazes de se conectar aos servidores de nomes da empresa.
Para piorar a situação, houve um aumento no tráfego para servidores do Facebook e resolvedores de DNS. Tanto os aplicativos quanto os usuários começaram a gerar um grande volume de solicitações para resolvedores de DNS na tentativa de atualizar o feed. Como muitos usuários notaram, houve problemas de tempo limite em outras plataformas também , pois os resolvedores em todo o mundo tiveram que lidar com 30 vezes mais solicitações do que o normal.
Os prazos para resolução
A atualização da configuração do BGP também causou problemas na comunicação interna dos sistemas. Isso levou a grandes dificuldades para resolver prontamente o problema, uma vez que os engenheiros do Facebook tinham dificuldade em se comunicar entre si e com os sistemas . Nesse caso, a única solução foi ter acesso físico aos mesmos, com consequentes atrasos por conta da logística. Não só isso: na maioria dos casos quem tinha acesso físico aos sistemas não tinha conhecimento para resolver o problema e vice-versa. Além disso, os funcionários que chegaram ao local relataram problemas com os crachás de acesso , permanecendo efetivamente trancados do lado de fora dos escritórios.
Levou a noite toda para trazer os serviços online de volta ao mundo. Santosh Janardhan avisa que ainda podem ocorrer alguns pequenos transtornos, devido à contínua resolução do problema. Eliminada a hipótese de um ataque de hacker, o Facebook faz questão de tranquilizar os usuários sobre a integridade de seus dados , informando que não registrou nenhum comprometimento.
O artigo Facebook, Instagram e WhatsApp desativados: a causa do desserviço vem do Tech CuE | Engenharia de Close-up .