Facebook: Nós desconectamos nossos data centers da Internet

 

O Facebook Fabric Aggregator, um sistema que gerencia o tráfego de dados entre seus data centers. (Foto: Rich Miller)


O Facebook diz que um erro de configuração quebrou sua conexão com uma espinha dorsal de rede chave, desconectando todos os seus data centers da Internet e deixando seus servidores DNS inalcançáveis, disse a empresa.

A combinação incomum de erros derrubou as operações web do Facebook, Instagram e WhatsApp em uma enorme paralisação global que durou mais de cinco horas. Na verdade, disse o Facebook, um único comando errante derrubou serviços web usados por mais de 7 bilhões de contas em todo o mundo.

As primeiras análises externas da paralisação se concentraram nos servidores de nomes de domínio (DNS) do Facebook e mudanças em uma rota de rede no Border Gateway Protocol (BGP), problemas claramente visíveis dos registros da Internet. Esses acabaram por ser problemas secundários desencadeados pela paralisação da espinha dorsal do Facebook.

Durante a manutenção planejada da rede, "foi emitido um comando com a intenção de avaliar a disponibilidade da capacidade global de backbone, que involuntariamente retirou todas as conexões em nossa rede backbone, efetivamente desconectando os data centers do Facebook globalmente", de acordo com um post no blog do VP de Infraestrutura do Facebook Santosh Janardhan.

O comando errante normalmente seria pego por uma ferramenta de auditoria, mas "mas um bug nessa ferramenta de auditoria não impediu adequadamente o comando", disse o Facebook.

Visão geral técnica da paralisação do Facebook

Aqui está a seção do post do blog que explica o problema e a consequente paralisação, que vale a pena ler na íntegra:

O tráfego de dados entre todas essas instalações de computação é gerenciado por roteadores, que descobrem para onde enviar todos os dados de entrada e saída. E no extenso trabalho diário de manutenção dessa infraestrutura, nossos engenheiros muitas vezes precisam tomar parte da espinha dorsal offline para manutenção — talvez reparando uma linha de fibra, adicionando mais capacidade ou atualizando o software no próprio roteador.

Esta foi a fonte da paralisação de ontem. Durante um desses trabalhos de manutenção de rotina, um comando foi emitido com a intenção de avaliar a disponibilidade da capacidade global de backbone, que involuntariamente derrubou todas as conexões em nossa rede backbone, efetivamente desconectando os data centers do Facebook globalmente. Nossos sistemas são projetados para auditar comandos como estes para evitar erros como este, mas um bug nessa ferramenta de auditoria não parou adequadamente o comando.

Essa alteração causou uma completa desconexão de nossas conexões de servidor entre nossos data centers e a internet. E essa perda total de conexão causou um segundo problema que piorou as coisas.

Um dos trabalhos realizados por nossas instalações menores é responder às consultas de DNS. O DNS é o catálogo de endereços da internet, permitindo que os nomes simples da Web que digitamos em navegadores sejam traduzidos em endereços IP específicos do servidor. Essas consultas de tradução são respondidas por nossos servidores de nome autoritários que ocupam endereços IP conhecidos, que por sua vez são anunciados para o resto da internet através de outro protocolo chamado protocolo de gateway de fronteira (BGP).

Para garantir uma operação confiável, nossos servidores DNS desabilitarão esses anúncios do BGP se eles próprios não puderem falar com nossos data centers, uma vez que isso é uma indicação de uma conexão de rede insalubre. Na recente paralisação, toda a espinha dorsal foi removida da operação, fazendo com que esses locais se declarassem insalubres e retirassem esses anúncios do BGP. O resultado final foi que nossos servidores DNS tornaram-se inalcançáveis, mesmo que ainda estivessem operacionais. Isso tornou impossível para o resto da internet encontrar nossos servidores.

Reinicializações manuais estendem o atraso

A recuperação tornou-se difícil porque todos os data centers do Facebook eram inacessíveis, e a paralisação do DNS mancava muitas ferramentas de rede que normalmente seriam fundamentais para resolver problemas e reparar os problemas.

Com ferramentas de gerenciamento remoto indisponíveis, os sistemas afetados devem ser depurados manualmente e reiniciados por técnicos nos data centers. "Levou tempo extra para ativar os protocolos de acesso seguro necessários para que as pessoas no local pudessem trabalhar nos servidores. Só então poderíamos confirmar o problema e trazer nossa espinha dorsal de volta on-line", disse Janardhan.

Um problema final foi como reiniciar a enorme rede global de data centers do Facebook e lidar com uma onda imediata de tráfego. Este é um desafio que vai além dos logjams de rede para os sistemas de hardware e energia do data center.

"Data centers individuais estavam relatando quedas no uso de energia na faixa de dezenas de megawatts, e de repente reverter tal queda no consumo de energia poderia colocar tudo, desde sistemas elétricos até caches em risco", disse Janardhan.

A indústria de data center existe para eliminar o tempo de inatividade nos equipamentos de TI, garantindo que a energia e a rede estejam sempre disponíveis. Um princípio fundamental é eliminar pontos únicos de falha, e a paralisação de segunda-feira ilustra como redes de hiperescala que atendem o público global também podem permitir paralisações em escala sem precedentes.

Agora que os detalhes da paralisação são conhecidos e disponíveis, a equipe de engenharia do Facebook avaliará o que deu errado e tentará evitar que um problema semelhante se repita no futuro.

"Cada fracasso como este é uma oportunidade de aprender e melhorar, e há muito para aprendermos com isso", disse Janardhan. "Após cada edição, pequena e grande, fazemos um extenso processo de revisão para entender como podemos tornar nossos sistemas mais resilientes. Esse processo já está em andamento. ... De agora em diante, nosso trabalho é fortalecer nossos testes, exercícios e resiliência geral para garantir que eventos como esse aconteçam o mais raramente possível."

Fonte: datacenterfrontier.com

Postagem Anterior Próxima Postagem

Top Post Ad

نموذج الاتصال