A longa cauda da interrupção da AWS

Uma Amazônia em expansão Serviços Web interrupção na nuvem que começou na manhã de segunda-feira ilustrou as frágeis interdependências da Internet, à medida que as principais plataformas de comunicação, financeiras, de saúde, de educação e governamentais em todo o mundo sofriam interrupções. Como o o dia passoua AWS diagnosticou e começou a trabalhar para corrigir o problema, que se originou na região crítica US-EAST-1 da empresa, com sede no norte da Virgínia. Mas a cascata de impactos levou tempo para ser totalmente resolvida.

Os pesquisadores refletindo sobre o incidente destacaram particularmente a duração da interrupção, que começou por volta das 3h ET de segunda-feira, 20 de outubro. A AWS disse em atualizações de status que às 18h01 ET de segunda-feira “todos os serviços da AWS retornaram às operações normais”. A interrupção resultou diretamente das interfaces de programação de aplicativos de banco de dados DynamoDB da Amazon e, segundo a empresa, “impactou” 141 outros serviços da AWS. Vários engenheiros de rede e especialistas em infraestrutura enfatizaram à WIRED que os erros são compreensíveis e inevitáveis para os chamados “hyperscalers” como AWS, Microsoft Azure e Google Cloud Platform, dada a sua complexidade e tamanho. Mas eles também observaram que esta realidade não deveria simplesmente absolver os provedores de nuvem quando eles têm períodos de inatividade prolongados.

“A palavra retrospectiva é a chave. É fácil descobrir o que deu errado depois do fato, mas a confiabilidade geral da AWS mostra como é difícil evitar todas as falhas”, diz Ira Winkler, diretor de segurança da informação da empresa de confiabilidade e segurança cibernética CYE. “Idealmente, isso será uma lição aprendida, e a Amazon implementará mais redundâncias que evitariam que um desastre como esse acontecesse no futuro – ou pelo menos evitariam que permanecessem inativas por tanto tempo.”

A AWS não respondeu às perguntas da WIRED sobre a longa cauda da recuperação dos clientes. Um porta-voz da AWS disse que a empresa planeja publicar um de seus “resumos pós-evento” sobre o incidente.

“Não creio que tenha sido apenas uma interrupção do tipo ‘coisas acontecem’. Eu esperava uma correção completa muito mais rápida”, afirma Jake Williams, vice-presidente de pesquisa e desenvolvimento da Hunter Strategy. “Para dar-lhes o que lhes é devido, as falhas em cascata não são algo com que eles tenham muita experiência de trabalho, porque não têm interrupções com muita frequência. Então, isso é um crédito para eles. Mas é realmente fácil entrar na mentalidade de dar uma chance a essas empresas, e não devemos esquecer que elas criam essa situação tentando ativamente atrair cada vez mais clientes para sua infraestrutura. Os clientes não controlam se estão se esforçando demais ou o que podem estar acontecendo financeiramente.”

O incidente foi causado por um culpado conhecido nas interrupções da web: problemas de resolução do “sistema de nomes de domínio”. O DNS é essencialmente o mecanismo de lista telefônica da Internet para direcionar os navegadores da Web aos servidores corretos. Como resultado, os problemas de DNS são uma fonte comum de interrupções, porque podem causar falhas nas solicitações e impedir o carregamento do conteúdo.

Source link