Blog da Zscaler

Receba as últimas atualizações do blog da Zscaler na sua caixa de entrada

Inscreva-se
Produtos e soluções

O drama das segundas-feiras na Comcast: como mantivemos nossa produtividade durante um corte da conexão do ISP

SAI BALABHADRAPATRUNI, SANJIT GANGULI
November 15, 2021 - 4 Min. de leitura

"Mude para o hotspot de seu smartphone se você tiver Comcast", dizia a mensagem do Slack. Eram 21h45 da segunda-feira, dia 8 de novembro.

A princípio parecia uma brincadeira infantil, mas vinha de uma fonte legítima: nossa equipe de TI. Estávamos em uma reunião crítica no Zoom, acertando os detalhes de última hora do evento de lançamento do produto 'No Interruptions', programado para a manhã de terça-feira. 

"Estamos observando falhas em cascata afetando os usuários da Comcast em todo o norte da Califórnia; pode atingir você em breve", dizia a mensagem seguinte.

Essa interrupção, e a subsequente coordenação para concluir nosso trabalho, seria um incômodo desnecessário para nós. Em resposta ao alerta, passamos para nossos hotspots e prosseguimos com nossa reunião enquanto o problema se alastrava pelo norte da Califórnia. 

Interrupções não programadas dos provedores de internet com duração de várias horas são incomuns hoje em dia, mas, quando acontecem, especialmente quando a maioria de nós está trabalhando em casa, o impacto sobre a produtividade é significativo. 

A falha na transmissão da Comcast foi um lembrete para estarmos preparados para situações imprevisíveis. Mas como você se prepara para interrupções que podem acontecer a qualquer momento?  

No mundo do monitoramento da experiência digital (DEM), o monitoramento proativo é a melhor abordagem para se manter ao abrigo de interrupções e falhas inesperadas. Mas é difícil acreditar na promessa de uma contínua busca por sinais de problemas – até que a vemos em ação. 

A falha na transmissão da Comcast foi uma oportunidade estranha para a equipe que estava dando os toques finais no lançamento das atualizações de nossa solução de monitoramento, programado para o dia seguinte. Mas então, como a equipe de TI conseguiu fazer isso? Vejamos como nossa TI utilizou o monitoramento proativo na nuvem para ajudar-nos a manter nossa produtividade durante a interrupção do serviço.

Usamos a Zscaler Digital Experience (ZDX) na plataforma da Zscaler para monitorar e diagnosticar o desempenho dos aplicativos usados pelos funcionários da Zscaler. Na noite do dia 8 de novembro, começamos a observar uma grave degradação do desempenho que afetava vários aplicativos críticos utilizados por nossos funcionários. A ZDX mostrava áreas problemáticas em todo o país, mas com uma notável concentração na região da baía de San Francisco. Dada a alta concentração de nossos funcionários ali, decidimos investigar. A classificação da ZDX para esses aplicativos críticos, embora normalmente seja verde, havia caído precipitadamente para a categoria OK/ruim, acompanhada de um acentuado aumento no tempo de carregamento de páginas web. Veja a Figura 1.

A ZDX monitora a experiência de todos os funcionários da Zscaler, usando-os como "olhos" e "ouvidos" para monitorar as degradações de aplicativos. Nesse caso, ela observou um comportamento anômalo vindo de áreas da Comcast com alta intensidade de uso espalhadas por toda a área da baía. Nas Figuras 2 e 3 podemos ver a experiência dos funcionários da Zscaler antes e durante o corte: 

Uma vez identificada a existência de um número significativo de funcionários tendo problemas em uma região de alta concentração, o passo seguinte foi isolar a causa do problema. Como a ZDX utiliza o mesmo agente que opera nossa solução de segurança na nuvem, o Zscaler Internet Access, (ZIA), tivemos acesso em tempo quase real a uma enorme quantidade de dados de toda nossa base de funcionários para fazer uma análise. A ZDX faz a medição de três pontos de vista diferentes: o aplicativo, a rede e o terminal do usuário. Uma análise rápida excluiu o aplicativo e o terminal do usuário, assim concentramos o diagnóstico no problema de rede.

Examinamos os dados do ZDX CloudPath, que mede a latência salto a salto e a perda de pacotes entre o terminal do usuário e o aplicativo, e rapidamente isolamos um problema no ISP. O CloudPath  ajudou-nos a descartar problemas com o wi-fi, problemas na nuvem da Zscaler e no backbone da internet. Isso nos mostrou que cada usuário afetado era cliente da Comcast, e que toda a degradação ocorria entre o gateway do usuário e a Comcast. 

A Figura 4 mostra como o CloudPath indica que a falha estava no salto entre o gateway do usuário e a Comcast, mostrando latência excessiva e corte total (às vezes não havia nenhuma conexão). Ele também mostrou que o wi-fi estava ok (com latência mínima), e que não era possível fazer a conexão da Comcast para a nuvem da Zscaler.

Hoje dependemos da internet, achamos que ela sempre vai estar lá, especialmente porque a maioria dos ISPs tem redes altamente resilientes para fornecer conectividade de banda larga de alta velocidade até nossas casas. Mas, assim como qualquer sistema complexo, quando ocorre um problema, o desempenho da internet pode ficar extremamente imprevisível e acabar sendo degradado. O monitoramento proativo, junto com os efeitos de rede do monitoramento de cada usuário, ajudam a fazer uma medição para fins de controle e previsibilidade. 

Confira a Zscaler Digital Experience para saber como você pode ajudar sua força de trabalho distribuída a manter sua produtividade.

form submtited
Obrigado por ler

Esta postagem foi útil??

Receba as últimas atualizações do blog da Zscaler na sua caixa de entrada

Ao enviar o formulário, você concorda com nossa política de privacidade.