Novo serviço da AWS usa ML no desenvolvimento de aplicativos na Nuvem

30

Amazon DevOps Guru identifica o comportamento anômalo do aplicativo e recomenda ações específicas para a correção

A Amazon Web Services (AWS) anunciou a disponibilidade geral do Amazon DevOps Guru, um serviço de operações totalmente gerenciado que usa Machine Learning para tornar mais fácil o desenvolvimento de aplicativos, detectando automaticamente problemas operacionais e recomendando ações específicas para correção. Ao identificar o comportamento anômalo do aplicativo que pode causar possíveis interrupções no serviço, o sistema alerta os desenvolvedores com detalhes do problema para ajudá-los a compreender rapidamente o impacto potencial e as prováveis ​​causas do problema, com recomendações específicas para correção.

Os desenvolvedores podem usar as sugestões de remediação sugeridos pelo DevOps Guru para reduzir o tempo de resolução quando surgem problemas e melhorar a disponibilidade do aplicativo, tudo sem configuração manual ou conhecimento de Machine Learning. Não há custos iniciais ou compromissos, os clientes pagam apenas pelos dados analisados.

Desafio

Segundo informações, à medida que mais organizações mudam para a implantação de aplicativos baseados em Nuvem e arquiteturas de microsserviços para escalar seus negócios, os aplicativos se tornam cada vez mais distribuídos e os desenvolvedores precisam de práticas mais automatizadas para manter a disponibilidade e reduzir o tempo e o esforço gastos na detecção, depuração e resolução de problemas operacionais. Os eventos de tempo de inatividade do aplicativo causados ​​por código com falha ou alterações de configuração, clusters de contêiner desequilibrados ou esgotamento de recursos (por exemplo, CPU, memória, disco etc.) inevitavelmente levam a experiências ruins para o cliente e a perda de receitas.

Publicações Relacionadas

As empresas investem uma quantidade considerável de recursos de desenvolvedor, tempo e dinheiro para implantar várias ferramentas de monitoramento, geralmente gerenciadas separadamente, e depois precisam desenvolver e manter alertas personalizados para problemas comuns, como picos nos erros do balanceador de carga ou quedas nas taxas de solicitação de aplicativos. Definir limites para identificar e alertar quando os recursos do aplicativo estão se comportando de maneira anormal é difícil de acertar, envolve configuração manual e requer limites que devem ser atualizados continuamente conforme o uso do aplicativo muda (por exemplo, um número excepcionalmente grande de solicitações durante uma promoção de vendas). Se um limite for definido muito alto, os desenvolvedores não verão os alarmes até que o desempenho operacional seja severamente afetado.

Quando um limite é definido muito baixo, os desenvolvedores obtêm muitos falsos positivos, que estão propensos a ignorar. Mesmo quando os desenvolvedores são alertados sobre um possível problema operacional, o processo de identificação da causa raiz ainda pode ser difícil. Usando as ferramentas existentes, os desenvolvedores muitas vezes têm dificuldade em triangular a causa raiz de um problema operacional a partir de gráficos e alarmes, e mesmo quando são capazes de encontrar a causa raiz, muitas vezes ficam sem as informações corretas para consertá-lo. Cada tentativa de solução de problemas é uma inicialização a frio em que as equipes devem passar horas ou dias identificando problemas, e isso leva a um trabalho demorado e tedioso que diminui o tempo de resolução de uma falha operacional e pode prolongar as interrupções do aplicativo.

Funcionamento

Os modelos de Machine Learning do Amazon DevOps Guru aproveitam mais de 20 anos de experiência operacional na criação, dimensionamento e manutenção de aplicativos altamente disponíveis para a Amazon.com. Isto dá a capacidade de detectar automaticamente problemas operacionais (por exemplo, alarmes ausentes ou configurados incorretamente, aviso prévio de esgotamento de recursos, alterações de configuração que podem levar a interrupções, etc.), fornecer contexto sobre os recursos envolvidos e eventos relacionados e recomendar ações de correção. Com apenas alguns cliques no console, aplicativos históricos e métricas de infraestrutura como latência, taxas de erro e taxas de solicitação de recursos são ingeridos automaticamente dos aplicativos AWS de um usuário e analisados ​​para estabelecer limites operacionais normais. O DevOps Guru então usa um modelo de Machine Learning pré-treinado para identificar desvios dessa linha de base estabelecida (por exemplo, capacidade de computação subprovisionada, utilização de I/O de banco de dados, vazamentos de memória etc.).

Quando o DevOps Guru analisa os dados do sistema e do aplicativo para detectar anomalias automaticamente, ele também agrupa esses dados em insights operacionais que incluem métricas anômalas, visualizações do comportamento do aplicativo ao longo do tempo e recomendações sobre ações para correção – tudo facilmente visível no console. Ele também correlaciona e agrupa métricas de aplicativos e infraestrutura relacionadas (por exemplo, picos de latência de aplicativos da Web, execução sem espaço em disco, implantações de código incorreto etc.) para reduzir alarmes redundantes e ajudar a focar os usuários em problemas de alta gravidade. Os clientes podem ver históricos de mudança de configuração e eventos de implantação, juntamente com a atividade do sistema e do usuário, para gerar uma lista priorizada de causas prováveis ​​para um problema operacional por meio de um painel no console.

Para ajudar os clientes a resolver problemas rapidamente, sistema fornece recomendações inteligentes com etapas de correção e se integra ao AWS Systems Manager para runbook e ferramentas de colaboração, oferecendo aos clientes a capacidade de manter aplicativos e gerenciar a infraestrutura de forma mais eficaz para suas implantações. Por exemplo, quando um aplicativo de análise usando o Amazon Relational Database Service (RDS) começa a exibir latências degradadas, o DevOps Guru detectará a mudança analisando automaticamente as métricas relevantes na camada do aplicativo, identificará a causa raiz subjacente (por exemplo, aumento do número de instâncias de computação simultâneas gravando em RDS) e fornecerá uma recomendação para resolver o problema.

você pode gostar também