Por que isso é anômalo? Por que a pontuação da anomalia não é maior? A detecção de anomalias é um recurso valioso de aprendizado de máquina usado em Segurança Elástica e Observação. Mas, caramba, esses números podem parecer confusos. Se ao menos alguém pudesse explicá-los em linguagem clara. Ou, melhor ainda, desenhar uma imagem.
No Elastic 8.6, mostramos detalhes extra para os registos de anomalias. Estes detalhes permitem olhar para trás das cortinas do algoritmo de pontuação de anomalias.
Já escrevemos sobre pontuação e normalização de anomalias neste blog antes. O algoritmo de detecção de anomalias analisa séries temporais de dados de forma online. Ele identifica tendências e padrões periódicos em diferentes escalas de tempo, como um dia, uma semana, um mês ou um ano. Os dados do mundo real geralmente são uma mistura de tendências e padrões periódicos em diferentes escalas de tempo. Além disso, o que primeiro se parece com uma anomalia pode se tornar um padrão recorrente emergente.
O trabalho de detecção de anomalias surge com hipóteses explicando os dados. Pesa e mistura estas hipóteses usando a evidência fornecida. Todas as hipóteses são distribuições de probabilidade. Por isso, podemos dar um intervalo de confiança sobre quão “normais” são as observações. Observações que caem fora deste intervalo de confiança são anômalas.
Agora, você provavelmente pensa: Bem, essa teoria é direta. Mas uma vez que vemos algum comportamento inesperado, como quantificamos o quão fora do comum é?
Três fatores podem constituir o escore inicial de anomalia que damos aos registros:
- Único impacto da cubeta
- Multi balde de impacto
- Impacto das características anômalas
Para o lembrar, as tarefas de detecção de anomalias dividem os dados da série temporal em intervalos de tempo. Os dados dentro de um intervalo são agregados usando funções. A detecção de anomalias está acontecendo nos valores do balde. Leia este post para saber mais sobre baldes e por que escolher o intervalo de balde correto é crítico.
Primeiro, olhamos para a probabilidade do valor real no balde, dada a mistura de hipóteses. Essa probabilidade depende de quantos valores semelhantes vimos no passado. Muitas vezes, relaciona-se com a diferença entre o valor real e o valor típico. O valor típico é o valor mediano da distribuição de probabilidade do intervalo. Esta probabilidade leva ao impacto do intervalo único. Ele geralmente domina a pontuação de anomalia inicial de um curto pico ou mergulho.
Em segundo lugar, olhamos para as probabilidades de observar os valores nos valores de balde atuais em conjunto com os 11 baldes anteriores. As diferenças acumuladas entre os valores reais e típicos resultam no impacto multi balde na pontuação de anomalia inicial do balde atual.
Vamos nos debruçar sobre essa ideia, já que o impacto multi balde é a segunda causa mais comum de confusão sobre as pontuações de anomalia. Analisamos os desvios combinados em 12 baldes e atribuímos o impacto ao balde atual. Alto impacto multi balde indica comportamento incomum no intervalo anterior ao balde atual. Não importa que o valor do balde atual pode estar de volta dentro do intervalo de confiança de 95%.
Para destacar essa diferença, até usamos diferentes marcadores para anomalias com alto impacto multi balde. Se você olhar atentamente para a anomalia multi balde na figura acima, você pode ver que a anomalia é marcada com um sinal de cruz “+” em vez de um círculo.
Finalmente, consideramos o impacto das características da anomalia, como o comprimento e o tamanho. Aqui temos em conta a duração total da anomalia até agora, não um intervalo fixo como acima. Pode ser um balde ou trinta. A comparação do comprimento e tamanho da anomalia com as médias históricas permite a adaptação ao domínio do cliente e aos padrões nos dados.
Além disso, o comportamento padrão do algoritmo é marcar anomalias mais longas do que picos de curta duração. Na prática, anomalias curtas geralmente acabam sendo falhas nos dados, enquanto anomalias longas são algo que você precisa reagir.
Por que precisamos de ambos os fatores com intervalos fixos e variáveis? A combinação deles leva a uma detecção mais confiável de comportamento anormal em vários domínios.
Agora, é hora de falar sobre a fonte mais comum de confusão de pontuação: renormalização de pontuação. As pontuações das anomalias são normalizadas no intervalo entre 0 e 100. Os valores perto de 100 significam as maiores anomalias que o trabalho já viu até à data. Isso significa que quando vemos uma anomalia maior do que nunca, precisamos reduzir as pontuações de anomalias anteriores.
Os três fatores descritos acima impactam o valor do escore inicial de anomalia. A pontuação inicial é importante porque o operador é alertado com base nesse valor. À medida que novos dados chegam, o algoritmo de detecção de anomalias ajusta as pontuações de anomalias dos registros anteriores. O parâmetro de configuração renormalization_window_days especifica o intervalo de tempo para esse ajuste. Portanto, se você está se perguntando por que uma anomalia extrema mostra uma baixa pontuação de anomalia, pode ser porque o trabalho viu anomalias ainda mais significativas mais tarde.
O Visualizador Métrico Único no Kibana versão 8.6 destaca essa mudança.
Mais dois fatores podem levar à redução do escore inicial: intervalo de variância elevado e balde incompleto.
A detecção de anomalias é menos confiável se o balde atual faz parte de um padrão sazonal com alta variabilidade nos dados. Por exemplo, você pode ter trabalhos de manutenção do servidor em execução todas as noites à meia-noite. Esses trabalhos podem levar a uma alta variabilidade na latência do processamento de solicitações.
Além disso, é mais confiável se o balde atual recebeu um número semelhante de observações como historicamente esperado.
Muitas vezes, as anomalias do mundo real exibem os impactos de vários fatores. Ao todo, a nova visão detalhada do visualizador de uma única métrica pode ter a seguinte aparência.
O artigo traduzido pode ser encontrado em:
Publicado por Valeriy Khakhutskyy, 17 de janeiro de 2023.