Pular para o conteúdo principal

Curso

Introduction to Anomaly Detection in R

IntermediárioNível de habilidade

Atualizado 09/2024

Aprenda testes estatísticos para identificar valores atípicos e como usar algoritmos sofisticados de pontuação de anomalias.

Iniciar curso gratuitamente

RProbability & Statistics

4 h

13 vídeos

47 Exercícios

3,900 XP

7,337

Declaração de realização

Preferido por alunos de milhares de empresas

Treinando uma equipe?

Experimente para Empresas

Descrição do curso

Você está preocupado com registros imprecisos ou suspeitos nos seus dados, mas não sabe por onde começar? Um algoritmo de detecção de anomalias pode ajudar! A detecção de anomalias reúne técnicas feitas para identificar pontos de dados fora do padrão e é essencial para detectar fraudes e proteger redes de computador contra atividades maliciosas. Neste curso, você vai explorar testes estatísticos para identificar outliers e aprender a usar algoritmos avançados de pontuação de anomalias, como o local outlier factor e o isolation forest. Você aplicará algoritmos de detecção de anomalias para encontrar vinhos incomuns no conjunto de dados UCI Wine Quality e também para detectar casos de doença da tireoide a partir de medições anormais de hormônios.

Pré-requisitos

1

Detecção estatística de outliers

Neste capítulo, você vai aprender como resumos numéricos e gráficos podem ser usados para avaliar, de forma informal, se há pontos incomuns nos dados. Você usará um procedimento estatístico chamado teste de Grubbs para verificar se um ponto é um outlier e conhecerá o algoritmo Seasonal-Hybrid ESD, que ajuda a identificar outliers quando os dados formam uma série temporal.

O que queremos dizer quando falamos em anomalias?

Reconhecendo tipos de anomalias

Explorando os dados de nitrato do rio

Testando os extremos com o teste de Grubbs

Verificação visual de normalidade

Teste de Grubbs

Caçando múltiplos outliers com o teste de Grubbs

Anomalias em séries temporais

Avaliação visual da sazonalidade

Algoritmo Seasonal Hybrid ESD

Interpretando a saída do Seasonal-Hybrid ESD

Seasonal-Hybrid ESD versus o teste de Grubbs

Iniciar capítulo

2

Detecção de anomalias baseada em distância e densidade

Neste capítulo, você vai aprender a calcular a distância dos k-vizinhos mais próximos e o local outlier factor, que são usados para construir escores contínuos de anomalia para cada ponto de dados quando há múltiplas variáveis. Você também vai entender a diferença entre anomalias locais e globais e como cada um dos dois algoritmos pode ajudar em cada caso.

Pontuação de distância dos k-vizinhos mais próximos

Explorando vinhos

Matriz de distâncias kNN

Pontuação de distância kNN

Visualizando a distância kNN

Padronizando variáveis

Anexando o score de kNN

Visualizando a pontuação de distância kNN

Fator de outlier local

Cálculo do LOF

Visualização do LOF

Iniciar capítulo

3

Isolation forest

A distância dos k-vizinhos mais próximos e o local outlier factor usam a distância ou a densidade relativa dos vizinhos mais próximos para pontuar cada ponto. Neste capítulo, você vai explorar uma abordagem alternativa baseada em árvores chamada isolation forest, que é um método rápido e robusto para detectar anomalias e mede quão facilmente os pontos podem ser separados ao dividir os dados aleatoriamente em regiões cada vez menores.

Árvores de isolamento

Ajuste e preveja com uma isolation tree

Interpretação de pontuações

Isolation forest

Ajustar uma isolation forest

Verificando a convergência

Visualizando o isolation score

Uma grade de pontos

Predição em uma malha

Curvas de anomalia

Iniciar capítulo

4

Comparando desempenho

Agora você conheceu alguns algoritmos diferentes para pontuação de anomalias. Neste capítulo final, você aprenderá a comparar o desempenho de detecção dos algoritmos em situações em que existem anomalias rotuladas. Você vai calcular e interpretar as métricas de precisão (precision) e revocação (recall) de um escore de anomalia e verá como adaptar os algoritmos para acomodar dados com variáveis categóricas.

Anomalias rotuladas

Dados de tireoide

Visualizing thyroid disease

Pontuação de anomalia

Medindo o desempenho

Pontuações binarizadas

Tabelar cruzado de escores binários

Precisão e recall da tireoide

Trabalhando com variáveis categóricas

Convertendo character para factor

Isolation forest com fatores

LOF com fatores

Iniciar capítulo

Introduction to Anomaly Detection in R

Curso
concluído

Obtenha um certificado de conclusão

Adicione esta credencial ao seu perfil do LinkedIn, currículo ou CV
Compartilhe nas redes sociais e em sua avaliação de desempenhoInscreva-se agora

Faça como mais de 19 milhões de alunos e comece Introduction to Anomaly Detection in R hoje mesmo!

Desenvolva suas habilidades em dados com o app do DataCamp

Continue progredindo em qualquer lugar com nossos cursos para celular e desafios diários de programação de 5 minutos.