Vai al contenuto principale

Corso

Introduzione all'Anomaly Detection in R

IntermedioLivello di competenza

Aggiornato 09/2024

Impara i test statistici per trovare i valori anomali e come usare algoritmi avanzati per calcolare il punteggio delle anomalie.

Inizia il corso gratis

RProbability & Statistics

4 h

13 video

47 Esercizi

3,900 XP

7,338

Attestato di conseguimento

Preferito dagli studenti di migliaia di aziende

Formare un team?

Prova per il Business

Descrizione del corso

Ti preoccupano record imprecisi o sospetti nei tuoi dati, ma non sai da dove iniziare? Un algoritmo di anomaly detection può aiutarti! L'anomaly detection è un insieme di tecniche pensate per identificare punti dati insoliti ed è fondamentale per rilevare frodi e proteggere le reti informatiche da attività dannose. In questo corso esplorerai test statistici per individuare gli outlier e imparerai a usare sofisticati algoritmi di punteggio delle anomalie come il local outlier factor e l'isolation forest. Metterai in pratica questi algoritmi per riconoscere vini insoliti nel dataset UCI Wine Quality e per rilevare casi di patologie tiroidee da misurazioni ormonali anomale.

Prerequisiti

1

Rilevamento statistico degli outlier

In questo capitolo vedrai come i riepiloghi numerici e grafici possano essere usati per valutare in modo informale se i dati contengono punti insoliti. Userai una procedura statistica chiamata test di Grubbs per verificare se un punto è un outlier e conoscerai l'algoritmo Seasonal-Hybrid ESD, che può aiutare a individuare outlier quando i dati sono una serie temporale.

Cosa intendiamo quando parliamo di anomalie?

Riconoscere i tipi di anomalie

Esplorare i dati sui nitrati del fiume

Mettere alla prova gli estremi con il test di Grubbs

Verifica visiva di normalità

Test di Grubbs

Caccia a più outlier con il test di Grubbs

Anomalie nelle serie temporali

Valutazione visiva della stagionalità

Algoritmo Seasonal Hybrid ESD

Interpretare l'output di Seasonal-Hybrid ESD

Seasonal-Hybrid ESD contro il test di Grubbs

Inizia il capitolo

2

Anomaly detection basata su distanza e densità

In questo capitolo imparerai a calcolare la distanza dei k-nearest neighbors e il local outlier factor, utilizzati per costruire punteggi continui di anomalia per ciascun punto dati quando i dati hanno più caratteristiche. Capirai la differenza tra anomalie locali e globali e come i due algoritmi possano aiutare in ciascun caso.

Punteggio della distanza k-nearest neighbors

Esplorare il vino

Matrice delle distanze kNN

Punteggio di distanza kNN

Visualizzare la distanza kNN

Standardizzare le feature

Aggiungere il punteggio kNN

Visualizzare il punteggio di distanza kNN

Fattore di anomalia locale

Calcolo del LOF

Visualizzazione LOF

Inizia il capitolo

3

Isolation forest

k-nearest neighbors distance e local outlier factor usano la distanza o la densità relativa dei vicini più prossimi per assegnare un punteggio a ciascun punto. In questo capitolo esplorerai un approccio alternativo basato su alberi chiamato isolation forest, un metodo rapido e robusto per rilevare anomalie che misura quanto facilmente i punti possano essere separati dividendo casualmente i dati in regioni via via più piccole.

Alberi di isolamento

Esegui il fit e prevedi con un isolation tree

Interpretazione dei punteggi

Isolation forest

Adatta un isolation forest

Verifica della convergenza

Visualizzare l'isolation score

Una griglia di punti

Predizione su una griglia

Curve di anomalia

Inizia il capitolo

4

Confronto delle prestazioni

Ora hai conosciuto diversi algoritmi per il punteggio delle anomalie. In questo capitolo finale imparerai a confrontare le prestazioni di rilevamento degli algoritmi nei casi in cui siano disponibili anomalie etichettate. Imparerai a calcolare e interpretare le statistiche di precision e recall per un punteggio di anomalia e come adattare gli algoritmi per gestire dati con caratteristiche categoriche.

Anomalie etichettate

Dati sulla tiroide

Visualizing thyroid disease

Punteggio di anomalia

Misurare le prestazioni

Punteggi binarizzati

Tabella a doppia entrata per punteggi binari

Precision e recall per la tiroide

Lavorare con le caratteristiche categoriche

Conversione da character a factor

Isolation forest con variabili categoriche

LOF con fattori

Inizia il capitolo

Introduzione all'Anomaly Detection in R

Corso
completato

Ottieni Attestato di conseguimento

Aggiungi questa certificazione al tuo profilo LinkedIn, al curriculum o al CV
Condividila sui social e nella valutazione delle tue performanceIscriviti ora

Unisciti a oltre 19 milioni di studenti e inizia Introduzione all'Anomaly Detection in R oggi!

Aumenta le tue competenze sui dati con l'app di DataCamp

Avanza ovunque ti trovi con i nostri corsi per dispositivi mobili e le nostre sfide di programmazione quotidiane da 5 minuti.