Ga naar hoofdinhoud

Cursus

Introductie tot anomaliedetectie in R

GemiddeldVaardigheidsniveau

Bijgewerkt 09-2024

Leer statistische tests om uitschieters te vinden en hoe je slimme algoritmes voor het scoren van afwijkingen kunt gebruiken.

Start Cursus Kosteloos

RProbability & Statistics

4 u

13 videos

47 Opdrachten

3,900 XP

7,338

Bewijs van Prestatie

Geliefd bij leerlingen van duizenden bedrijven

Een team trainen?

Probeer voor bedrijven

Cursusbeschrijving

Maak je je zorgen over onjuiste of verdachte records in je data, maar weet je niet waar je moet beginnen? Een anomaliedetectie-algoritme kan helpen! Anomaliedetectie is een verzameling technieken die zijn ontwikkeld om ongewone datapunten te identificeren en is cruciaal voor het opsporen van fraude en het beschermen van computernetwerken tegen schadelijke activiteiten. In deze cursus verken je statistische toetsen om uitschieters te identificeren en leer je geavanceerde anomaliescore-algoritmen gebruiken, zoals de local outlier factor en de isolation forest. Je past anomaliedetectie toe om ongewone wijnen te vinden in de UCI Wine Quality-gegevensset en om gevallen van schildklieraandoeningen te detecteren op basis van afwijkende hormoonmetingen.

Vereisten

1

Statistische detectie van uitschieters

In dit hoofdstuk leer je hoe numerieke en grafische samenvattingen kunnen helpen om informeel te beoordelen of data ongewone punten bevatten. Je gebruikt een statistische procedure genaamd de toets van Grubbs om te controleren of een punt een uitschieter is, en je leert over het Seasonal-Hybrid ESD-algoritme, dat kan helpen uitschieters te identificeren wanneer de data een tijdreeks vormen.

Wat bedoelen we als we het over anomalieën hebben?

Anomalietypen herkennen

De riviernitraatgegevens verkennen

Extremen testen met de Grubbs-test

Visuele controle op normaliteit

Grubbs-test

Meerdere uitschieters opsporen met de Grubbs-toets

Afwijkingen in tijdreeksen

Visuele beoordeling van seizoenspatronen

Seasonal Hybrid ESD-algoritme

De output van Seasonal-Hybrid ESD interpreteren

Seasonal-Hybrid ESD versus Grubbs' test

Hoofdstuk beginnen

2

Afstands- en dichtheidsgebaseerde anomaliedetectie

In dit hoofdstuk leer je hoe je de k-nearest neighbors-afstand en de local outlier factor berekent, die worden gebruikt om continue anomaliescores te construeren voor elk datapunt wanneer de data meerdere kenmerken hebben. Je leert het verschil tussen lokale en globale anomalieën en hoe beide algoritmen in elk geval kunnen helpen.

k-nearest neighbors-afstandsscore

Wijn verkennen

kNN-afstandsmatrix

kNN-afstandsscore

kNN-afstand visualiseren

Features standaardiseren

De kNN-score toevoegen

kNN-afstandsscore visualiseren

Local outlier factor

LOF-berekening

LOF-visualisatie

Hoofdstuk beginnen

3

Isolation forest

k-nearest neighbors-afstand en local outlier factor gebruiken de afstand of relatieve dichtheid van de naaste buren om elk punt te scoren. In dit hoofdstuk verken je een alternatieve boomgebaseerde aanpak, een isolation forest, een snelle en robuuste methode om anomalieën te detecteren die meet hoe gemakkelijk punten kunnen worden gescheiden door de data willekeurig in steeds kleinere regio’s te splitsen.

Isolation trees

Fitten en voorspellen met een isolation tree

Score-interpretatie

Isolation forest

Een isolation forest fitten

Convergentie controleren

De isolatiescore visualiseren

Een raster van punten

Voorspelling over een raster

Anomaly-contouren

Hoofdstuk beginnen

4

Prestaties vergelijken

Je hebt nu kennisgemaakt met een paar verschillende algoritmen voor het toekennen van anomaliescores. In dit laatste hoofdstuk leer je de detectieprestaties van de algoritmen te vergelijken in situaties waarin gelabelde anomalieën beschikbaar zijn. Je leert de precisie- en recall-statistieken voor een anomaliescore te berekenen en interpreteren, en hoe je de algoritmen kunt aanpassen zodat ze data met categorische kenmerken aankunnen.

Gelabelde anomalieën

Schildkliergegevens

Schildklieraandoening visualiseren

Anomaliescore

Prestaties meten

Gebinariseerde scores

Kruistabelle van binaire scores

Precisie en recall voor schildklier

Werken met categorische kenmerken

Tekst naar factor omzetten

Isolation forest met factoren

LOF met factoren

Hoofdstuk beginnen

Introductie tot anomaliedetectie in R

Cursus
voltooid

Verdien een prestatieverklaring

Voeg deze referentie toe aan je LinkedIn-profiel, cv of curriculum vitae
Deel het op sociale media en in je functioneringsgesprekSchrijf je nu in

Sluit je aan bij meer dan 19 miljoen leerlingen en start vandaag nog met Introductie tot anomaliedetectie in R!

Ontwikkel je datavaardigheden met DataCamp voor Mobiel

Maak vooruitgang onderweg met onze mobiele cursussen en dagelijkse 5-minuten programmeeruitdagingen.