Machine Learning met PySpark

GevorderdVaardigheidsniveau

Bijgewerkt 11-2025

Cursusbeschrijving

Vereisten

Supervised Learning with scikit-learn Introduction to PySpark

Introductie

Spark is een framework om met Big Data te werken. In dit hoofdstuk behandel je wat achtergrond over Spark en Machine Learning. Daarna leer je hoe je via Python verbinding maakt met Spark en CSV-data laadt.

Machine Learning & Spark

50 XP

Kenmerken van Spark

50 XP

Onderdelen in een Spark-cluster

50 XP

Verbinden met Spark

50 XP

Locatie van de Spark-master

50 XP

Een SparkSession maken

100 XP

Gegevens laden

50 XP

Vluchtgegevens laden

100 XP

SMS-spamgegevens laden

100 XP

Hoofdstuk beginnen

Classificatie

Nu je weet hoe je data in Spark krijgt, ga je twee soorten classificatiemodel bouwen: beslissingsbomen en logistische regressie. Je ontdekt ook een paar aanpakken voor datapreparatie.

Gegevens voorbereiden

50 XP

Kolommen en rijen verwijderen

100 XP

Kolommen bewerken

100 XP

Categorische kolommen

100 XP

Kolommen samenvoegen

100 XP

Beslissingsboom

50 XP

Train/test-split

100 XP

Bouw een Decision Tree

100 XP

Evalueer de Decision Tree

100 XP

Logistic Regression

50 XP

Bouw een Logistic Regression-model

100 XP

Evalueer het Logistic Regression-model

100 XP

Tekst omzetten naar tabellen

50 XP

Leestekens, cijfers en tokens

100 XP

Stopwoorden en hashing

100 XP

Een spam-classifier trainen

100 XP

Hoofdstuk beginnen

Regressie

Vervolgens leer je Lineaire Regressiemodellen maken. Ook ontdek je hoe je je data kunt uitbreiden door nieuwe voorspellers te engineeren en een robuuste aanpak om alleen de meest relevante voorspellers te selecteren.

One-hot encoding

50 XP

Vertalen van vertrek luchthaven naar encodering

100 XP

T-shirtmaten encoden

50 XP

Regressie

50 XP

Model vluchtduur: Alleen afstand

100 XP

De coëfficiënten interpreteren

100 XP

Model voor vluchtduur: vertrekairport toevoegen

100 XP

Coëfficiënten interpreteren

100 XP

Bucketing & features ontwerpen

50 XP

Vertrekken in tijdsvakken (bucketing)

100 XP

Model vluchttijd: vertrektijd toevoegen

100 XP

Regularisatie

50 XP

Vliegtijdmodel: Meer features!

100 XP

Model voor vluchttijd: regularisatie!

100 XP

Hoofdstuk beginnen

Ensembles & Pipelines

Tot slot leer je hoe je je modellen efficiënter maakt. Je ziet hoe je pipelines gebruikt om je code duidelijker en makkelijker te onderhouden. Daarna gebruik je cross-validatie om je modellen beter te testen en goede modelparameters te kiezen. Ten slotte ga je aan de slag met twee soorten ensemblemodellen.

Pipeline

50 XP

Model voor vluchtduur: Pipeline-stappen

100 XP

Model vluchtduur: pipelinemodel

100 XP

SMS-spam-pipeline

100 XP

Cross-validation

50 XP

Cross-validatie voor een simpel model van vluchtduur

100 XP

Cross-validatie van een pipeline voor het model van vluchttijd

100 XP

Grid Search

50 XP

Linear regression voor vluchten optimaliseren

100 XP

Het beste model voor vluchtduur ontleden

100 XP

SMS-spam geoptimaliseerd

100 XP

Hoeveel modellen bij grid search?

50 XP

Ensemble

50 XP

Vertraagde vluchten met Gradient-Boosted Trees

100 XP

Vertraagde vluchten met een Random Forest

100 XP

Random Forest evalueren

100 XP

Tot slot

50 XP

Hoofdstuk beginnen

Machine Learning met PySpark

Cursus
voltooid

Verdien een prestatieverklaring

Voeg deze referentie toe aan je LinkedIn-profiel, cv of curriculum vitae
Deel het op sociale media en in je functioneringsgesprekSchrijf je nu in

Machine Learning met PySpark

Een team trainen?

Cursusbeschrijving

Vereisten

Introductie

Classificatie

Regressie

Ensembles & Pipelines

Verdien een prestatieverklaring

Sluit je aan bij meer dan 19 miljoen leerlingen en start vandaag nog met Machine Learning met PySpark!

Ontwikkel je datavaardigheden met DataCamp voor Mobiel

Cursusbeschrijving

Verdien een prestatieverklaring

Sluit je aan bij meer dan .css-nklxlk{color:var(--wf-brand--main, #03EF62);}19 miljoen leerlingen en start vandaag nog met Machine Learning met PySpark!

Maak je kosteloos account aan

Ontwikkel je datavaardigheden met DataCamp voor Mobiel

Sluit je aan bij meer dan 19 miljoen leerlingen en start vandaag nog met Machine Learning met PySpark!