Ga naar hoofdinhoud

Cursus

Data opschonen met PySpark

GevorderdVaardigheidsniveau

Bijgewerkt 02-2026

Start Cursus Kosteloos

SparkData Preparation

4 u

16 videos

53 Opdrachten

4,150 XP

33,192

Bewijs van Prestatie

Geliefd bij leerlingen van duizenden bedrijven

Een team trainen?

Probeer voor bedrijven

Cursusbeschrijving

Werken met data is lastig — werken met miljoenen of zelfs miljarden rijen is nog lastiger. Heb je verwerkingscode gekregen die op een laptop is geschreven met vrij schone data? Grote kans dat jij nu verantwoordelijk bent om een basisproces van prototype naar productie te brengen. Misschien heb je gewerkt met echte gegevenssets, met ontbrekende velden, bizarre opmaak en ordes van grootte meer data. Ook als dit allemaal nieuw voor je is, helpt deze cursus je te leren wat je nodig hebt om dataprocessen voor te bereiden met Python en Apache Spark. Je leert terminologie, methoden en een aantal best practices om een performante, onderhoudbare en begrijpelijke gegevensverwerkingsomgeving te bouwen.

Vereisten

Intermediate Python Introduction to PySpark

1

DataFrame-details

Een herhaling van de basis van DataFrames en het belang van data opschonen.

Introductie tot data opschonen met Apache Spark

Herhaling: data opschonen

Een schema definiëren

Immutabiliteit en lui verwerken

Herhaling: onveranderlijkheid

Lui verwerken gebruiken

Parquet begrijpen

Een DataFrame opslaan in Parquet-indeling

SQL en Parquet

Hoofdstuk beginnen

2

DataFrames bewerken in de praktijk

Een blik op verschillende technieken om de inhoud van DataFrames in Spark te wijzigen.

Bewerkingen op DataFrame-kolommen

Kolominhoud filteren met Python

Filtervraag #1

Filtervraag #2

DataFrame-kolommen aanpassen

Voorwaardelijke bewerkingen op DataFrame-kolommen

when()-voorbeeld

When / Otherwise

Door de gebruiker gedefinieerde functies

Inzicht in user defined functions

User Defined Functions gebruiken in Spark

Partitioneren en lui verwerken

Een ID-veld toevoegen

ID's met verschillende partities

Meer ID-trucs

Hoofdstuk beginnen

3

Prestaties verbeteren

Verbeter taken voor het opschonen van data door prestaties te verhogen of het middelengebruik te verlagen.

Een DataFrame cachen

Een DataFrame uit de cache verwijderen

Importprestatie verbeteren

Bestandsgrootte optimaliseren

Prestaties van bestandsimport

Clusterconfiguraties

Spark-configuraties uitlezen

Spark-configuraties schrijven

Prestatieverbeteringen

Normale joins

Broadcasting gebruiken bij Spark-joins

Broadcast-joins versus normale joins vergelijken

Hoofdstuk beginnen

4

Complexe verwerking en datapijplijnen

Leer complexe, realistische data verwerken met Spark en de basis van pijplijnen.

Introductie tot datapijplijnen

Snelle pipeline

Probleem met pijplijndata

Technieken voor gegevensverwerking

Commentaarregels verwijderen

Ongeldige rijen verwijderen

Splitsen in kolommen

Verder parsen

Gegevensvalidatie

Rijen valideren via join

Ongeldige rijen onderzoeken

Definitieve analyse en oplevering

Honden parsen

Aantal per afbeelding

Percentage hondpixels

Gefeliciteerd en de volgende stappen

Hoofdstuk beginnen

Data opschonen met PySpark

Cursus
voltooid

Verdien een prestatieverklaring

Voeg deze referentie toe aan je LinkedIn-profiel, cv of curriculum vitae
Deel het op sociale media en in je functioneringsgesprekSchrijf je nu in

Sluit je aan bij meer dan 19 miljoen leerlingen en start vandaag nog met Data opschonen met PySpark!

Ontwikkel je datavaardigheden met DataCamp voor Mobiel

Maak vooruitgang onderweg met onze mobiele cursussen en dagelijkse 5-minuten programmeeruitdagingen.