Einführung in PySpark

MittelSchwierigkeitsgrad

Aktualisiert 01/2026

Mit PySpark meisterst du Big Data ganz einfach. Hier lernst du, wie du riesige Datensätze für Analysen bearbeitest, abfragst und optimierst.

Kursbeschreibung

Dieser Kurs richtet sich an Data Engineers, Data Scientists und Menschen mit Interesse an maschinellem Lernen, die mit großen Datensätzen effizient arbeiten wollen. Egal, ob du von Tools wie Pandas kommst oder dich zum ersten Mal mit Big-Data-Technologien beschäftigst – dieser Kurs bietet dir eine solide Einführung in PySpark und verteilte Datenverarbeitung.

Warum Spark? Warum gerade jetzt?

Entdecke die Geschwindigkeit und Skalierbarkeit von Apache Spark, dem leistungsstarken Framework für die Verarbeitung von Big Data. Durch interaktive Lektionen und praktische Übungen wirst du sehen, wie die In-Memory-Verarbeitung von Spark einen Vorteil gegenüber traditionellen Frameworks wie Hadoop bietet. Du beginnst damit, Spark-Sessions einzurichten und dich mit Kernkomponenten wie Resilient Distributed Datasets (RDDs) und DataFrames auseinanderzusetzen. Lerne, wie du Datensätze ganz einfach filtern, gruppieren und zusammenführen kannst, indem du an Beispielen aus der Praxis arbeitest.

Verbesser deine Python- und SQL-Kenntnisse für Big Data

Lerne, wie du PySpark SQL für Abfragen und die Verwaltung von Daten mit der bekannten SQL-Syntax nutzen kannst. Lerne Schemata, komplexe Datentypen und benutzerdefinierte Funktionen (UDFs) kennen und baue parallel dazu deine Fähigkeiten im Bereich Caching und Leistungsoptimierung für verteilte Systeme aus.

Lege die Grundlagen für deine Big Data Kompetenz

Am Ende dieses Kurses wirst du mit PySpark sicher umgehen können, um Big Data abfragen und verarbeiten zu können. Diese grundlegenden Fähigkeiten befähigen dich dazu, fortgeschrittene Themen wie maschinelles Lernen und Big-Data-Analysen in Angriff zu nehmen.

Voraussetzungen

Introduction to SQL Data Manipulation with pandas

Einführung in Apache Spark und PySpark

Eine allgemeine Einführung in PySpark und verteilte Berechnungen. Dieser Abschnitt stellt PySpark, PySpark DataFrames und RDDs vor.

Kursbeschreibung

Warum Spark? Warum gerade jetzt?

Verbesser deine Python- und SQL-Kenntnisse für Big Data

Lege die Grundlagen für deine Big Data Kompetenz

Leistungsnachweis verdienen

Schließe dich .css-nklxlk{color:var(--wf-brand--main, #03EF62);}19 Millionen Lernenden an und starte Einführung in PySpark heute!

Kostenloses Konto erstellen

DataCamp gibt es auch für Mobilgeräte

Schließe dich 19 Millionen Lernenden an und starte Einführung in PySpark heute!