Weiter zum Inhalt

Startseite Spark

Kurs

Grundlagen von Big Data mit PySpark

ExperteSchwierigkeitsgrad

Aktualisiert 02/2025

Dieser Kurs zeigt praxisnah, wie du in PySpark mit Big Data arbeitest.

Kurs kostenlos starten

SparkData Engineering

4 Std.

16 Videos

55 Übungen

4,600 XP

65,280

Leistungsnachweis

Beliebt bei Lernenden in Tausenden Unternehmen

Ein Team schulen?

Für Unternehmen ausprobieren

Kursbeschreibung

In den letzten Jahren wurde viel über Big Data geredet und in vielen Unternehmen ist dieses Thema endlich angekommen. Aber was ist mit Big Data eigentlich gemeint? Dieser Kurs vermittelt die Grundlagen von Big Data mit PySpark. Spark ist ein extrem schnelles Cluster-Computing-Framework für Big Data. Es bietet eine allgemeine Datenverarbeitungsplattform und lässt dich Programme bis zu 100x schneller im Speicher oder 10x schneller auf der Festplatte ausführen als Hadoop. Du verwendest PySpark, ein Python-Paket für die Spark-Programmierung, und seine leistungsstarken, höheren Bibliotheken wie SparkSQL, MLlib (für maschinelles Lernen) und so weiter. In Übungen untersuchst du die Werke von William Shakespeare, analysierst Daten zur FIFA-WM 2018 und führst Clustering mit Genom-Datensätzen durch. Am Ende dieses Kurses hast du ein tiefes Verständnis von PySpark und seiner Nutzung für allgemeine Big-Data-Analysen.

Voraussetzungen

Introduction to Python

1

Einführung in die Big-Data-Analyse mit Spark

Dieses Kapitel führt in die spannende Welt von Big Data ein und stellt die verschiedenen Konzepte und Frameworks für die Verarbeitung dieser riesigen Datenmengen vor. Du wirst verstehen, warum Apache Spark als bestes Framework für Big Data gilt.

Was ist Big Data?

Die drei Vs von Big Data

PySpark: Spark mit Python

SparkContext verstehen

Interaktive Nutzung von PySpark

Daten in die PySpark-Shell laden

Funktionale Programmierung in Python

Verwendung von lambda() mit map()

Verwendung von lambda() mit filter()

Kapitel starten

2

Programmieren in PySpark-RDDs

Die wichtigste Abstraktion, die Spark zur Verfügung stellt, ist ein fehlertoleranter verteilter Datensatz – Resilient Distributed Dataset (RDD) –, der die Grundlage und das Rückgrat dieser Engine bildet. Dieses Kapitel führt in RDDs ein und zeigt, wie sie mit RDD-Transformationen und -Aktionen erstellt und ausgeführt werden.

Daten mit RDDs abstrahieren

RDDs aus parallelisierten Sammlungen

RDDs aus externen Datensätzen

Partitionen in deinen Daten

Grundlegende RDD-Transformationen und -Aktionen

Map und Collect

Filter und Count

RDDs in PySpark paaren

ReduceBykey und Collect

SortByKey und Collect

Fortgeschrittene RDD-Aktionen

CountingBykeys

Basis-RDD erstellen und transformieren

Stoppwörter entfernen und den Datensatz verkleinern

Worthäufigkeiten ausgeben

Kapitel starten

3

PySpark SQL & DataFrames

In diesem Kapitel lernst du Spark SQL kennen. Dabei handelt es sich um ein Spark-Modul für die strukturierte Datenverarbeitung. Es bietet eine Programmierabstraktion namens DataFrames und kann auch als verteilte SQL Query Engine fungieren. Dieses Kapitel zeigt, wie du DataFrames mithilfe von Spark SQL in Python nutzen kannst.

Daten mit DataFrames abstrahieren

Vom RDD zum DataFrame

CSV-Daten in einen DataFrame laden

Operationen mit DataFrames in PySpark

Daten in einem PySpark-DataFrame inspizieren

PySpark-DataFrame unterteilen und bereinigen

Den DataFrame filtern

Interaktion mit DataFrames mittels PySpark SQL

SQL-Abfragen programmatisch ausführen

SQL-Abfragen zum Filtern von Tabellen

Datenvisualisierung in PySpark mit DataFrames

PySpark-DataFrames visualisieren

Teil 1: DataFrame aus einer CSV-Datei erstellen

Teil 2: SQL-Abfragen bei einem DataFrame

Teil 3: Datenvisualisierung

Kapitel starten

4

Maschinelles Lernen mit PySpark MLlib

PySpark MLlib ist die skalierbare Bibliothek von Apache Spark für maschinelles Lernen in Python und besteht aus gängigen Lernalgorithmen und Dienstprogrammen. In diesem letzten Kapitel lernst du wichtige Algorithmen für maschinelles Lernen kennen. Du erstellst eine Engine für Filmempfehlungen und einen Spam-Filter und wendest k-Means-Clustering an.

Überblick über PySpark MLlib

ML-Bibliotheken von PySpark

Algorithmen von PySpark MLlib

Kollaboratives Filtern

„MovieLens“-Datensatz in RDDs laden

Modelltraining und Vorhersagen

Modellbewertung mit MSE

Klassifikation

Laden von Spam- und Nicht-Spam-Daten

Merkmals-Hashing und LabeledPoint

Training des logistischen Regressionsmodells

Laden und Parsen von 5000 Datenpunkten

k-Means-Training

Cluster visualisieren

Glückwunsch!

Kapitel starten

Grundlagen von Big Data mit PySpark

Kurs
abgeschlossen

Leistungsnachweis verdienen

Füge diesen Fähigkeitsnachweis zu deinem LinkedIn-Profil, Anschreiben oder Lebenslauf hinzu
Teile es auf Social Media und in deiner LeistungsbeurteilungJetzt anmelden

Schließe dich 19 Millionen Lernenden an und starte Grundlagen von Big Data mit PySpark heute!

DataCamp gibt es auch für Mobilgeräte

Mit unseren Kursen für Mobilgeräte und täglichen Programmier-Challenges erweiterst du deine Datenkompetenz von unterwegs.