Kurs
Top 11 Data Engineering Projekte für praktisches Lernen
Data Engineering unterstützt die Bewegung und Umwandlung von Daten. Da Unternehmen auf riesige Datenmengen angewiesen sind, um Erkenntnisse zu gewinnen und Innovationen voranzutreiben, steigt die Nachfrage nach Dateningenieuren weiter an.
Für Datenexperten bietet der Einstieg in Data-Engineering-Projekte eine Fülle von Möglichkeiten. Praktische Herausforderungen schärfen deine technischen Fähigkeiten und bieten ein greifbares Portfolio, mit dem du dein Wissen und deine Erfahrung präsentieren kannst.
In diesem Artikel habe ich eine Auswahl von Data-Engineering-Projekten zusammengestellt, die dir helfen sollen, deine Fähigkeiten zu verbessern und reale Datenherausforderungen selbstbewusst anzugehen!
Warum an Data Engineering-Projekten arbeiten?
Es ist wichtig, ein solides Verständnis für Data Engineering in Theorie und Praxis zu entwickeln. Wenn du diesen Artikel liest, weißt du das vielleicht schon, aber hier sind drei besondere Gründe, sich in diese Projekte zu stürzen:
Technische Fähigkeiten aufbauen
Data-Engineering-Projekte bieten praktische Erfahrungen mit Technologien und Methoden. Du wirst Kenntnisse in Programmiersprachen, Datenbankmanagement, Big Data Processing und Cloud Computing erwerben. Diese technischen Fähigkeiten sind grundlegend für die Arbeit in der Datentechnik und lassen sich in der gesamten Tech-Branche gut übertragen.
Portfolio-Entwicklung
Mit einem Portfolio von Data-Engineering-Projekten zeigst du potenziellen Arbeitgebern deine praktischen Fähigkeiten. Du stellst deine Fähigkeiten unter Beweis, indem du Implementierungen von Datenpipelines, Warehouse-Designs und Optimierungslösungen vorstellst.
Ein starkes Portfolio hebt dich auf dem Arbeitsmarkt von anderen Bewerbern ab und ergänzt deinen Lebenslauf mit realen Erfolgen.
Lernmittel und Technologien
Im Bereich des Data Engineering kommen verschiedene Tools und Technologien zum Einsatz. Bei der Arbeit an Projekten lernst du Frameworks für die Datenverarbeitung, Tools für das Workflow-Management und Visualisierungsplattformen kennen.
Durch diese praktische Erfahrung bleibst du auf dem neuesten Stand der Branchentrends und kannst dich in einer sich ständig weiterentwickelnden technologischen Landschaft besser anpassen.
Data Engineering Projekte für Anfänger
Diese Projekte zielen darauf ab, die wichtigsten Werkzeuge vorzustellen, die von Dateningenieuren verwendet werden. Beginne hier, wenn du neu in der Datentechnik bist oder eine Auffrischung brauchst.
Projekt 1: ETL-Pipeline mit offenen Daten (CSV zu SQL)
Bei diesem Projekt geht es darum, eine ETL-Pipeline mit einem öffentlich zugänglichen Datensatz zu erstellen, z. B. mit Wetter- oder Verkehrsdaten. Du extrahierst die Daten aus einer CSV-Datei, bereinigst und transformierst sie mit Python (mit einer Bibliothek wie Pandas) und lädst die transformierten Daten in Google BigQuery, ein cloudbasiertes Data Warehouse.
Dieses Projekt eignet sich hervorragend für Anfänger, da es die wichtigsten ETL-Konzepte - Datenextraktion, -umwandlung und -laden - vorstellt und gleichzeitig einen Einblick in Cloud-Tools wie BigQuery gibt.
Außerdem lernst du, wie du mit einfachen Werkzeugen wie Python und der BigQuery-API mit Cloud-Data-Warehouses interagieren kannst - eine der wichtigsten Fähigkeiten im modernen Data Engineering. Eine Einführung findest du im Einsteigerhandbuch zu BigQuery.
Was die Daten angeht, so kannst du einen verfügbaren Datensatz von Kaggle oder data.gov auswählen.
Ressourcen
Hier findest du einige Ressourcen, darunter GitHub-Repositories und Tutorials, die dir Schritt für Schritt helfen:
YouTube-Videos:
- ETL-Batch-Pipeline mit Cloud Storage, Dataflow und BigQuery: Dieses Video zeigt einen kompletten Anwendungsfall einer ETL-Batch-Pipeline, die in der Google Cloud eingesetzt wird, und veranschaulicht die Phasen der Extraktion, Transformation und des Ladens in BigQuery.
GitHub Repositories:
- End-to-End-Datenpipeline: Dieses Repository demonstriert eine vollautomatische Pipeline, die Daten aus CSV-Dateien extrahiert, sie mit Python und dbt transformiert und in Google BigQuery lädt.
- ETL-Pipeline mit Airflow und BigQuery: Dieses Projekt zeigt eine mit Apache Airflow orchestrierte ETL-Pipeline, die die Extraktion von Daten aus CSV-Dateien, die Transformation mit Python und das Laden in BigQuery automatisiert.
Kurse:
- ETL und ELT in Python: Lerne mehr über ETL-Prozesse in Python, indem du grundlegende Konzepte und praktische Implementierungen zum Aufbau von Datenpipelines kennenlernst.
- Die moderne Datenarchitektur verstehen: Dieser Kurs bietet einen umfassenden Überblick über moderne Datenarchitekturen und konzentriert sich auf Best Practices für das Verschieben und Strukturieren von Daten in Cloud-basierten Systemen wie BigQuery.
Entwickelte Fertigkeiten
- Daten aus CSV mit Python extrahieren
- Daten mit Python transformieren und bereinigen
- Daten mit Python und SQL in BigQuery laden
Projekt 2: Wetterdaten-Pipeline mit Python und PostgreSQL
Dieses Projekt führt angehende Datentechniker/innen in den grundlegenden Prozess des Aufbaus einer Datenpipeline ein und konzentriert sich dabei auf drei Kernaspekte der Datentechnik: Datensammlung, -bereinigung und -speicherung.
Mithilfe von Python holst du dir Wetterbedingungen und -vorhersagen für verschiedene Orte von leicht zugänglichen öffentlichen Wetter-APIs. Sobald die Wetterdaten erfasst sind, verarbeitest du die Rohdaten. Das kann bedeuten, dass du die Temperatureinheiten umrechnest, fehlende Werte behandelst oder Ortsnamen standardisierst. Schließlich speicherst du die bereinigten Daten in einer PostgreSQL-Datenbank.
Dieses Projekt ist ein guter Startpunkt für neue Dateningenieure. Er behandelt die Grundlagen des Aufbaus einer Datenpipeline mit weit verbreiteten Industrietools.
Ressourcen
Hier findest du einige wertvolle Ressourcen, darunter GitHub-Repositories und Tutorials, die dich Schritt für Schritt bei der Umsetzung dieses Projekts unterstützen:
YouTube-Videos:
- Baue eine ETL-Datenpipeline zum Extrahieren von Wetterdaten über die OpenWeather API (Python/PostgreSQL/SQL): Dieses Tutorial zeigt dir, wie du mit der OpenWeather-API Wetterdaten extrahierst, sie umwandelst und in eine PostgreSQL-Datenbank lädst.
GitHub-Repositories:
- Wetter und Luftqualität ETL Pipeline: Dieses Repository demonstriert eine ETL-Pipeline, die Wetter- und Luftqualitätsdaten aus öffentlichen APIs extrahiert, in ein sauberes, analysierbares Format umwandelt und in eine PostgreSQL-Datenbank lädt.
- Projekt zur Integration von Wetterdaten: Eine End-to-End-ETL-Pipeline, die Wetterdaten extrahiert, umwandelt und in eine PostgreSQL-Datenbank lädt.
Kurse:
- PostgreSQL-Datenbanken erstellen: Dieser Kurs bietet einen umfassenden Leitfaden zu PostgreSQL, der die wichtigsten Fähigkeiten zum Erstellen, Verwalten und Optimieren von Datenbanken vermittelt - ein wichtiger Schritt in der Wetterdaten-Pipeline.
- Dateningenieur in Python: Dieser Kurs vermittelt grundlegende Kenntnisse im Bereich Data Engineering, einschließlich Datenerfassung, -umwandlung und -speicherung, und bietet eine gute Grundlage für den Aufbau von Pipelines in Python.
Entwickelte Fertigkeiten
- Python zum Schreiben von Datenpipeline-Anwendungen verwenden
- Sammeln von Daten aus externen Quellen (APIs)
- Daten bereinigen, um sie konsistent und verständlich zu machen
- Einrichten von Datenbanken und Speichern und Organisieren von Daten in ihnen
Projekt 3: Londoner Verkehrsanalyse
Dieses Projekt bietet einen hervorragenden Ausgangspunkt für angehende Datentechniker/innen. Es führt dich in die Arbeit mit realen Daten eines großen öffentlichen Verkehrsnetzes ein, das täglich über 1,5 Millionen Fahrten abwickelt.
Die Stärke des Projekts liegt in der Verwendung von branchenüblichen Data Warehouse-Lösungen wie Snowflake, Amazon Redshift, Google BigQuery oder Databricks. Diese Plattformen sind für das moderne Data Engineering von entscheidender Bedeutung, denn sie ermöglichen es dir, große Datenmengen effizient zu verarbeiten und zu analysieren.
Durch die Analyse von Verkehrstrends, beliebten Methoden und Nutzungsmustern lernst du, wie du aus großen Datensätzen aussagekräftige Erkenntnisse gewinnen kannst - eine Kernkompetenz im Data Engineering.
Ressourcen
Hier findest du einige Ressourcen, darunter angeleitete Projekte und Kurse, die dir Schritt für Schritt helfen:
Angeleitete Projekte:
- Erkunde Londons Reisenetzwerk: In diesem angeleiteten Projekt lernst du, wie du die Daten des öffentlichen Nahverkehrs in London analysierst, um Trends, beliebte Routen und Nutzungsmuster zu ermitteln. Du wirst Erfahrungen mit der Analyse großer Datenmengen sammeln, indem du reale Daten aus einem großen öffentlichen Verkehrsnetz verwendest.
Kurse:
- Data Warehousing-Konzepte: Dieser Kurs behandelt grundlegende Data Warehousing-Prinzipien, einschließlich Architekturen und Anwendungsfälle für Plattformen wie Snowflake, Redshift und BigQuery. Es ist eine hervorragende Grundlage für die Implementierung von Lösungen zur Speicherung und Verarbeitung großer Datenmengen.
Entwickelte Fertigkeiten
- Verstehe den Kontext beim Schreiben von Abfragen, indem du die Daten besser verstehst.
- Arbeit mit großen Datensätzen.
- Verstehen von Big Data-Konzepten.
- Arbeit mit Data Warehouses und Big Data Tools wie Snowflake, Redshift, BigQuery oder Databricks.
Werde Dateningenieur
Intermediate Data Engineering Projekte
Bei diesen Projekten geht es um Fähigkeiten wie bessere Programmierkenntnisse und die Kombination verschiedener Datenplattformen. Diese technischen Fähigkeiten sind entscheidend für deine Fähigkeit, zu einem bestehenden Tech-Stack beizutragen und als Teil eines größeren Teams zu arbeiten.
Projekt 4: Durchführen einer Codeüberprüfung
In diesem Projekt geht es darum, den Code eines anderen Dateningenieurs zu überprüfen. Auch wenn du nicht so viel mit der Technologie zu tun hast wie bei anderen Projekten, ist die Möglichkeit, den Code anderer zu überprüfen, ein wichtiger Teil deiner Entwicklung als Dateningenieur/in.
Das Lesen und Überprüfen von Code ist eine genauso wichtige Fähigkeit wie das Schreiben von Code. Wenn du die grundlegenden Data-Engineering-Konzepte und -Praktiken verstanden hast, kannst du sie bei der Überprüfung des Codes anderer anwenden, um sicherzustellen, dass er den Best Practices entspricht und mögliche Fehler im Code reduziert.
Ressourcen
Hier findest du einige wertvolle Ressourcen, darunter Projekte und Artikel, die dir Schritt für Schritt helfen:
Angeleitete Projekte:
- Durchführen einer Codeüberprüfung: Dieses angeleitete Projekt bietet dir praktische Erfahrung im Code-Review, indem es den Code-Review-Prozess so simuliert, als wärst du ein erfahrener Datenexperte. Das ist eine hervorragende Möglichkeit, um potenzielle Fehler zu erkennen und sicherzustellen, dass die Best Practices eingehalten werden.
Artikel:
- Wie man einen Code Review durchführt: Diese Ressource enthält Empfehlungen zur effektiven Durchführung von Code-Reviews, die auf umfangreichen Erfahrungen beruhen, und deckt verschiedene Aspekte des Review-Prozesses ab.
Entwickelte Fertigkeiten
- Lesen und Bewerten des von anderen Dateningenieuren geschriebenen Codes
- Bugs und Logikfehler bei der Überprüfung des Codes aufspüren
- Klare und hilfreiche Rückmeldungen zum Code geben
Projekt 5: Aufbau einer Datenpipeline für den Einzelhandel
In diesem Projekt baust du eine komplette ETL-Pipeline mit den Einzelhandelsdaten von Walmart auf. Du rufst Daten aus verschiedenen Quellen ab, darunter SQL-Datenbanken und Parquet-Dateien, wendest Transformationstechniken an, um die Daten aufzubereiten und zu bereinigen, und lädst sie schließlich in ein leicht zugängliches Format.
Dieses Projekt eignet sich hervorragend, um grundlegende und zugleich fortgeschrittene Kenntnisse in der Datentechnik zu erwerben, da es wichtige Fähigkeiten wie die Extraktion von Daten aus verschiedenen Formaten, die Datenumwandlung für aussagekräftige Analysen und das Laden von Daten für eine effiziente Speicherung und einen effizienten Zugriff abdeckt. Es hilft dabei, Konzepte wie den Umgang mit verschiedenen Datenquellen, die Optimierung von Datenflüssen und die Pflege skalierbarer Pipelines zu festigen.
Ressourcen
Hier findest du einige wertvolle Ressourcen, darunter angeleitete Projekte und Kurse, die dir Schritt für Schritt helfen:
Angeleitete Projekte:
- Aufbau einer Datenpipeline für den Einzelhandel: Dieses angeleitete Projekt führt dich durch den Aufbau einer Einzelhandelsdaten-Pipeline unter Verwendung der Einzelhandelsdaten von Walmart. Du lernst, Daten aus SQL-Datenbanken und Parquet-Dateien abzurufen, sie für die Analyse umzuwandeln und sie in ein zugängliches Format zu laden.
Kurse:
- Datenbankdesign: Ein solides Verständnis des Datenbankdesigns ist für die Arbeit an Datenpipelines unerlässlich. In diesem Kurs werden die Grundlagen des Designs und der Strukturierung von Datenbanken behandelt, die für den Umgang mit verschiedenen Datenquellen und die Optimierung der Speicherung wichtig sind.
Entwickelte Fertigkeiten
- Entwerfen von Datenpipelines für reale Anwendungsfälle.
- Extrahieren von Daten aus verschiedenen Quellen und unterschiedlichen Formaten.
- Bereinigung und Umwandlung von Daten aus verschiedenen Formaten, um ihre Konsistenz und Qualität zu verbessern.
- Laden dieser Daten in ein leicht zugängliches Format.
Projekt 6: Faktoren, die die Leistung der Schüler bei SQL beeinflussen
In diesem Projekt analysierst du eine umfassende Datenbank, die sich auf verschiedene Faktoren konzentriert, die den Erfolg der Schüler/innen beeinflussen, wie z.B. Lerngewohnheiten, Schlafverhalten und elterliches Engagement. Indem du SQL-Abfragen erstellst, untersuchst du die Beziehungen zwischen diesen Faktoren und den Prüfungsergebnissen und erforschst Fragen wie den Einfluss von außerschulischen Aktivitäten und Schlaf auf die schulischen Leistungen.
Dieses Projekt erweitert deine Fähigkeiten im Bereich Data Engineering, indem es deine Fähigkeit verbessert, Datenbanken effektiv zu manipulieren und abzufragen.
Du entwickelst Fähigkeiten in der Datenanalyse, der Interpretation und der Gewinnung von Erkenntnissen aus komplexen Datensätzen, die für datengestützte Entscheidungen im Bildungskontext und darüber hinaus unerlässlich sind.
Ressourcen
Hier findest du einige Ressourcen, darunter angeleitete Projekte und Kurse, die dir Schritt für Schritt helfen:
Angeleitete Projekte:
- Faktoren, die die Leistung der Schüler fördern: Dieses angeleitete Projekt ermöglicht es dir, den Einfluss verschiedener Faktoren auf den Schülererfolg zu untersuchen, indem du eine umfassende Datenbank analysierst. Du verwendest SQL, um die Zusammenhänge zwischen Lerngewohnheiten, Schlafverhalten und schulischen Leistungen zu untersuchen und sammelst so Erfahrungen in der datengestützten Bildungsanalyse.
Kurse:
- Datenmanipulation in SQL: Eine solide Grundlage in SQL-Datenmanipulation ist der Schlüssel für dieses Projekt. Dieser Kurs behandelt SQL-Techniken zum Extrahieren, Umwandeln und Analysieren von Daten in relationalen Datenbanken und vermittelt dir die Fähigkeiten, komplexe Datensätze zu bearbeiten.
Entwickelte Fertigkeiten
- Schreiben und Optimieren von SQL-Abfragen zum effektiven Abrufen und Verarbeiten von Daten.
- Analysieren komplexer Datensätze, um Trends und Beziehungen zu erkennen.
- Formulieren von Hypothesen und Interpretieren der Ergebnisse auf der Grundlage von Daten.
Fortgeschrittene Data Engineering Projekte
Ein Merkmal eines fortgeschrittenen Data Engineers ist die Fähigkeit, Pipelines zu erstellen, die eine Vielzahl von Datentypen in verschiedenen Technologien verarbeiten können. Bei diesen Projekten geht es darum, deine Fähigkeiten zu erweitern, indem du mehrere fortschrittliche Data Engineering Tools kombinierst, um skalierbare Datenverarbeitungssysteme zu erstellen.
Projekt 7: Bereinigung eines Datensatzes mit Pyspark
Mit einem fortschrittlichen Tool wie PySpark kannst du Pipelines erstellen, die die Möglichkeiten von Apache Spark nutzen.
Bevor du versuchst, ein Projekt wie dieses zu bauen, ist es wichtig, einen Einführungskurs zu absolvieren, um die Grundlagen von PySpark zu verstehen. Mit diesem Grundwissen kannst du dieses Tool für die effektive Extraktion, Umwandlung und das Laden von Daten optimal nutzen.
Ressourcen
Hier findest du einige wertvolle Ressourcen, darunter angeleitete Projekte, Kurse und Tutorials, die dich Schritt für Schritt unterstützen:
Angeleitete Projekte:
- Bereinigung eines Auftragsdatensatzes mit PySpark: Dieses angeleitete Projekt führt dich durch die Bereinigung eines E-Commerce-Bestellungsdatensatzes mit PySpark und zeigt dir, wie du mit Apache Spark Daten auf skalierbare Weise extrahieren, transformieren und laden kannst.
Kurse:
- Einführung in PySpark: Dieser Kurs bietet eine ausführliche Einführung in PySpark und behandelt wichtige Konzepte und Techniken für die effektive Arbeit mit großen Datensätzen in Spark. Es ist ein idealer Ausgangspunkt, um eine solide Grundlage in PySpark zu schaffen.
Tutorials:
- PySpark Tutorial: Erste Schritte mit PySpark: Dieses Tutorial stellt die Kernkomponenten von PySpark vor und führt dich durch die Einrichtung und die grundlegenden Vorgänge, damit du mit PySpark sicher Datenpipelines erstellen kannst.
Entwickelte Fertigkeiten
- Erfahrung mit PySpark erweitern
- Bereinigung und Umwandlung von Daten für Interessengruppen
- Einlesen großer Datenstapel
- Vertiefung der Kenntnisse von Python in ETL-Prozessen
Projekt 8: Datenmodellierung mit dbt und BigQuery
Ein beliebtes und leistungsstarkes modernes Tool für Dateningenieure ist dbt (Data Build Tool), das es Dateningenieuren ermöglicht, einen Softwareentwicklungsansatz zu verfolgen. Es bietet eine intuitive Versionskontrolle, Tests, Boilerplate-Code-Generierung, Lineage und Umgebungen. dbt kann mit BigQuery oder anderen Cloud Data Warehouses kombiniert werden, um deine Datensätze zu speichern und zu verwalten.
Mit diesem Projekt kannst du Pipelines in dbt erstellen, Ansichten erzeugen und die endgültigen Daten mit BigQuery verknüpfen.
Ressourcen
Hier findest du einige wertvolle Ressourcen, darunter Kurse und Videotutorials, die dir Schritt für Schritt helfen:
YouTube-Videos:
- End to End Modern Data Engineering mit dbt: In diesem Video zeigt CodeWithYu, wie du dbt mit BigQuery einrichtest und verwendest. Dabei werden die Schritte zum Aufbau von Datenpipelines und zum Erstellen von Ansichten erläutert. Es ist ein hilfreicher Leitfaden für Anfänger, die lernen, dbt und BigQuery in einem Data Engineering Workflow zu kombinieren.
Kurse:
- Einführung in das dbt: Dieser Kurs führt in die Grundlagen des dbt ein und behandelt grundlegende Konzepte wie Git-Workflows, Testen und Umgebungsmanagement. Es ist ein hervorragender Ausgangspunkt für den effektiven Einsatz von dbt in Data-Engineering-Projekten.
Entwickelte Fertigkeiten
- Über dbt lernen
- Erfahre mehr über BigQuery
- Verstehen, wie man SQL-basierte Transformationen erstellt
- Bewährte Praktiken der Softwareentwicklung in der Datentechnik anwenden (Versionskontrolle, Tests und Dokumentation)
Projekt 9: Airflow und Snowflake ETL mit S3-Speicher und BI in Tableau
In diesem Projekt werden wir uns ansehen, wie wir Airflow nutzen, um Daten über eine API zu beziehen und diese Daten über einen Amazon S3-Bucket in Snowflake zu übertragen. Der Zweck ist, die ETL in Airflow und die analytische Speicherung in Snowflake zu handhaben.
Dies ist ein hervorragendes Projekt, weil es mit mehreren Datenquellen über verschiedene Cloud-Speicher-Systeme verbunden ist, die alle mit Airflow orchestriert werden. Dieses Projekt ist sehr vollständig, weil es viele bewegliche Teile hat und einer realen Datenarchitektur ähnelt. Dieses Projekt berührt auch das Thema Business Intelligence (BI), indem es Visualisierungen in Tableau hinzufügt.
Ressourcen
Hier findest du einige wertvolle Ressourcen, darunter Kurse und Videotutorials, die dir Schritt für Schritt helfen:
YouTube-Videos:
- Daten-Pipeline mit Airflow, S3 und Snowflake: In diesem Video zeigt dir der Seattle Data Guy, wie du mit Airflow Daten von der PredictIt API abrufst, sie in Amazon S3 lädst, Snowflake-Transformationen durchführst und Tableau-Visualisierungen erstellst. Dieser End-to-End-Leitfaden ist ideal, um die Integration mehrerer Tools in eine Datenpipeline zu verstehen.
Kurse:
- Einführung in Apache Airflow in Python: Dieser Kurs bietet einen Überblick über Apache Airflow und behandelt wichtige Konzepte wie DAGs, Operatoren und Task-Abhängigkeiten. Es ist eine gute Grundlage, um zu verstehen, wie man Arbeitsabläufe in Airflow strukturiert und verwaltet.
- Einführung in Snowflake: In diesem Kurs wird Snowflake vorgestellt, eine leistungsstarke Data Warehousing-Lösung. Es umfasst die Verwaltung der Datenspeicherung, die Abfrage und die Optimierung. Es ist ideal, um Grundkenntnisse zu erwerben, bevor du mit Snowflake in Datenpipelines arbeitest.
- Datenvisualisierung in Tableau: In diesem Kurs lernst du die wichtigsten Tableau-Fähigkeiten für die Datenvisualisierung kennen, mit denen du Daten in aufschlussreiche Grafiken umwandeln kannst - ein wichtiger Schritt für die Interpretation der Ergebnisse der Datenpipeline.
Entwickelte Fertigkeiten
- Übe die Erstellung von DAGs in Airflow
- Übe die Verbindung zu einer API in Python
- Übe das Speichern von Daten in Amazon S3-Buckets
- Verschieben von Daten von Amazon zu Snowflake zur Analyse
- Einfache Visualisierung von Daten in Tableau
- Schaffung einer umfassenden, durchgängigen Datenplattform
Projekt 10: Reddit ETL in AWS mit Airflow
Dieses Projekt befasst sich mit einer komplexen Datenpipeline mit mehreren Schritten unter Verwendung fortschrittlicher Datenverarbeitungswerkzeuge im AWS-Ökosystem.
Beginne damit, deinen Apache Airflow so einzurichten, dass er Daten von Reddit bezieht und sie mit SQL umwandelt. Danach verbindest du deine Daten mit AWS, indem du sie in einen S3-Bucket legst, in dem wir mit AWS Glue ein wenig mehr Formatierung vornehmen. Dann kannst du Athena nutzen, um Abfragen zu testen, bevor du die Daten in Redshift für längerfristiges Data Warehousing und analytische Abfragen speicherst.
Ressourcen
Hier findest du einige Ressourcen, darunter Kurse und Videotutorials, die dir Schritt für Schritt helfen:
YouTube-Videos:
- Reddit Data Pipeline Engineering Project: CodeWithYu demonstriert in diesem Video eine komplette Reddit-Datenpipeline, einschließlich Datenextraktion mit Airflow, Transformationen mit PostgreSQL und Integration mit AWS-Diensten wie S3, Glue, Athena und Redshift. Dieses Walkthrough ist eine hilfreiche Anleitung, um die vielschichtigen Schritte in einer komplexen Datenpipeline anzugehen.
Kurse:
- Einführung in AWS: Dieser Kurs vermittelt eine solide Grundlage in AWS und deckt die wichtigsten Konzepte und Tools ab. Die Grundlagen von AWS-Diensten wie S3, Glue, Athena und Redshift sind entscheidend für die erfolgreiche Umsetzung dieses Projekts.
- Einführung in Redshift: Dieser Kurs bietet eine umfassende Einführung in Amazon Redshift und konzentriert sich auf Data-Warehousing-Konzepte, die Redshift-Architektur und wichtige Fähigkeiten für die Verwaltung und Abfrage großer Datenmengen. Es ist eine hervorragende Ressource, um dein Verständnis von Redshift in AWS-Pipelines zu vertiefen.
Entwickelte Fertigkeiten
- Website-Daten in Airflow übertragen
- PostgreSQL zum Umwandeln von Daten verwenden
- Verbinde Airflow mit AWS, um Daten in S3-Buckets zu übertragen
- AWS Glue für ETL verwenden
- Verwende AWS Athena für einfache Abfragen
- Daten von S3 zu Amazon Redshift für Data Warehousing übertragen
Projekt 11: Aufbau einer Echtzeit-Datenpipeline mit PySpark, Kafka und Redshift
In diesem Projekt erstellst du eine robuste Echtzeit-Datenpipeline mit PySpark, Apache Kafka und Amazon Redshift, um große Datenmengen zu erfassen, zu verarbeiten und zu speichern.
Die Pipeline erfasst Daten aus verschiedenen Quellen in Echtzeit, verarbeitet und transformiert sie mit PySpark und lädt die transformierten Daten zur weiteren Analyse in Redshift. Außerdem implementierst du Überwachungs- und Warnsysteme, um die Genauigkeit der Daten und die Zuverlässigkeit der Pipeline sicherzustellen.
Dieses Projekt ist eine hervorragende Gelegenheit, grundlegende Kenntnisse in der Echtzeit-Datenverarbeitung und im Umgang mit Big-Data-Technologien wie Kafka für Streaming und Redshift für Cloud-basiertes Data Warehousing zu erwerben.
Ressourcen
Hier findest du einige Ressourcen, darunter Kurse und Videotutorials, die dir Schritt für Schritt helfen:
YouTube-Videos:
- Aufbau einer Echtzeit-Datenpipeline mit PySpark, Kafka und Redshift: Dieses Video von Darshir Parmar führt dich durch den Aufbau einer kompletten Echtzeit-Datenpipeline mit PySpark, Kafka und Redshift. Es umfasst Schritte zur Datenaufnahme, -umwandlung und -ladung. Das Video behandelt auch Überwachungs- und Warntechniken, um die Leistung der Pipeline sicherzustellen.
Kurse:
- Einführung in Apache Kafka: Dieser Kurs behandelt die Grundlagen von Apache Kafka, einer wichtigen Komponente für das Echtzeit-Datenstreaming in diesem Projekt. Es gibt einen Überblick über die Architektur von Kafka und wie man es in Datenpipelines implementiert.
- Streaming-Konzepte: Dieser Kurs führt in die grundlegenden Konzepte des Datenstreaming ein, einschließlich der Echtzeitverarbeitung und ereignisgesteuerter Architekturen. Es ist eine ideale Ressource, um Grundkenntnisse zu erwerben, bevor du Echtzeit-Pipelines aufbaust.
Zusammenfassende Tabelle der Data Engineering Projekte
Hier ist eine Zusammenfassung der Datenentwicklungsprojekte von oben, damit du einen schnellen Überblick über die verschiedenen Projekte bekommst:
Projekt |
Level |
Fertigkeiten |
Werkzeuge |
Wetterdaten-Pipeline |
Beginner |
Python zum Schreiben von Pipeline-Anwendungen, API-Verbindungen, Datenbereinigung |
Python, PostgreSQL |
ETL-Pipeline mit offenen Daten |
Beginner |
CSV-Daten mit Python und Pandas lesen, Daten bereinigen, Daten in BigQuery laden |
Python, BigQuery |
Londoner Verkehrsanalyse |
Beginner |
Arbeit mit großen Datenmengen, Arbeit mit Data Warehouses |
BigQuery |
Durchführen einer Codeüberprüfung |
Zwischenbericht |
Code Review, Bewertung von Code, Behebung von Fehlern im Code |
Kodierkenntnisse |
Aufbau einer Datenpipeline für den Einzelhandel |
Zwischenbericht |
Datenpipelines, ETL |
Python, SQL |
Faktoren, die die Schülerleistungen beeinflussen |
Zwischenbericht |
SQL-Abfragen für die Datenanalyse |
SQL |
Bereinigung eines Datensatzes mit PySpark |
Fortgeschrittene |
Bereinigung, Umwandlung und Formatierung von Daten mit PySpark |
PySpark, Python |
Data Engineering mit dbt und BigQuery |
Fortgeschrittene |
Verwendung von dbt für SQL-basierte Transformationen, Übertragung von Daten zwischen Plattformen |
Dbt, BigQuery |
Airflow und Snowflake ETL mit S3-Speicher |
Fortgeschrittene |
Erstellen komplexer ETL-Pipelines mit Airflow DAGs, Verschieben von Daten von Airflow nach Snowflake |
Airflow, Schneeflocke, Tableau |
Reddit ETL zu AWS Projekt |
Fortgeschrittene |
Verbindung zu APIs, PostgreSQL-Praxis für das Bereinigen und Übertragen von Daten aus S3, AWS Glue, Athena und Redshift |
Airflow, PostgreSQL, AWS S3, AWS Glue, AWS Athena, Amazon Redshift |
Aufbau einer Echtzeit-Datenpipeline mit PySpark, Kafka und Redshift |
Fortgeschrittene |
Datenaufnahme, -verarbeitung und -überwachung in Echtzeit sowie das Laden von Daten in ein Data Warehouse |
PySpark, Kafka, Amazon Redshift |
Fazit
In diesem Artikel wurden hervorragende Projekte vorgestellt, mit denen du deine Fähigkeiten im Data Engineering üben kannst.
Konzentriere dich darauf, die grundlegenden Konzepte zu verstehen, die hinter der Funktionsweise der einzelnen Tools stehen; so kannst du diese Projekte bei deiner Stellensuche einsetzen und sie erfolgreich erklären. Achte darauf, dass du alle Konzepte wiederholst, die du als schwierig empfindest.
Neben dem Aufbau eines Projektportfolios kann eine Data-Engineering-Zertifizierung eine wertvolle Ergänzung deines Lebenslaufs sein, da sie dein Engagement für die Absolvierung relevanter Kurse unter Beweis stellt!
Werde Dateningenieur
FAQs
Welche Fähigkeiten brauche ich, um an Data-Engineering-Projekten zu arbeiten?
Für Projekte auf Anfängerniveau sind grundlegende Programmierkenntnisse in Python oder SQL und ein Verständnis von Datengrundlagen (wie Bereinigung und Umwandlung) hilfreich. Mittlere und fortgeschrittene Projekte erfordern oft Kenntnisse über bestimmte Tools, wie Apache Airflow, Kafka oder Cloud-basierte Data Warehouses wie BigQuery oder Redshift.
Wie können Data-Engineering-Projekte beim Aufbau meines Portfolios helfen?
Bei der Durchführung von Data-Engineering-Projekten kannst du zeigen, dass du in der Lage bist, mit Daten in großem Umfang zu arbeiten, robuste Pipelines aufzubauen und Datenbanken zu verwalten. Projekte, die durchgängige Arbeitsabläufe abdecken (von der Dateneingabe bis zur Analyse), zeigen potenziellen Arbeitgebern praktische Fähigkeiten und sind für ein Portfolio sehr wertvoll.
Sind Cloud-Tools wie AWS und Google BigQuery für Data-Engineering-Projekte notwendig?
Auch wenn sie nicht unbedingt notwendig sind, sind Cloud-Tools für das moderne Data Engineering von großer Bedeutung. Viele Unternehmen verlassen sich aus Gründen der Skalierbarkeit und Zugänglichkeit auf cloudbasierte Plattformen. Wenn du also Tools wie AWS, Google BigQuery und Snowflake erlernst, kannst du dir einen Vorteil verschaffen und deine Fähigkeiten mit den Anforderungen der Branche in Einklang bringen.
Wie wähle ich das richtige Data-Engineering-Projekt für mein Qualifikationsniveau?
Beginne damit, dein Wissen und deinen Umgang mit den wichtigsten Tools zu überprüfen. Für Anfänger sind Projekte wie Datenbereinigung oder der Aufbau einer grundlegenden ETL-Pipeline in Python ideal. Fortgeschrittene Projekte können Datenbanken und komplexere Abfragen beinhalten, während fortgeschrittene Projekte oft mehrere Tools (z.B. PySpark, Kafka, Redshift) für die Datenverarbeitung in Echtzeit oder in großem Maßstab integrieren.
Ich bin Datenwissenschaftler mit Erfahrung in räumlicher Analyse, maschinellem Lernen und Datenpipelines. Ich habe mit GCP, Hadoop, Hive, Snowflake, Airflow und anderen Data Science/Engineering-Prozessen gearbeitet.
Lerne mehr über Data Engineering mit diesen Kursen!
Kurs
Data Warehousing-Konzepte
Lernpfad