GPT-5.2 Codex Tutorial: Erstelle eine Datenpipeline in VSCode

Entwickle ein Data-Engineering-MVP mit GPT-5.2 Codex. Ein Schritt-für-Schritt-Tutorial für VSCode, das sich mit agentenbasiertem Coding, Python, DuckDB und Streamlit-Workflows beschäftigt.

Aktualisiert 14. Jan. 2026 · 9 Min. lesen

In diesem Tutorial zeigen wir dir, wie du mit GPT-5.2 Codex über die VSCode-Erweiterung eine komplette Datenverarbeitungs-Pipeline aufbaust. Anstatt vom Modell zu verlangen, alles auf einmal zu erstellen, bauen wir das MVP Schicht für Schicht auf und führen den Agenten Schritt für Schritt durch Design, Implementierung und Tests.

Dieser Ansatz zeigt, wie GPT-5.2 Codex in der Praxis am besten funktioniert, und spiegelt echte Datenverarbeitungsabläufe wider.

Wenn du mehr über die Arbeit mit dem OpenAI-Ökosystem erfahren möchtest, empfehle ich dir den Kurs „Arbeiten mit der OpenAI-API“. Kurs „Arbeiten mit der OpenAI-API“.

Was ist GPT-5.2 Codex?

GPT 5.2 Codex ist die neueste Version der agentenbasierten Codierungsmodelle von OpenAI, die für echte Softwareentwicklungs-Workflows gemacht sind. Es baut auf den neuesten Verbesserungen beim Verständnis langer Kontexte, großen Refactorings und Migrationen, zuverlässiger Tool-Nutzung und starker nativer Windows-Unterstützung auf.

Diese Verbesserungen machen es besonders gut für lang andauernde, durchgängige Entwicklungsarbeiten in IDEs wie VSCode. In den letzten Monaten hat sich die VSCode-Erweiterung „ “ von OpenAI Codex echt verbessert und macht jetzt der Erweiterung „Claude Code“ von Claude Code direkt Konkurrenz . Claude Code bei der komplexen, agentenbasierten Entwicklung.

1. Mach das GitHub-Repository

Zuerst machen wir ein neues GitHub-Repository für unser Data-Engineering-MVP.

Geh zu https://github.com/new
Gib einen Repository-Namen und einen optionalen Beschreibung
Stell die Sichtbarkeit des Repositorys auf Öffentlich
Aktivieren Dieses Repository mit einer README-Datei initialisieren
Klick Repository erstellen

Sobald das Repository erstellt ist, kopierst du die Repository-URL. Wir werden diese URL im nächsten Schritt nutzen, um das Projekt lokal zu klonen.

2. Installiere und richte GPT-5.2 Codex in VSCode ein

Bevor du loslegst, stell sicher, dass du Visual Studio Code installiert hast und ein aktives chatGPT Plus-Konto hast. Die kostenlosen Tarife und der Go-Tarif bieten keinen Zugriff auf Codex-Modelle in der VSCode-Erweiterung.

1. Klon das Repository mit der URL, die du vorhin kopiert hast.

2. Wechsle ins Verzeichnis des Repositorys und starte VSCode.

git clone https://github.com/kingabzpro/data-engineering-analytics-mvp.git
cd data-engineering-analytics-mvp
code .

3. Geh zu „Erweiterungen“ (Strg + Umschalt + X), such nach „OpenAI Codex“ und installier es. Das dauert nur ein paar Sekunden.

4. Klick einfach auf das OpenAI-Symbol im linken Bereich, um die Codex-Erweiterung zu starten. Du wirst aufgefordert, dich mit deinem chatGPT-Konto oder einem API-Konto anzumelden. Wähle das chatGPT-Konto aus, dann wirst du zum Browser weitergeleitet, um den Zugriff zu genehmigen. Sobald du das genehmigt hast, geh einfach zurück zu VSCode, und Codex ist einsatzbereit.

3. Das Datenengineering-Projekt aufbauen

Dieses Projekt ist bewusst als Minimum Viable Product (MVP) angelegt. Das Ziel ist nicht, eine Datenplattform für die Produktion zu bauen, sondern einen kompletten End-to-End-Datenengineering-Ausschnitt zu erstellen, der zeigt, wie echte Analysesysteme aufgebaut sind.

In diesem MVP bauen wir eine einfache, aber zuverlässige Analyse-Pipeline, die:

Lädt eine CSV-Datei mit Ereignisdaten
Lädt die Daten in DuckDB als Rohdaten-Warehouse-Tabelle (raw_events)
Wendet SQL-basierte Transformationen an , um eine saubere, analysefähige Faktentabelle zu erstellen (fct_events)
Berechnet drei Kernkennzahlen mit DuckDB SQL
Zeigt diese Metriken in einem lokalen Streamlit-Dashboard an.

Der ganze Ablauf geht so:

CSV file
  ↓
raw_events        (raw ingestion, 1:1 with source)
  ↓
fct_events        (typed, deduplicated, transformed)
  ↓
metrics           (daily count, 7-day rolling avg, top category)
  ↓
Streamlit UI      (local dashboard)

4. Das Projekt mit GPT-5.2 Codex aufbauen

In diesem Schritt nutzen wir GPT-5.2 Codex, um die erste Struktur des Projekts zu erstellen. Das Ziel ist noch nicht, Funktionen zu entwickeln, sondern eine saubere, lauffähige Basis zu schaffen, die wir Schritt für Schritt ausbauen werden.

Damit Codex immer auf Kurs bleibt, nutzen wir einen kleinen Kontrollblock namens Codex Harness. Dieser Harness wird oben in jede Eingabeaufforderung eingefügt und sorgt dafür, dass Codex im MVP-Bereich bleibt, konsistente Ergebnisse liefert und saubere, überprüfbare Änderungen durchführt.

Codex-Gurtzeug (in jede Aufgabe einfügen):

You are GPT-5.2 Codex working in my GitHub repository.

MVP ONLY:
CSV → raw table → transform → 3 metrics → Streamlit dashboard.

SCOPE RULES:
- Implement ONLY what this task asks.
- No auth, schedulers, cloud services, or extra pages.

OUTPUT:
- Be descriptive.
- After changes include:
  1) What changed
  2) Files touched
  3) How to run locally
  4) Quick verification step
- Commit after each major step with a clear message.

Bevor Codex irgendwelchen Code schreibt, wird es extra angewiesen, die Websuche zu nutzen, um die neuesten Python 3.11-kompatiblen Versionen aller Abhängigkeiten zu checken. So vermeidest du, dass du veraltete oder nicht kompatible Pakete installierst.

IMPORTANT: USE WEB SEARCH FIRST
TASK 1 (SCAFFOLD):
Use Python 3.11 + uv + DuckDB + Streamlit + Pydantic + pytest.

Create repo structure:
- backend/
  - db.py
  - ingest.py
  - pipeline.py
  - models.py
  - sql/
- app/
  - app.py
- data/
  - sample.csv
- tests/

Add:
1) data/sample.csv (~50 rows) with columns:
   event_time, user_id, event_name, category, amount
2) DuckDB schema for raw_events
3) a command to ingest sample.csv and print row count
4) pyproject.toml for uv
5) README with exact local run steps

Stop after scaffolding. Commit.

Die Gerüstaufgabe erstellt:

Eine übersichtliche Ordnerstruktur für Backend-Logik, SQL-Transformationen, Benutzeroberfläche, Daten und Tests
Ein kleiner Datensatz „ sample.csv “
Eine DuckDB - raw_events -Tabelle
Ein ausführbarer Ingestion-Befehl, der die Anzahl der Zeilen anzeigt
Eine funktionierende Datei „ pyproject.toml “ und „README“

Nachdem du die Eingabeaufforderung eingefügt hast, stell das Modell auf „Agent (Vollzugriff)“ um und check, ob GPT-5.2 Codex ausgewählt ist (das ist die Standardeinstellung).

Sobald die Aufgabe erledigt ist, wirst du sehen, dass alle Ordner und Dateien automatisch erstellt wurden.

Um das Gerüst zu überprüfen, frag Codex, ob er die Installations- und Überprüfungsschritte lokal machen kann.

Du solltest sehen, dass alle Abhängigkeiten erfolgreich installiert wurden und das Schnellüberprüfungsskript bestätigt, dass 50 Zeilen aus dem Beispieldatensatz übernommen wurden.

Im Moment sind die Beispieldaten absichtlich klein gehalten. In den nächsten Schritten werden wir ihn durch einen größeren, realistischeren Datensatz ersetzen.

Wenn du unter „https://chatGPT.com/codex/settings/usage“ nachschaust, wirst du sehen, dass du noch die meiste deiner Nutzungsquote übrig hast. Das heißt, du kannst ganz entspannt weiter an diesem Projekt arbeiten und es sogar zu einer produktionsreifen Pipeline ausbauen, wenn du das brauchst.

5. Implementierung einer idempotenten Datenerfassung

In diesem Schritt stellen wir sicher, dass der Erfassungsprozess idempotent ist, d. h. er kann sicher wiederholt werden, ohne dass doppelte Daten entstehen. Das ist echt wichtig im Bereich Data Engineering, weil man oft Daten-Import-Jobs nochmal versuchen oder ausführen muss.

TASK 2 (IDEMPOTENT INGEST):
Make CSV ingestion idempotent.
- Rerunning ingest must not duplicate rows
- Validate required columns
- Validate event_time parseable and amount numeric

Add pytest:
- ingest twice → row count unchanged

Update README verification section.
Commit.

Was dieser Schritt bringt:

Die Importlogik verhindert jetzt doppelte Zeilen, wenn dieselbe CSV-Datei mehrmals importiert wird.
Die grundlegende Datenüberprüfung wird beim Einlesen gemacht.
Ein pytest-Test checkt die Idempotenz, indem er die Erfassung zweimal durchführt und schaut, ob die Zeilenzahl gleich bleibt.

Sobald die Aufgabe erledigt ist, kannst du dir den Git-Verlauf in VSCode anschauen und sehen, dass der KI-Agent die Änderungen nach dem großen Update automatisch festschreibt. Das sorgt für eine übersichtliche und nachvollziehbare Entwicklungsgeschichte.

Wir haben GPT-5.2 Codex gebeten, die Testsuite als Teil dieser Aufgabe durchzuführen. Die Tests sind also erfolgreich gelaufen und alle Prüfungen haben geklappt.

6. Füge die Transformationsebene hinzu (DuckDB SQL)

In diesem Schritt stellen wir die Transformationsebene der Pipeline vor. Transformationen werden mit DuckDB SQL, womit wir die rohen Daten in eine saubere, für Analysen geeignete Faktentabelle umwandeln können.

TASK 3 (TRANSFORM SQL):
Create backend/sql/010_fct_events.sql:
- typed columns
- deterministic dedupe

Execute transform from backend/pipeline.py.
Add sanity checks to README:
- raw_events count
- fct_events count

Commit.

Was dieser Schritt bringt:

Eine SQL-basierte Transformation, die „ raw_events “ in fct_events
Explizite Typumwandlung, um einheitliche Schemata zu haben
Deterministische Deduplizierung, um doppelte Analysedaten zu vermeiden
Klare Validierungsschritte, die in der README-Datei dokumentiert sind, um die Anzahl der Rohdaten und der transformierten Daten zu vergleichen.

7. Erstelle die Metrik-Ebene mit Pydantic

In diesem Schritt fügen wir die Metrik-Ebene hinzu, die dafür zuständig ist, analytische Ergebnisse aus den transformierten Daten zu berechnen. Die Metriken werden mit DuckDB SQL abgeleitet und über eine typisierte Python-Schnittstelle dem Rest des Systems zur Verfügung gestellt.

TASK 4 (METRICS):
Create backend/sql/020_metrics.sql.
Expose metrics via a Python function returning a Pydantic model.

Add pytest validating:
- keys exist
- types correct

Commit.

Was dieser Schritt bringt:

Eine spezielle SQL-Datei, die die wichtigsten Analysemetriken festlegt
Eine Python-Funktion, die als klarer Vertrag zwischen der Datenebene und der Benutzeroberfläche dient
Starke Typisierung von metrischen Ausgaben mit Pydantic
Automatisierte Tests, die sowohl die Struktur als auch die Richtigkeit der Metriken überprüfen

8. Mit einem Streamlit-Dashboard visualisieren

In diesem Schritt erstellen wir das lokale Analyse-Dashboard mit Streamlit. Das Dashboard ist nur für die Visualisierung zuständig. Es berechnet keine Metriken und wandelt keine Daten um. Alle Werte werden aus der im vorherigen Schritt erstellten Metrikschicht gelesen.

TASK 5 (STREAMLIT UI):
Build app/app.py:
- 3 KPI cards
- line chart for daily_count
- UI calls backend metrics function

Add a minimal smoke test.
Commit.

Sobald die Aufgabe erledigt ist, gibt Codex dir Anweisungen, wie du die DuckDB-Datenbank neu aufsetzen und die komplette Datenpipeline ausführen kannst. Für diesen Schritt nehmen wir eine neue Datenbank, die mit einem größeren Datensatz gefüllt ist.

python backend\ingest.py --csv data\sample.csv
python backend\pipeline.py

Nach dem Ausführen der Erfassung zeigt die Ausgabe, wie viele Rohdatenereignisse in DuckDB geladen wurden:

raw_events row count: 3738

Sobald die Pipeline fertig ist, starte die Streamlit-App:

streamlit run app\app.py

Du kannst das Dashboard aufrufen, indem du die http://localhost:8501 in deinem Browser.

You can now view your Streamlit app in your browser.

  Local URL: http://localhost:8501
  Network URL: http://192.168.18.10:8501

Wenn beim ersten Laden des Dashboards ein Fehler auftritt, ist das in frühen Versionen normal. Kopiere die Fehlermeldung und gib sie an GPT-5.2 Codex weiter.

Codex wird das Problem finden und die nötige Lösung machen. Nach der Korrektur läuft die Anwendung einwandfrei und zeigt Folgendes an:

Gesamtzahl der Veranstaltungen
Anzahl der einzelnen Nutzer
Gesamtbetrag der Transaktion
Ein Liniendiagramm, das die täglichen Ereigniszahlen über mehrere Jahre zeigt

Jetzt ist die End-to-End-MVP-Pipeline fertig und läuft voll.

9. Testen und Vertrauen

In diesem letzten Schritt geht's um die Überprüfung und Zuverlässigkeit. Das Ziel ist, einen einzigen Befehl zu haben, der zeigt, dass die ganze Pipeline von der Datenaufnahme bis hin zu Metriken und Tests richtig läuft.

TASK 6 (VERIFY):
Add a verify command that:
- rebuilds DB from scratch
- ingests sample.csv
- runs transforms
- runs pytest

Document as "Local Demo" and "Verify" in README.
Commit.

Was dieser Schritt bringt:

Ein einziger Verifizierungsbefehl, der die ganze Pipeline von Anfang bis Ende überprüft.
Automatische Ausführung von Erfassung, Umwandlung und Tests in der richtigen Reihenfolge
Klare Dokumentation, mit der jeder die Ergebnisse vor Ort nachmachen kann

Wir haben den Codex gebeten, die README-Datei zu aktualisieren, alle Änderungen zu übernehmen und sie ins GitHub-Remote-Repository hochzuladen.

Das Ergebnis ist ein komplettes und gut strukturiertes GitHub-Repository, das alle Skripte, Tests, Backend-Logik und klare Anweisungen zum Ausführen und Überprüfen des Projekts enthält.

Quelle: kingabzpro/data-engineering-analytics-mvp

Abschließende Gedanken

Ich hab Codex schon öfter über die CLI und in VSCode benutzt, aber die neuesten Updates mit GPT-5.2 Codex haben echt einen Unterschied gemacht. Das Modell ist echt besser darin, komplette Systeme aufzubauen, Probleme zu beheben und mit Tools wie MCP und internen Tools zu arbeiten. Es zeigt auch, dass man den bestehenden Code viel besser versteht, was die iterative Entwicklung echt effizienter macht.

Von Anfang bis Ende habe ich weniger als 30 Minuten gebraucht, um dieses ganze MVP aufzubauen, zu debuggen und komplett durchzuführen. Codex hat die Einrichtung des Repositorys, das Abhängigkeitsmanagement, die Datenerfassung, SQL-Transformationen, Tests und das Streamlit-Dashboard mit echt wenig manuellem Aufwand erledigt. Der Entwicklungszyklus war straff und vorhersehbar, was genau das ist, was man braucht, wenn man schnell etwas aufbauen will.

Dieses Projekt ist bewusst ein MVP. Es braucht noch ein paar weitere Durchläufe und Verbesserungen, bis es für die Produktion bereit ist. Trotzdem spiegelt die Kernstruktur ziemlich genau wider, wie echte Datenverarbeitungssysteme aufgebaut sind, was sie zu einer soliden Basis macht, auf der man aufbauen kann.

Wenn du daran interessiert bist, dieses Projekt zu einer produktionsorientierteren Datenplattform auszubauen, sind die folgenden Komponenten die logischen nächsten Schritte, wurden hier aber bewusst weggelassen, um den Umfang überschaubar zu halten:

Tools zur Workflow-Orchestrierung wie Airflow, Prefect oder Dagster
Cloud-Datenlager wie Snowflake, BigQuery, Redshift oder Databricks
dbt als separates Transformations-Framework, da SQL-Modelle direkt in DuckDB geschrieben werden
Streaming- und Echtzeit-Erfassungsplattformen wie Kafka, Pulsar, Kinesis oder Flink
Semantische Ebenen und Metrikspeicher wie Looker, Cube, Druid oder Pinot
Authentifizierung, Berechtigungen und Multi-Tenancy
Cloud-Infrastruktur, CI/CD-Pipelines und Infrastruktur als Code mit Tools wie Terraform oder GitHub Actions
Fortgeschrittene Leistungsoptimierung und groß angelegte Optimierung
Tools für Datenverwaltung und Beobachtbarkeit, einschließlich Herkunft, Kataloge und Datenqualitätsplattformen

Diese Tools sind in Produktionssystemen weit verbreitet, aber wenn man sie hier weglässt, bleibt das Projekt einfach, lokal und leicht verständlich, während es trotzdem die echten Datenverarbeitungsmuster widerspiegelt.

Ist GPT-5.2 Codex in der kostenlosen Version von VSCode dabei?

Wie schneidet GPT-5.2 Codex im Vergleich zu Claude Code ab?

Was ist das Kontextfenster für GPT-5.2 Codex?

Kann GPT-5.2 Codex wirklich eine komplette App von Grund auf neu erstellen?

Ist mein Code sicher, wenn ich die Codex VSCode-Erweiterung benutze?

Author

Abid Ali Awan

Als zertifizierter Data Scientist ist es meine Leidenschaft, modernste Technologien zu nutzen, um innovative Machine Learning-Anwendungen zu entwickeln. Mit meinem fundierten Hintergrund in den Bereichen Spracherkennung, Datenanalyse und Reporting, MLOps, KI und NLP habe ich meine Fähigkeiten bei der Entwicklung intelligenter Systeme verfeinert, die wirklich etwas bewirken können. Neben meinem technischen Fachwissen bin ich auch ein geschickter Kommunikator mit dem Talent, komplexe Konzepte in eine klare und prägnante Sprache zu fassen. Das hat dazu geführt, dass ich ein gefragter Blogger zum Thema Datenwissenschaft geworden bin und meine Erkenntnisse und Erfahrungen mit einer wachsenden Gemeinschaft von Datenexperten teile. Zurzeit konzentriere ich mich auf die Erstellung und Bearbeitung von Inhalten und arbeite mit großen Sprachmodellen, um aussagekräftige und ansprechende Inhalte zu entwickeln, die sowohl Unternehmen als auch Privatpersonen helfen, das Beste aus ihren Daten zu machen.

Themen

OpenAI

Künstliche Intelligenz

Die besten DataCamp-Kurse

Kurs

Arbeiten mit der OpenAI-API

3 Std.

102.9K

Entwickle deine ersten KI-gestützten Anwendungen mit der API von OpenAI und lerne zugrunde liegende Funktionen von ChatGPT & Co. kennen.

Details anzeigen

Kurs starten

Kurs

KI-Agenten mit dem Google ADK entwickeln

1 Std.

4.1K

In diesem einstündigen Kurs erstellst du Schritt für Schritt einen Support-Assistenten mit dem Agent Development Kit (ADK) von Google.

Details anzeigen

Kurs starten

Kurs

Skalierbare agentische Systeme entwickeln

1 Std. 30 Min.

7.4K

Finde heraus, was nötig ist, um KI-Agenten zu skalieren, mit ein bisschen Hilfe von Frameworks wie MCP und A2A.

Details anzeigen

Kurs starten

Verwandt

Tutorial

Python Switch Case Statement: Ein Leitfaden für Anfänger

Erforsche Pythons match-case: eine Anleitung zu seiner Syntax, Anwendungen in Data Science und ML sowie eine vergleichende Analyse mit dem traditionellen switch-case.

Matt Crabtree

Tutorial

30 coole Python-Tricks für besseren Code mit Beispielen

Wir haben 30 coole Python-Tricks zusammengestellt, mit denen du deinen Code verbessern und deine Python-Kenntnisse ausbauen kannst.

Kurtis Pykes

Tutorial

Python-Anweisungen IF, ELIF und ELSE

In diesem Tutorial lernst du ausschließlich Python if else-Anweisungen kennen.

Sejal Jaiswal

Tutorial

Python-Tutorial zum Verknüpfen von Zeichenfolgen

Lerne verschiedene Methoden zum Verknüpfen von Zeichenfolgen in Python kennen, mit Beispielen, die jede Technik zeigen.

DataCamp Team

Tutorial

Loop-Schleifen in Python-Tutorial

Lerne, wie du For-Schleifen in Python umsetzt, um eine Sequenz oder die Zeilen und Spalten eines Pandas-DataFrame zu durchlaufen.

Aditya Sharma

Tutorial

Python-Arrays

Python-Arrays mit Code-Beispielen. Lerne noch heute, wie du mit Python NumPy Arrays erstellen und ausdrucken kannst!

DataCamp Team

Mehr anzeigen Mehr anzeigen

Was ist GPT-5.2 Codex?

1. Mach das GitHub-Repository

2. Installiere und richte GPT-5.2 Codex in VSCode ein

3. Das Datenengineering-Projekt aufbauen

4. Das Projekt mit GPT-5.2 Codex aufbauen

5. Implementierung einer idempotenten Datenerfassung

6. Füge die Transformationsebene hinzu (DuckDB SQL)

7. Erstelle die Metrik-Ebene mit Pydantic

8. Mit einem Streamlit-Dashboard visualisieren

9. Testen und Vertrauen

Abschließende Gedanken

GPT-5.2 Codex FAQs

Was ist das Kontextfenster für GPT-5.2 Codex?

Kann GPT-5.2 Codex wirklich eine komplette App von Grund auf neu erstellen?

Ist mein Code sicher, wenn ich die Codex VSCode-Erweiterung benutze?

Python Switch Case Statement: Ein Leitfaden für Anfänger

30 coole Python-Tricks für besseren Code mit Beispielen

Python-Anweisungen IF, ELIF und ELSE

Python-Tutorial zum Verknüpfen von Zeichenfolgen

Loop-Schleifen in Python-Tutorial

Python-Arrays

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Arbeiten mit der OpenAI-API

KI-Agenten mit dem Google ADK entwickeln

Skalierbare agentische Systeme entwickeln

Python Switch Case Statement: Ein Leitfaden für Anfänger

30 coole Python-Tricks für besseren Code mit Beispielen

Python-Anweisungen IF, ELIF und ELSE

Python-Tutorial zum Verknüpfen von Zeichenfolgen

Loop-Schleifen in Python-Tutorial

Python-Arrays

Arbeiten mit der OpenAI-API