Weiter zum Inhalt

BigQuery-Tutorial für Einsteiger: Vom Setup zur ersten Abfrage

Erfahre, was BigQuery ist, wie es funktioniert, worin es sich von traditionellen Data Warehouses unterscheidet und wie du mit der BigQuery-Konsole öffentliche Datensätze von Google abfragst.
Aktualisiert 21. Mai 2026  · 9 Min. lesen

Meine ersten Berührungspunkte mit Big Data hatte ich vor über zehn Jahren als Software Engineer im Ad-Tech-Bereich. Damals wuchsen Datensätze rasant und explodierten förmlich in der Größe. Das war Chance und Herausforderung zugleich: Abfragen für eigentlich einfache, aber geschäftskritische Reports brauchten plötzlich Stunden.

Als Reaktion darauf setzte ich ab 2013 spaltenorientierte Datenbanken wie BigQuery ein. Durch das Cloud-Modell konnten wir analytische Lasten performant und kosteneffizient ausführen und Ressourcen bei Bedarf flexibel skalieren. In den letzten Jahren habe ich ein großes Team von Data Engineers geleitet, das ein mehr als 10 PB großes BigQuery-Data-Warehouse aufgebaut hat, um mit einem stark wachsenden Katalog an Home-&-Living-Produkten und steigenden Analyseanforderungen Schritt zu halten.

Heute leite ich als CTO von DataCamp verschiedene Engineering- und Content-Teams, die unseren Nutzerinnen und Nutzern genau diese Kompetenzen (und viele weitere) näherbringen. Ich bin überzeugt, dass Cloud-Data-Warehouses wie BigQuery viele Workflows deutlich effizienter machen. Deshalb möchte ich meine Erfahrungen in diesem Tutorial mit dir teilen.

In diesem Guide erfährst du, was BigQuery ist, wie es funktioniert und worin es sich von traditionellen Data Warehouses unterscheidet. Außerdem lernst du, wie du mit der BigQuery-Konsole öffentliche Datensätze von Google abfragst – inklusive eines praktischen Beispiels mit Google Trends, um populäre Themen zu identifizieren.

Kurzfassung

  • BigQuery ist das vollständig verwaltete, serverlose Data Warehouse von Google Cloud, mit dem du Petabytes an Daten mit Standard-SQL abfragen kannst.
  • Storage und Compute sind getrennt, sodass beides unabhängig skaliert – ohne Infrastrukturmanagement.
  • Die kostenlose Sandbox bietet dir 1 TiB Abfragen pro Monat und Zugriff auf öffentliche Datensätze – ganz ohne Kreditkarte.
  • BigQuery nutzt ein spaltenorientiertes Speicherformat, optimiert für analytische OLAP-Workloads – im Gegensatz zu zeilenorientierten OLTP-Datenbanken.
  • Mit BigQuery ML erstellst und betreibst du ML-Modelle direkt im Warehouse per SQL.

Was ist BigQuery?

BigQuery ist ein vollständig verwaltetes, serverloses Data Warehouse von Google, das für das Speichern und Analysieren großer Datenmengen entwickelt wurde. Unternehmen führen damit analytische Abfragen über Petabytes an Daten mit SQL aus – ohne eigene Infrastruktur zu betreiben.

Du kannst über die Google Cloud Console, das Kommandozeilentool bq oder Client-Bibliotheken für Python, Java, Go, Node.js, C#, PHP und Ruby mit BigQuery arbeiten.

BigQuery bietet außerdem integriertes Machine Learning (BigQuery ML). Damit erstellst und ausführst du ML-Modelle direkt im Warehouse per SQL. Extern trainierte Modelle aus Vertex AI oder anderen Frameworks lassen sich ebenfalls importieren.

Dieses Tutorial richtet sich an Data Analysts, Data Engineers und Data-Warehouse-Administratoren, die mit BigQuery starten. Wenn du danach tiefer einsteigen möchtest, deckt unser Introduction to BigQuery-Kurs Query-Optimierung und fortgeschrittene Workflows ab. Außerdem lohnt sich unser BigQuery-Sandbox-Guide und das komplette GCP-Data-Warehousing-Tutorial.

Traditionelles vs. Cloud-Data-Warehouse

Ein traditionelles Data Warehouse wird on-premises betrieben. Das erfordert meist hohe Anfangsinvestitionen, ein erfahrenes Team für Betrieb und Wartung sowie sorgfältige Kapazitätsplanung, weil sich Rechenzentrumsressourcen nur starr skalieren lassen.

Ein Cloud-Data-Warehouse wird dagegen von einem Cloud-Anbieter gehostet und gemanagt. Beispiele sind Google BigQuery, Amazon Redshift und Snowflake.

Vorteile von Cloud-Data-Warehouses

In der Regel bieten Cloud-Data-Warehouses mehrere Vorteile gegenüber traditionellen Data Warehouses:

  • Sie sind auf Skalierung ausgelegt und nutzen die Flexibilität der Cloud.
  • Sie bieten höhere Geschwindigkeit und Performance.
  • Flexibles Preismodell und Cloud-Umgebung ermöglichen Kostenoptimierung (z. B. Herunterskalieren bei geringer Nachfrage).
  • Sie können vollständig oder teilweise verwaltet sein – das senkt den Betriebsaufwand.

Zeilen- vs. Spaltenorientierte Datenbanken

Beispiel einer zeilenorientierten Datenbank:

image20.jpg

Beispiel einer spaltenorientierten Datenbank:

image17.png

Zeilenorientierte Datenbanken sind gut für vollständige Zeilenabfragen, Inserts und Updates. Bei analytischen Workloads geraten sie jedoch ins Hintertreffen.

Wenn du zum Beispiel drei Spalten aus einer Tabelle mit 50 Spalten abfragst, liest eine zeilenorientierte Datenbank trotzdem alle 50 Spalten jeder Zeile. Eine spaltenorientierte Datenbank liest nur die drei benötigten Spalten – deutlich schneller für Analysen wie Produktprognosen oder Ad-hoc-Reporting.

Zeilenorientierte Datenbanken eignen sich typischerweise für Online Transaction Processing (OLTP), spaltenorientierte für Online Analytical Processing (OLAP).

OLTP vs. OLAP

  • OLTP bezeichnet Datenbanksysteme für transaktionsorientierte Anwendungen. „Online“ bedeutet, dass das System Anfragen in Echtzeit beantwortet und Transaktionen verarbeitet.
  • Im Gegensatz dazu steht Online Analytical Processing (OLAP), das den Fokus auf Datenanalyse legt.

Zusammenfassung des Vergleichs:

 

Zeilenorientierte Datenbank

Spaltenorientierte Datenbank

Speicherung

Nach Zeile

Nach Spalte

Datenabruf

Vollständige Datensätze

Relevante Spalten

Typische Anwendung

OLTP

OLAP

Schnelle Operationen

Insert, Updates, Lookups

Abfragen für Reporting

Daten laden

Meistens Datensatz für Datensatz

Meistens im Batch

Beliebte Optionen

Postgres, MySQL, Oracle, Microsoft SQL Server

Snowflake, Google BigQuery, Amazon Redshift

Wie funktioniert BigQuery?

BigQuery trennt Rechenleistung und Speicher, sodass beides unabhängig skaliert. Das Ergebnis: Terabytes in Sekunden, Petabytes in Minuten abfragen.

Wenn BigQuery eine Abfrage ausführt, verteilt die Query Engine die Arbeit parallel, scannt die relevanten Tabellen im Storage, führt die Ergebnisse zusammen und liefert den finalen Datensatz zurück.

image13.png

Wichtige BigQuery-Features 2026

Seit dem Start von BigQuery hat Google zahlreiche Funktionen ergänzt, die über ein klassisches Data Warehouse hinausgehen:

  • BigQuery ML — ML-Modelle per SQL entwickeln, trainieren und bereitstellen. Unterstützt lineare Regression, Klassifikation, Zeitreihenprognosen u. v. m.
  • Gemini in BigQuery — KI-gestützte Hilfe beim Schreiben von Abfragen, Verstehen von Schemas und Ableiten von Insights in natürlicher Sprache.
  • BigQuery Studio — Einheitlicher Workspace für SQL, Python-Notebooks und Spark innerhalb der BigQuery-Konsole.
  • Föderierte Abfragen — Daten in Cloud SQL, Cloud Storage, Bigtable und weiteren Quellen abfragen, ohne sie nach BigQuery zu verschieben.
  • BigQuery Omni — BigQuery-Analysen auf Daten in AWS oder Azure ausführen, ohne sie nach Google Cloud zu kopieren.

So startest du mit BigQuery

Mit der BigQuery-Sandbox kannst du BigQuery ohne Kreditkarte oder Abrechnungskonto testen. In diesem Abschnitt zeige ich dir, wie du auf BigQuery zugreifst und mit der Sandbox dein erstes Projekt anlegst.

Du erreichst BigQuery über die Google Cloud Console. Melde dich mit einem Google-Konto an (oder erstelle eines). Nach dem Login erscheint ein Willkommensbildschirm:

image4.png

Du findest BigQuery in der linken Seitenleiste. Ein Klick führt dich zu folgendem Bildschirm:

image1.png

Die BigQuery-Sandbox verwenden

Um die BigQuery-Sandbox zu nutzen, lege zunächst ein Projekt an, indem du auf „Select Project“ klickst.

image14.png

Klicke anschließend auf „New Project“:

image3.png

Vergib einen Projektnamen; in diesem Guide verwenden wir datacamp-guide-project.

image7.png

Auf der BigQuery-Seite erscheint nun ein Sandbox-Hinweis – die BigQuery-Sandbox ist erfolgreich aktiviert.

image16.png

Mit aktivierter BigQuery-Sandbox kannst du in deinem neuen Projekt Daten laden und abfragen sowie die öffentlichen Google-Datensätze nutzen.

Dataset und Tabelle erstellen

Bevor du eine Tabelle anlegst, musst du in deinem Projekt ein Dataset erstellen. Ein Dataset ist ein Container auf oberster Ebene, mit dem du Tabellen und Views organisierst und deren Zugriff steuerst. Klicke zum Erstellen eines Datasets auf das „Actions“-Symbol deines Projekts:

image18.png

Für dieses Beispiel füllen wir „Dataset ID“ mit „main“.

image8.png

Du kannst eine Tabelle per SQL erstellen. BigQuery verwendet GoogleSQL, das ANSI-konform ist.

CREATE TABLE datacamp-guide-project.main.users (
  id INT64 NOT NULL,
  first_name STRING NOT NULL,
  middle_name STRING,
  last_name STRING NOT NULL,
  active_account BOOL NOT NULL
);

Alternativ nutzt du die Oberfläche der BigQuery-Konsole:

image19.png

Hinweis: In der Sandbox kannst du keine Daten einfügen. Wenn du Inserts testen möchtest, aktiviere die kostenlose Testversion. Die nächsten Abschnitte konzentrieren sich auf Abfragen öffentlicher Datensätze, die Teil von Google Cloud sind.

Öffentlichen Datensatz mit der BigQuery-Konsole abfragen

So fragst du einen öffentlichen Datensatz ab:

1. Klicke neben Explorer auf „Add“.

image10.png

2. Wähle anschließend ein Dataset aus.

image2.png

3. Suche nach „Google Trends“ und wähle Google Trends. Klicke dann auf „View dataset“.

image6.png

4. bigquery-public-data erscheint mit einer langen Liste an Datasets. Setze bigquery-public-data als Favorit (Stern), damit es im Explorer „kleben bleibt“.

image5.png

Wir verwenden die Tabelle top_terms:

image12.png

Klicke auf die Tabelle top_terms, und sieh dir Details und Vorschau an, um mehr über die Daten in top_terms zu erfahren.

image9.png

image21.png

Du kannst den Datensatz abfragen, zum Beispiel so, um Begriffe zu holen, die in den letzten zwei Wochen auf Platz eins standen:

SELECT
  term
FROM
  bigquery-public-data.google_trends.top_terms
WHERE
  rank = 1
  AND refresh_date >= DATE_SUB(CURRENT_DATE(), INTERVAL 2 WEEK)
GROUP BY
  term

Ergebnisse (variieren):

image11.png

BigQuery-Preise

Die BigQuery-Preisstruktur hat zwei Hauptkomponenten: Compute (Query-Verarbeitung) und Storage.

Komponente Kostenloses Kontingent Bezahlmodell
On-Demand-Abfragen 1 TiB pro Monat $6.25 pro TiB
Storage (aktiv) 10 GiB $0.02 pro GiB/Monat
Storage (Langzeit) 10 GiB $0.01 pro GiB/Monat
Streaming-Inserts k. A. $0.05 pro 200 MB

Für Teams mit gut planbaren Workloads bietet BigQuery zudem Pauschalpreise über Kapazitätsreservierungen (BigQuery Editions). Die aktuellen Tarife findest du auf der offiziellen Preisseite.

Fazit

BigQuery ist einer der leichtesten Einstiege ins Cloud-Data-Warehousing. Die Sandbox bietet dir eine risikofreie Umgebung zum Experimentieren, und mit 1 TiB kostenlosen Abfragen pro Monat kannst du öffentliche Datensätze erkunden, ohne Geld auszugeben. Wenn du mehr brauchst, stellt die kostenlose Google-Cloud-Testversion 300 $ Guthaben bereit.

Wenn du das hier Gelernte vertiefen willst, empfehle ich den Kurs Introduction to BigQuery auf DataCamp. Er behandelt Query-Optimierung und die Arbeit mit größeren Datensätzen. Für einen breiteren Blick auf Data Engineering deckt der Data Engineer in Python-Lernpfad die gesamte Pipeline von Ingestion bis Warehousing ab.

Außerdem kannst du in unseren Vergleichen BigQuery vs Redshift und BigQuery vs Snowflake sehen, wie sich BigQuery gegenüber Alternativen schlägt, oder dich mit unserem Guide zu BigQuery-Interviewfragen auf Bewerbungsgespräche vorbereiten.


Eduardo Oliveira's photo
Author
Eduardo Oliveira
LinkedIn

DataCamp Chief Technology Officer und General Manager der Lernplattform. In meiner Funktion leite ich die Teams, die sich mit der Entwicklung der Technologie und dem Lehrplan befassen, der die Erfahrungen der DataCamp-Teilnehmer/innen ermöglicht.

Themen

Starte noch heute mit Data Engineering!

Lernpfad

Associate Data Engineer in SQL

30 Std.
Lerne die Grundlagen des Data Engineering: Datenbankdesign und Data Warehousing, die Arbeit mit Technologien wie PostgreSQL und Snowflake!
Details anzeigenRight Arrow
Kurs starten
Mehr anzeigenRight Arrow
Verwandt

Blog

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Bist du gerade auf der Suche nach einem Job, der Snowflake nutzt? Bereite dich mit diesen 20 besten Snowflake-Interview-Fragen vor, damit du den Job bekommst!
Nisha Arya Ahmed's photo

Nisha Arya Ahmed

15 Min.

Blog

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Keine Hacks, keine Tricks. Schüler/innen und Lehrer/innen, lest weiter, um zu erfahren, wie ihr die Datenerziehung, die euch zusteht, kostenlos bekommen könnt.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

4 Min.

Tutorial

Python Datenstrukturen Tutorial

Mach dich mit Python-Datenstrukturen vertraut: Lerne mehr über Datentypen und primitive sowie nicht-primitive Datenstrukturen wie Strings, Listen, Stapel usw.
Sejal Jaiswal's photo

Sejal Jaiswal

Tutorial

Ein Leitfaden zu Python-Hashmaps

Finde heraus, was Hashmaps sind und wie sie in Python mit Hilfe von Wörterbüchern umgesetzt werden.
Javier Canales Luna's photo

Javier Canales Luna

Tutorial

Python Switch Case Statement: Ein Leitfaden für Anfänger

Erforsche Pythons match-case: eine Anleitung zu seiner Syntax, Anwendungen in Data Science und ML sowie eine vergleichende Analyse mit dem traditionellen switch-case.
Matt Crabtree's photo

Matt Crabtree

Mehr anzeigenMehr anzeigen