Track
Moja przygoda z big data zaczęła się ponad 10 lat temu, gdy pracowałem jako inżynier oprogramowania w Ad-Tech. Zbiory danych szybko rosły i puchły do ogromnych rozmiarów. To była jednocześnie wielka szansa i spore wyzwanie. Zapytania odpowiadające na podstawowe, ale kluczowe pytania raportowe nagle zajmowały godziny.
W odpowiedzi zacząłem w 2013 roku używać baz kolumnowych, takich jak BigQuery. Ponieważ są w chmurze, pozwalały nam wykonywać obciążenia analityczne wydajnie i opłacalnie oraz skalować zasoby w razie potrzeby. W ostatnich latach prowadziłem duży zespół inżynierów danych, który zbudował hurtownię danych BigQuery o wielkości ponad 10 PB, aby nadążyć za szybko rosnącym katalogiem produktów z kategorii wyposażenia domu i rosnącymi potrzebami analitycznymi.
Teraz, jako CTO DataCamp, kieruję różnymi zespołami inżynieryjnymi i contentowymi, które pomagają naszym użytkownikom uczyć się i ćwiczyć dokładnie te umiejętności (i wiele innych). Jestem przekonany, że hurtownie danych w chmurze, takie jak BigQuery, mogą uczynić wiele workflowów znacznie bardziej wydajnymi. Dlatego w tym tutorialu chcę podzielić się z tobą moimi doświadczeniami.
W tym przewodniku poznasz, czym jest BigQuery, jak działa i czym różni się od tradycyjnych hurtowni danych. Nauczysz się korzystać z konsoli BigQuery do wykonywania zapytań na publicznych zbiorach danych udostępnianych przez Google, na praktycznym przykładzie zapytań do Google Trends, aby dowiedzieć się o popularnych tematach.
TL;DR
- BigQuery to w pełni zarządzana, bezserwerowa hurtownia danych Google Cloud, która pozwala zapytywać petabajty danych przy użyciu standardowego SQL
- Oddziela warstwę przechowywania od obliczeń, więc każda z nich skaluje się niezależnie, bez zarządzania infrastrukturą
- Darmowy sandbox daje ci 1 TiB zapytań miesięcznie i dostęp do publicznych zbiorów danych bez potrzeby podawania karty kredytowej
- BigQuery używa kolumnowego formatu przechowywania zoptymalizowanego pod obciążenia analityczne (OLAP), w odróżnieniu od wierszowo zorientowanych baz OLTP
- BigQuery ML pozwala budować i wdrażać modele uczenia maszynowego bezpośrednio w hurtowni, używając SQL
Czym jest BigQuery?
BigQuery to w pełni zarządzana, bezserwerowa hurtownia danych rozwijana przez Google do przechowywania i analizy danych w skali. Organizacje używają jej do uruchamiania zapytań analitycznych na petabajtach danych przy użyciu SQL, bez konieczności zarządzania infrastrukturą.
Możesz korzystać z BigQuery za pośrednictwem konsoli Google Cloud, narzędzia wiersza poleceń bq lub bibliotek klienckich dla Pythona, Javy, Go, Node.js, C#, PHP i Ruby.
BigQuery obejmuje też wbudowane uczenie maszynowe (BigQuery ML), które pozwala tworzyć i uruchamiać modele ML bezpośrednio w hurtowni za pomocą SQL. Możesz też importować modele trenowane zewnętrznie z Vertex AI lub innych frameworków.
Ten tutorial jest dla analityków danych, inżynierów danych i administratorów hurtowni danych, którzy zaczynają pracę z BigQuery. Jeśli po lekturze chcesz wejść głębiej, nasz kurs Introduction to BigQuery omawia optymalizację zapytań i zaawansowane workflowy. Możesz też zajrzeć do naszego przewodnika po BigQuery Sandbox i kompletnego tutorialu o hurtowniach danych w GCP.
Tradycyjna vs chmurowa hurtownia danych
Tradycyjna hurtownia danych jest wdrażana on‑premise, zwykle wymagając wysokich kosztów początkowych, wykwalifikowanego zespołu do jej utrzymania oraz odpowiedniego planowania, by sprostać rosnącemu zapotrzebowaniu z powodu sztywnej natury skalowania zasobów w tradycyjnych centrach danych.
Chmurowa hurtownia danych, przeciwnie, jest zarządzana i hostowana przez dostawcę usług chmurowych. Przykłady to Google BigQuery, Amazon Redshift i Snowflake.
Zalety chmurowych hurtowni danych
Zwykle chmurowa hurtownia danych ma kilka przewag nad tradycyjnymi:
- Są zbudowane z myślą o skali i wykorzystaniu elastyczności środowiska chmurowego
- Mają lepszą szybkość i wydajność
- Elastyczne ceny i środowisko chmurowe pozwalają optymalizować koszty (np. skalować w dół w okresach niższego popytu)
- Mogą być w pełni lub częściowo zarządzane, co obniża koszty operacyjne.
Bazy wierszowe vs kolumnowe
Przykład bazy wierszowej:

Przykład bazy kolumnowej:

Bazy wierszowe świetnie się sprawdzają przy odczytach pełnych wierszy, wstawianiu rekordów i aktualizacjach. Gorzej radzą sobie jednak z obciążeniami analitycznymi.
Na przykład, jeśli zapytasz o trzy kolumny z tabeli liczącej 50 kolumn, baza wierszowa i tak odczyta wszystkie 50 kolumn dla każdego wiersza. Baza kolumnowa odczyta tylko te trzy, których potrzebujesz, co jest dużo szybsze dla analiz, takich jak prognozowanie popytu czy ad‑hocowe raportowanie.
Bazy wierszowe są zazwyczaj dobrze dopasowane do przetwarzania transakcyjnego online (OLTP), a bazy kolumnowe do przetwarzania analitycznego online (OLAP).
OLTP vs OLAP
- OLTP to typ systemu bazodanowego używanego w aplikacjach zorientowanych na transakcje. „Online” oznacza, że takie systemy mają odpowiadać na żądania użytkowników i przetwarzać je w czasie rzeczywistym (tzn. przetwarzać transakcje).
- Termin kontrastuje z przetwarzaniem analitycznym online (OLAP), które skupia się na analizie danych.
Podsumowanie porównania:
|
Baza wierszowa |
Baza kolumnowa |
||||||
|
Sposób przechowywania |
Wg wierszy |
Wg kolumn |
|||||
|
Pobieranie danych |
Pełne rekordy |
Właściwe kolumny |
|||||
|
Typowe zastosowanie |
OLTP |
OLAP |
|||||
|
Szybkie operacje |
Wstawianie, aktualizacje, odczyty |
Zapytania na potrzeby raportowania |
|||||
|
Ładowanie danych |
Zwykle rekord po rekordzie |
Zwykle wsadowo |
|||||
|
Popularne opcje |
Postgres, MySQL, Oracle, Microsoft SQL Server |
Snowflake, Google BigQuery, Amazon Redshift |
|||||
Jak działa BigQuery?
BigQuery oddziela silnik obliczeniowy od warstwy przechowywania, więc każda z nich może skalować się niezależnie. Efekt: możesz zapytywać terabajty danych w sekundy i petabajty w minuty.
Gdy BigQuery uruchamia zapytanie, silnik zapytań rozdziela pracę równolegle, skanując odpowiednie tabele w warstwie przechowywania, scalając wyniki i zwracając finalny zbiór danych.

Kluczowe funkcje BigQuery w 2026 roku
Od premiery BigQuery Google dodał szereg funkcji, które wykraczają poza tradycyjną hurtownię danych:
- BigQuery ML — Buduj, trenuj i wdrażaj modele uczenia maszynowego za pomocą SQL. Obsługuje regresję liniową, klasyfikację, prognozowanie szeregów czasowych i więcej.
- Gemini w BigQuery — Wspomaganie AI w pisaniu zapytań, rozumieniu schematów i generowaniu wglądów w dane w języku naturalnym.
- BigQuery Studio — Zunifikowane środowisko pracy dla SQL, notatników Pythona i Sparka w konsoli BigQuery.
- Zapytania sfederowane — Zapytuj dane w Cloud SQL, Cloud Storage, Bigtable i innych źródłach bez przenoszenia ich do BigQuery.
- BigQuery Omni — Uruchamiaj analitykę BigQuery na danych przechowywanych w AWS lub Azure bez kopiowania ich do Google Cloud.
Jak zacząć pracę z BigQuery
Sandbox BigQuery pozwala wypróbować BigQuery bez podawania karty kredytowej czy tworzenia konta rozliczeniowego. W tej sekcji pokażę, jak uzyskać dostęp do BigQuery i skonfigurować pierwszy projekt, korzystając z sandboxa.
Do BigQuery możesz przejść przez Google Cloud Console. Musisz zalogować się kontem Google (lub je utworzyć). Po zalogowaniu powinien pojawić się ekran powitalny:

BigQuery znajdziesz w lewym pasku menu. Kliknięcie przeniesie cię do poniższego ekranu:

Korzystanie z sandboxa BigQuery
Aby użyć sandboxa BigQuery, najpierw utwórz projekt, klikając „Select Project”.

Następnie kliknij „New Project”:

Musisz podać nazwę projektu; w tym przewodniku używamy datacamp-guide-project

Na stronie BigQuery pojawi się teraz informacja o sandboxie, co oznacza, że pomyślnie włączyłeś sandbox BigQuery.

Po włączeniu sandboxa BigQuery możesz używać nowego projektu do ładowania danych i wykonywania zapytań, a także do zapytań na publicznych zbiorach danych Google.
Utwórz zbiór danych i tabelę
Zanim utworzysz tabelę, musisz utworzyć zbiór danych w nowym projekcie. Zbiór danych to kontener najwyższego poziomu używany do organizacji i kontroli dostępu do zestawu tabel i widoków. Aby utworzyć zbiór danych, kliknij ikonę „Actions” przy projekcie:

Na potrzeby tego przewodnika wypełnimy „Dataset ID” wartością „main”.

Możesz utworzyć tabelę przy użyciu SQL. BigQuery używa GoogleSQL, który jest zgodny z ANSI.
CREATE TABLE datacamp-guide-project.main.users (
id INT64 NOT NULL,
first_name STRING NOT NULL,
middle_name STRING,
last_name STRING NOT NULL,
active_account BOOL NOT NULL
);
Możesz też użyć interfejsu BigQuery Console:

Uwaga: W środowisku sandbox nie da się wstawiać danych. Jeśli chcesz to wypróbować, musisz włączyć darmowy okres próbny. Kolejne sekcje skupiają się na zapytaniach do publicznych zbiorów danych udostępnianych w Google Cloud.
Zapytanie do publicznego zbioru danych w BigQuery Console
Aby wykonać zapytanie do publicznego zbioru danych, postępuj według kroków poniżej:
1. Kliknij „Add” obok Explorer.

2. Następnie wybierz zbiór danych.

3. Wyszukaj „Google Trends” i wybierz Google Trends, a potem kliknij przycisk „View dataset”.

4. bigquery-public-data pojawi się z długą listą zbiorów danych. Oznacz bigquery-public-data gwiazdką, aby było „przyklejone” w eksploratorze

Praktyczny przykład z użyciem zbioru Google Trends
Użyjemy tabeli top_terms:

Kliknij tabelę top_terms, aby ją otworzyć, i przejrzyj zakładki Details oraz Preview, by dowiedzieć się więcej o danych w top_terms.


Możesz zapytać ten zbiór; poniżej przykład pobrania haseł, które zajęły pierwszą pozycję w ciągu ostatnich dwóch tygodni:
SELECT
term
FROM
bigquery-public-data.google_trends.top_terms
WHERE
rank = 1
AND refresh_date >= DATE_SUB(CURRENT_DATE(), INTERVAL 2 WEEK)
GROUP BY
term
Wyniki (będą się różnić):

Cennik BigQuery
Cennik BigQuery ma dwa główne składniki: obliczenia (przetwarzanie zapytań) i przechowywanie.
| Składnik | Darmowy pakiet | Cena płatna |
|---|---|---|
| Zapytania on-demand | 1 TiB miesięcznie | $6.25 za TiB |
| Przechowywanie (aktywne) | 10 GiB | $0.02 za GiB/miesiąc |
| Przechowywanie (długoterminowe) | 10 GiB | $0.01 za GiB/miesiąc |
| Wstawienia strumieniowe | N/D | $0.05 za 200 MB |
Dla zespołów o przewidywalnych obciążeniach BigQuery oferuje też ceny ryczałtowe poprzez rezerwacje mocy (BigQuery Editions). Sprawdź oficjalną stronę cennika, by poznać aktualne stawki.
Na koniec
BigQuery to jeden z najłatwiejszych punktów wejścia do hurtowni danych w chmurze. Sandbox daje ci bezpieczne środowisko do eksperymentów, a 1 TiB darmowych zapytań miesięcznie oznacza, że możesz eksplorować publiczne zbiory danych bez żadnych kosztów. Gdy będziesz potrzebować więcej, darmowy okres próbny Google Cloud zapewnia 300 USD w kredytach.
Jeśli chcesz rozwinąć to, czego się tu nauczyłeś, polecam kurs Introduction to BigQuery na DataCamp, który obejmuje optymalizację zapytań i pracę z większymi zbiorami danych. Szerszy obraz inżynierii danych daje ścieżka Data Engineer in Python, która obejmuje cały pipeline od ingestii po hurtownię.
Możesz też sprawdzić, jak BigQuery wypada na tle alternatyw w naszych porównaniach BigQuery vs Redshift i BigQuery vs Snowflake, albo przygotować się do rozmów kwalifikacyjnych dzięki przewodnikowi BigQuery interview questions.