Przejdź do głównej treści

Samouczek BigQuery dla początkujących: od konfiguracji do pierwszego zapytania

Dowiedz się, czym jest BigQuery, jak działa, czym różni się od tradycyjnych hurtowni danych oraz jak używać konsoli BigQuery do zapytań na publicznych zbiorach danych udostępnianych przez Google.
Zaktualizowano 21 maj 2026  · 9 min Czytać

Moja przygoda z big data zaczęła się ponad 10 lat temu, gdy pracowałem jako inżynier oprogramowania w Ad-Tech. Zbiory danych szybko rosły i puchły do ogromnych rozmiarów. To była jednocześnie wielka szansa i spore wyzwanie. Zapytania odpowiadające na podstawowe, ale kluczowe pytania raportowe nagle zajmowały godziny.

W odpowiedzi zacząłem w 2013 roku używać baz kolumnowych, takich jak BigQuery. Ponieważ są w chmurze, pozwalały nam wykonywać obciążenia analityczne wydajnie i opłacalnie oraz skalować zasoby w razie potrzeby. W ostatnich latach prowadziłem duży zespół inżynierów danych, który zbudował hurtownię danych BigQuery o wielkości ponad 10 PB, aby nadążyć za szybko rosnącym katalogiem produktów z kategorii wyposażenia domu i rosnącymi potrzebami analitycznymi.

Teraz, jako CTO DataCamp, kieruję różnymi zespołami inżynieryjnymi i contentowymi, które pomagają naszym użytkownikom uczyć się i ćwiczyć dokładnie te umiejętności (i wiele innych). Jestem przekonany, że hurtownie danych w chmurze, takie jak BigQuery, mogą uczynić wiele workflowów znacznie bardziej wydajnymi. Dlatego w tym tutorialu chcę podzielić się z tobą moimi doświadczeniami.

W tym przewodniku poznasz, czym jest BigQuery, jak działa i czym różni się od tradycyjnych hurtowni danych. Nauczysz się korzystać z konsoli BigQuery do wykonywania zapytań na publicznych zbiorach danych udostępnianych przez Google, na praktycznym przykładzie zapytań do Google Trends, aby dowiedzieć się o popularnych tematach.

TL;DR

  • BigQuery to w pełni zarządzana, bezserwerowa hurtownia danych Google Cloud, która pozwala zapytywać petabajty danych przy użyciu standardowego SQL
  • Oddziela warstwę przechowywania od obliczeń, więc każda z nich skaluje się niezależnie, bez zarządzania infrastrukturą
  • Darmowy sandbox daje ci 1 TiB zapytań miesięcznie i dostęp do publicznych zbiorów danych bez potrzeby podawania karty kredytowej
  • BigQuery używa kolumnowego formatu przechowywania zoptymalizowanego pod obciążenia analityczne (OLAP), w odróżnieniu od wierszowo zorientowanych baz OLTP
  • BigQuery ML pozwala budować i wdrażać modele uczenia maszynowego bezpośrednio w hurtowni, używając SQL

Czym jest BigQuery?

BigQuery to w pełni zarządzana, bezserwerowa hurtownia danych rozwijana przez Google do przechowywania i analizy danych w skali. Organizacje używają jej do uruchamiania zapytań analitycznych na petabajtach danych przy użyciu SQL, bez konieczności zarządzania infrastrukturą.

Możesz korzystać z BigQuery za pośrednictwem konsoli Google Cloud, narzędzia wiersza poleceń bq lub bibliotek klienckich dla Pythona, Javy, Go, Node.js, C#, PHP i Ruby.

BigQuery obejmuje też wbudowane uczenie maszynowe (BigQuery ML), które pozwala tworzyć i uruchamiać modele ML bezpośrednio w hurtowni za pomocą SQL. Możesz też importować modele trenowane zewnętrznie z Vertex AI lub innych frameworków.

Ten tutorial jest dla analityków danych, inżynierów danych i administratorów hurtowni danych, którzy zaczynają pracę z BigQuery. Jeśli po lekturze chcesz wejść głębiej, nasz kurs Introduction to BigQuery omawia optymalizację zapytań i zaawansowane workflowy. Możesz też zajrzeć do naszego przewodnika po BigQuery Sandbox i kompletnego tutorialu o hurtowniach danych w GCP

Tradycyjna vs chmurowa hurtownia danych

Tradycyjna hurtownia danych jest wdrażana on‑premise, zwykle wymagając wysokich kosztów początkowych, wykwalifikowanego zespołu do jej utrzymania oraz odpowiedniego planowania, by sprostać rosnącemu zapotrzebowaniu z powodu sztywnej natury skalowania zasobów w tradycyjnych centrach danych.

Chmurowa hurtownia danych, przeciwnie, jest zarządzana i hostowana przez dostawcę usług chmurowych. Przykłady to Google BigQuery, Amazon Redshift i Snowflake.

Zalety chmurowych hurtowni danych

Zwykle chmurowa hurtownia danych ma kilka przewag nad tradycyjnymi:

  • Są zbudowane z myślą o skali i wykorzystaniu elastyczności środowiska chmurowego
  • Mają lepszą szybkość i wydajność
  • Elastyczne ceny i środowisko chmurowe pozwalają optymalizować koszty (np. skalować w dół w okresach niższego popytu)
  • Mogą być w pełni lub częściowo zarządzane, co obniża koszty operacyjne.

Bazy wierszowe vs kolumnowe

Przykład bazy wierszowej:

image20.jpg

Przykład bazy kolumnowej:

image17.png

Bazy wierszowe świetnie się sprawdzają przy odczytach pełnych wierszy, wstawianiu rekordów i aktualizacjach. Gorzej radzą sobie jednak z obciążeniami analitycznymi.

Na przykład, jeśli zapytasz o trzy kolumny z tabeli liczącej 50 kolumn, baza wierszowa i tak odczyta wszystkie 50 kolumn dla każdego wiersza. Baza kolumnowa odczyta tylko te trzy, których potrzebujesz, co jest dużo szybsze dla analiz, takich jak prognozowanie popytu czy ad‑hocowe raportowanie.

Bazy wierszowe są zazwyczaj dobrze dopasowane do przetwarzania transakcyjnego online (OLTP), a bazy kolumnowe do przetwarzania analitycznego online (OLAP).

OLTP vs OLAP

  • OLTP to typ systemu bazodanowego używanego w aplikacjach zorientowanych na transakcje. „Online” oznacza, że takie systemy mają odpowiadać na żądania użytkowników i przetwarzać je w czasie rzeczywistym (tzn. przetwarzać transakcje).
  • Termin kontrastuje z przetwarzaniem analitycznym online (OLAP), które skupia się na analizie danych.

Podsumowanie porównania:

 

Baza wierszowa

Baza kolumnowa

Sposób przechowywania

Wg wierszy

Wg kolumn

Pobieranie danych

Pełne rekordy

Właściwe kolumny

Typowe zastosowanie

OLTP

OLAP

Szybkie operacje

Wstawianie, aktualizacje, odczyty

Zapytania na potrzeby raportowania

Ładowanie danych

Zwykle rekord po rekordzie

Zwykle wsadowo

Popularne opcje

Postgres, MySQL, Oracle, Microsoft SQL Server

Snowflake, Google BigQuery, Amazon Redshift

Jak działa BigQuery?

BigQuery oddziela silnik obliczeniowy od warstwy przechowywania, więc każda z nich może skalować się niezależnie. Efekt: możesz zapytywać terabajty danych w sekundy i petabajty w minuty.

Gdy BigQuery uruchamia zapytanie, silnik zapytań rozdziela pracę równolegle, skanując odpowiednie tabele w warstwie przechowywania, scalając wyniki i zwracając finalny zbiór danych.

image13.png

Kluczowe funkcje BigQuery w 2026 roku

Od premiery BigQuery Google dodał szereg funkcji, które wykraczają poza tradycyjną hurtownię danych:

  • BigQuery ML — Buduj, trenuj i wdrażaj modele uczenia maszynowego za pomocą SQL. Obsługuje regresję liniową, klasyfikację, prognozowanie szeregów czasowych i więcej.
  • Gemini w BigQuery — Wspomaganie AI w pisaniu zapytań, rozumieniu schematów i generowaniu wglądów w dane w języku naturalnym.
  • BigQuery Studio — Zunifikowane środowisko pracy dla SQL, notatników Pythona i Sparka w konsoli BigQuery.
  • Zapytania sfederowane — Zapytuj dane w Cloud SQL, Cloud Storage, Bigtable i innych źródłach bez przenoszenia ich do BigQuery.
  • BigQuery Omni — Uruchamiaj analitykę BigQuery na danych przechowywanych w AWS lub Azure bez kopiowania ich do Google Cloud.

Jak zacząć pracę z BigQuery

Sandbox BigQuery pozwala wypróbować BigQuery bez podawania karty kredytowej czy tworzenia konta rozliczeniowego. W tej sekcji pokażę, jak uzyskać dostęp do BigQuery i skonfigurować pierwszy projekt, korzystając z sandboxa.

Do BigQuery możesz przejść przez Google Cloud Console. Musisz zalogować się kontem Google (lub je utworzyć). Po zalogowaniu powinien pojawić się ekran powitalny:

image4.png

BigQuery znajdziesz w lewym pasku menu. Kliknięcie przeniesie cię do poniższego ekranu:

image1.png

Korzystanie z sandboxa BigQuery

Aby użyć sandboxa BigQuery, najpierw utwórz projekt, klikając „Select Project”.

image14.png

Następnie kliknij „New Project”:

image3.png

Musisz podać nazwę projektu; w tym przewodniku używamy datacamp-guide-project

image7.png

Na stronie BigQuery pojawi się teraz informacja o sandboxie, co oznacza, że pomyślnie włączyłeś sandbox BigQuery.

image16.png

Po włączeniu sandboxa BigQuery możesz używać nowego projektu do ładowania danych i wykonywania zapytań, a także do zapytań na publicznych zbiorach danych Google.

Utwórz zbiór danych i tabelę

Zanim utworzysz tabelę, musisz utworzyć zbiór danych w nowym projekcie. Zbiór danych to kontener najwyższego poziomu używany do organizacji i kontroli dostępu do zestawu tabel i widoków. Aby utworzyć zbiór danych, kliknij ikonę „Actions” przy projekcie:

image18.png

Na potrzeby tego przewodnika wypełnimy „Dataset ID” wartością „main”.

image8.png

Możesz utworzyć tabelę przy użyciu SQL. BigQuery używa GoogleSQL, który jest zgodny z ANSI.

CREATE TABLE datacamp-guide-project.main.users (
  id INT64 NOT NULL,
  first_name STRING NOT NULL,
  middle_name STRING,
  last_name STRING NOT NULL,
  active_account BOOL NOT NULL
);

Możesz też użyć interfejsu BigQuery Console:

image19.png

Uwaga: W środowisku sandbox nie da się wstawiać danych. Jeśli chcesz to wypróbować, musisz włączyć darmowy okres próbny. Kolejne sekcje skupiają się na zapytaniach do publicznych zbiorów danych udostępnianych w Google Cloud.

Zapytanie do publicznego zbioru danych w BigQuery Console

Aby wykonać zapytanie do publicznego zbioru danych, postępuj według kroków poniżej:

1. Kliknij „Add” obok Explorer.

image10.png

2. Następnie wybierz zbiór danych.

image2.png

3. Wyszukaj „Google Trends” i wybierz Google Trends, a potem kliknij przycisk „View dataset”.

image6.png

4. bigquery-public-data pojawi się z długą listą zbiorów danych. Oznacz bigquery-public-data gwiazdką, aby było „przyklejone” w eksploratorze

image5.png

Użyjemy tabeli top_terms:

image12.png

Kliknij tabelę top_terms, aby ją otworzyć, i przejrzyj zakładki Details oraz Preview, by dowiedzieć się więcej o danych w top_terms.

image9.png

image21.png

Możesz zapytać ten zbiór; poniżej przykład pobrania haseł, które zajęły pierwszą pozycję w ciągu ostatnich dwóch tygodni:

SELECT
  term
FROM
  bigquery-public-data.google_trends.top_terms
WHERE
  rank = 1
  AND refresh_date >= DATE_SUB(CURRENT_DATE(), INTERVAL 2 WEEK)
GROUP BY
  term

Wyniki (będą się różnić):

image11.png

Cennik BigQuery

Cennik BigQuery ma dwa główne składniki: obliczenia (przetwarzanie zapytań) i przechowywanie.

Składnik Darmowy pakiet Cena płatna
Zapytania on-demand 1 TiB miesięcznie $6.25 za TiB
Przechowywanie (aktywne) 10 GiB $0.02 za GiB/miesiąc
Przechowywanie (długoterminowe) 10 GiB $0.01 za GiB/miesiąc
Wstawienia strumieniowe N/D $0.05 za 200 MB

Dla zespołów o przewidywalnych obciążeniach BigQuery oferuje też ceny ryczałtowe poprzez rezerwacje mocy (BigQuery Editions). Sprawdź oficjalną stronę cennika, by poznać aktualne stawki.

Na koniec

BigQuery to jeden z najłatwiejszych punktów wejścia do hurtowni danych w chmurze. Sandbox daje ci bezpieczne środowisko do eksperymentów, a 1 TiB darmowych zapytań miesięcznie oznacza, że możesz eksplorować publiczne zbiory danych bez żadnych kosztów. Gdy będziesz potrzebować więcej, darmowy okres próbny Google Cloud zapewnia 300 USD w kredytach.

Jeśli chcesz rozwinąć to, czego się tu nauczyłeś, polecam kurs Introduction to BigQuery na DataCamp, który obejmuje optymalizację zapytań i pracę z większymi zbiorami danych. Szerszy obraz inżynierii danych daje ścieżka Data Engineer in Python, która obejmuje cały pipeline od ingestii po hurtownię.

Możesz też sprawdzić, jak BigQuery wypada na tle alternatyw w naszych porównaniach BigQuery vs Redshift i BigQuery vs Snowflake, albo przygotować się do rozmów kwalifikacyjnych dzięki przewodnikowi BigQuery interview questions.

Tematy

Zacznij z inżynierią danych już dziś!

Track

Młodszy Inżynier Danych w SQL

30 godz.
Poznaj podstawy inżynierii danych: projektowanie baz danych i hurtownie danych, pracując z technologiami takimi jak PostgreSQL i Snowflake!
Zobacz szczegółyRight Arrow
Rozpocznij kurs
Zobacz więcejRight Arrow