Program
Paparan saya terhadap big data dimulai lebih dari 10 tahun lalu sebagai software engineer di Ad-Tech. Saat itu, dataset mulai tumbuh pesat dan melonjak ukurannya. Di saat yang sama, ini merupakan peluang besar sekaligus tantangan. Kueri untuk menjawab pertanyaan pelaporan yang dasar namun krusial tiba-tiba memakan waktu berjam-jam.
Sebagai respons, saya mulai menggunakan database berorientasi kolom seperti BigQuery pada 2013. Karena berbasis cloud, solusi ini memungkinkan kami menjalankan beban kerja analitik dengan performa tinggi dan biaya efisien, serta meningkatkan sumber daya jika diperlukan. Beberapa tahun terakhir, saya memimpin tim engineer data besar yang membangun gudang data BigQuery berukuran lebih dari 10 PB untuk mengikuti pertumbuhan cepat katalog produk perlengkapan rumah dan kebutuhan analitik yang kian meningkat.
Kini, sebagai CTO DataCamp, saya memimpin tim engineering dan konten yang membantu pengguna mempelajari dan mempraktikkan keterampilan ini (dan banyak lainnya). Saya yakin gudang data cloud seperti BigQuery dapat membuat banyak alur kerja jauh lebih efisien. Itulah mengapa saya ingin berbagi pengalaman melalui tutorial ini.
Dalam panduan ini, Anda akan mempelajari apa itu BigQuery, cara kerjanya, dan perbedaannya dengan gudang data tradisional. Anda juga akan mempelajari cara menggunakan konsol BigQuery untuk menanyakan dataset publik yang disediakan Google dengan contoh praktis menanyakan Google Trends untuk mengetahui topik populer.
TL;DR
- BigQuery adalah gudang data tanpa server (serverless) yang sepenuhnya dikelola oleh Google Cloud dan memungkinkan Anda menanyakan data dalam skala petabyte menggunakan SQL standar
- BigQuery memisahkan penyimpanan dari komputasi, sehingga masing-masing dapat diskalakan secara independen tanpa pengelolaan infrastruktur
- Sandbox gratis memberi Anda 1 TiB kueri per bulan dan akses ke dataset publik tanpa perlu kartu kredit
- BigQuery menggunakan format penyimpanan kolumnar yang dioptimalkan untuk beban kerja analitik (OLAP), berbeda dengan database OLTP berorientasi baris
- BigQuery ML memungkinkan Anda membangun dan menerapkan model machine learning langsung di gudang data menggunakan SQL
Apa itu BigQuery?
BigQuery adalah gudang data tanpa server yang sepenuhnya dikelola dan dikembangkan oleh Google untuk menyimpan dan menganalisis data dalam skala besar. Organisasi menggunakannya untuk menjalankan kueri analitik pada data berskala petabyte menggunakan SQL, tanpa perlu mengelola infrastruktur apa pun.
Anda dapat berinteraksi dengan BigQuery melalui Google Cloud console, alat baris perintah bq, atau library klien untuk Python, Java, Go, Node.js, C#, PHP, dan Ruby.
BigQuery juga menyertakan machine learning bawaan (BigQuery ML), yang memungkinkan Anda membuat dan menjalankan model ML langsung di gudang data menggunakan SQL. Anda juga dapat mengimpor model yang dilatih secara eksternal dari Vertex AI atau kerangka kerja lain.
Tutorial ini ditujukan untuk analis data, engineer data, dan administrator gudang data yang mulai menggunakan BigQuery. Jika ingin mendalami setelahnya, kursus Pengantar BigQuery kami membahas pengoptimalan kueri dan alur kerja lanjutan. Anda juga dapat mengeksplor panduan BigQuery Sandbox dan tutorial lengkap gudang data GCP.
Gudang Data Tradisional vs Cloud
Sebuah gudang data tradisional diterapkan di on-premise, biasanya memerlukan biaya awal yang tinggi, tim terampil untuk mengelolanya, dan perencanaan yang matang untuk memenuhi permintaan yang meningkat karena sifat penskalaan sumber daya pusat data tradisional yang kaku.
Sebaliknya, gudang data cloud dikelola dan dihosting oleh penyedia layanan cloud. Contohnya termasuk Google BigQuery, Amazon Redshift, dan Snowflake.
Keunggulan gudang data cloud
Secara umum, gudang data cloud memiliki beberapa keunggulan dibandingkan gudang data tradisional:
- Dibangun untuk skala dan memanfaatkan fleksibilitas lingkungan cloud
- Memiliki kecepatan dan performa yang lebih baik
- Penetapan harga yang fleksibel dan lingkungan cloud memungkinkan optimalisasi biaya (misalnya, menurunkan skala saat permintaan rendah)
- Dapat dikelola sepenuhnya atau sebagian, sehingga mengurangi biaya operasional.
Database Berorientasi Baris vs Kolom
Contoh database berorientasi baris:

Contoh database berorientasi kolom:

Database berorientasi baris bekerja dengan baik untuk pencarian seluruh baris, penyisipan rekaman, dan pembaruan. Namun, jenis ini kurang optimal untuk beban kerja analitik.
Sebagai contoh, jika Anda menanyakan tiga kolom dari tabel yang memiliki 50 kolom, database berorientasi baris tetap membaca semua 50 kolom untuk setiap baris. Database berorientasi kolom hanya membaca tiga kolom yang Anda butuhkan, yang jauh lebih cepat untuk analitik seperti peramalan produk atau pelaporan ad-hoc.
Database berorientasi baris umumnya cocok untuk pemrosesan transaksi online (OLTP), dan database berorientasi kolom untuk pemrosesan analitik online (OLAP).
OLTP vs OLAP
- OLTP adalah jenis sistem basis data yang digunakan dalam aplikasi berorientasi transaksi. "Online" berarti sistem tersebut diharapkan merespons permintaan pengguna dan memprosesnya secara real-time (yaitu memproses transaksi).
- Istilah ini berlawanan dengan pemrosesan analitik online (OLAP), yang fokus pada analisis data.
Ringkasan perbandingan:
|
Database berorientasi baris |
Database berorientasi kolom |
||||||
|
Penyimpanan |
Per Baris |
Per Kolom |
|||||
|
Pengambilan data |
Rekaman lengkap |
Kolom relevan |
|||||
|
Aplikasi tipikal |
OLTP |
OLAP |
|||||
|
Operasi yang cepat |
Penyisipan, Pembaruan, Pencarian |
Kueri untuk tujuan pelaporan |
|||||
|
Memuat data |
Biasanya satu rekaman setiap kali |
Biasanya secara batch |
|||||
|
Opsi populer |
Postgres, MySQL, Oracle, Microsoft SQL Server |
Snowflake, Google BigQuery, Amazon Redshift |
|||||
Bagaimana Cara Kerja BigQuery?
BigQuery memisahkan mesin komputasinya dari penyimpanan, sehingga masing-masing dapat diskalakan secara independen. Hasilnya: Anda dapat menanyakan data berukuran terabyte dalam hitungan detik dan petabyte dalam hitungan menit.
Saat BigQuery menjalankan sebuah kueri, mesin kueri mendistribusikan pekerjaan secara paralel, memindai tabel relevan di penyimpanan, menggabungkan hasilnya, dan mengembalikan set data final.

Fitur Kunci BigQuery pada 2026
Sejak diluncurkan, Google menambahkan sejumlah fitur yang memperluas BigQuery melampaui gudang data tradisional:
- BigQuery ML — Bangun, latih, dan terapkan model machine learning menggunakan SQL. Mendukung regresi linear, klasifikasi, peramalan deret waktu, dan lainnya.
- Gemini di BigQuery — Asistensi bertenaga AI untuk menulis kueri, memahami skema, dan menghasilkan wawasan data melalui bahasa alami.
- BigQuery Studio — Ruang kerja terpadu untuk SQL, notebook Python, dan Spark di dalam konsol BigQuery.
- Kueri terfederasi — Menanyakan data di Cloud SQL, Cloud Storage, Bigtable, dan sumber lain tanpa memindahkannya ke BigQuery.
- BigQuery Omni — Menjalankan analitik BigQuery pada data yang disimpan di AWS atau Azure tanpa menyalinnya ke Google Cloud.
Cara Memulai dengan BigQuery
Sandbox BigQuery memungkinkan Anda mencoba BigQuery tanpa memberikan kartu kredit atau membuat akun penagihan. Di bagian ini, saya akan memandu cara mengakses BigQuery dan menyiapkan proyek pertama menggunakan sandbox.
BigQuery dapat diakses melalui Google Cloud Console. Anda perlu masuk dengan akun Google (atau membuatnya). Setelah masuk, layar sambutan akan muncul:

Anda dapat menemukan BigQuery di bilah menu sebelah kiri. Mengkliknya akan membawa Anda ke layar berikut:

Menggunakan sandbox BigQuery
Untuk menggunakan sandbox BigQuery, terlebih dahulu buat proyek dengan mengeklik ‘Select Project’.

Lalu klik ‘New Project’:

Anda perlu memberikan nama proyek; untuk panduan ini, kami menggunakan datacamp-guide-project

Notifikasi sandbox kini ditampilkan pada halaman BigQuery, menandakan Anda telah berhasil mengaktifkan sandbox BigQuery.

Dengan sandbox BigQuery yang sekarang aktif, Anda dapat menggunakan proyek baru untuk memuat data dan melakukan kueri serta menanyakan dataset publik Google.
Membuat dataset dan tabel
Sebelum membuat tabel, Anda perlu membuat dataset di proyek baru Anda. Dataset adalah kontainer tingkat atas yang digunakan untuk mengatur dan mengendalikan akses ke sekumpulan tabel dan view. Untuk membuat dataset, klik ikon ‘Actions’ pada proyek:

Untuk keperluan panduan ini, kita akan mengisi ‘Dataset ID’ dengan ‘main’.

Anda dapat membuat tabel menggunakan SQL. BigQuery menggunakan GoogleSQL, yang sesuai dengan standar ANSI.
CREATE TABLE datacamp-guide-project.main.users (
id INT64 NOT NULL,
first_name STRING NOT NULL,
middle_name STRING,
last_name STRING NOT NULL,
active_account BOOL NOT NULL
);
Anda juga dapat menggunakan antarmuka BigQuery Console:

Catatan: Tidak memungkinkan untuk memasukkan data saat berada di lingkungan sandbox. Jika ingin mencoba memasukkan data, Anda perlu mengaktifkan uji coba gratis. Bagian selanjutnya berfokus pada kueri dataset publik yang disediakan sebagai bagian dari Google Cloud.
Menanyakan dataset publik menggunakan BigQuery Console
Untuk menanyakan dataset publik, ikuti langkah-langkah berikut:
1. Klik ‘Add’ di sebelah Explorer.

2. Lalu, pilih dataset.

3. Cari ‘Google Trends’ dan pilih Google Trends, lalu klik tombol ‘View dataset’.

4. bigquery-public-data akan muncul dengan daftar panjang dataset. Beri bintang pada bigquery-public-data agar menjadi “lengket” di explorer

Contoh Praktis Menggunakan Dataset Google Trends
Kita akan menggunakan tabel top_terms:

Klik tabel top_terms untuk membukanya, dan periksa tab Details dan Preview untuk mempelajari lebih lanjut tentang data top_terms.


Anda dapat menanyakan dataset tersebut, contoh di bawah ini untuk mengambil istilah yang menempati peringkat pertama dalam dua minggu terakhir:
SELECT
term
FROM
bigquery-public-data.google_trends.top_terms
WHERE
rank = 1
AND refresh_date >= DATE_SUB(CURRENT_DATE(), INTERVAL 2 WEEK)
GROUP BY
term
Hasil (akan bervariasi):

Harga BigQuery
Harga BigQuery memiliki dua komponen utama: komputasi (pemrosesan kueri) dan penyimpanan.
| Komponen | Kuota gratis | Harga berbayar |
|---|---|---|
| Kueri on-demand | 1 TiB per bulan | $6.25 per TiB |
| Penyimpanan (aktif) | 10 GiB | $0.02 per GiB/bulan |
| Penyimpanan (jangka panjang) | 10 GiB | $0.01 per GiB/bulan |
| Penyisipan streaming | Tidak berlaku | $0.05 per 200 MB |
Untuk tim dengan beban kerja yang dapat diprediksi, BigQuery juga menawarkan harga flat melalui reservasi kapasitas (BigQuery Editions). Lihat halaman harga resmi untuk tarif terkini.
Penutup
BigQuery adalah salah satu titik masuk paling mudah ke gudang data cloud. Sandbox memberi Anda lingkungan bebas risiko untuk bereksperimen, dan kuota 1 TiB kueri gratis per bulan memungkinkan Anda menjelajahi dataset publik tanpa biaya. Saat Anda membutuhkan lebih, uji coba gratis Google Cloud menyediakan kredit $300.
Jika Anda ingin melanjutkan dari apa yang dipelajari di sini, saya merekomendasikan kursus Pengantar BigQuery di DataCamp, yang membahas pengoptimalan kueri dan bekerja dengan dataset yang lebih besar. Untuk gambaran yang lebih luas tentang rekayasa data, track Data Engineer in Python mencakup alur lengkap dari ingest hingga warehousing.
Anda juga dapat mengeksplor bagaimana BigQuery dibandingkan alternatifnya dalam perbandingan BigQuery vs Redshift dan BigQuery vs Snowflake, atau bersiap untuk wawancara dengan panduan pertanyaan wawancara BigQuery kami.
Chief Technology Officer DataCamp dan General Manager Learning Platform. Dalam peran saya, saya memimpin tim yang berfokus pada pengembangan teknologi serta kurikulum yang mendukung pengalaman belajar para pengguna DataCamp.

