Programma
Il mio incontro con il big data è iniziato oltre 10 anni fa, quando lavoravo come software engineer nell’Ad-Tech. All’epoca, i dataset hanno iniziato a crescere rapidamente ed esplodere in dimensioni. Era una grande opportunità, ma anche una sfida. Le query per rispondere a domande basilari ma cruciali per i report improvvisamente richiedevano ore.
Per questo, nel 2013 ho iniziato a usare database orientati alle colonne come BigQuery. Essendo basati sul cloud, ci hanno permesso di eseguire carichi analitici in modo performante e conveniente, oltre a scalare le risorse quando necessario. Negli ultimi anni ho guidato un ampio team di data engineer che ha costruito un data warehouse BigQuery da oltre 10 PB per tenere il passo con un catalogo di prodotti per la casa in rapida crescita e con esigenze analitiche in aumento.
Oggi, come CTO di DataCamp, guido diversi team di engineering e di contenuti che aiutano gli utenti a imparare e mettere in pratica proprio queste competenze (tra le altre). Sono convinto che data warehouse cloud come BigQuery possano rendere molti flussi di lavoro molto più efficienti. Ecco perché voglio condividere con te le mie esperienze in questo tutorial.
In questa guida scoprirai cos’è BigQuery, come funziona e in cosa differisce dai data warehouse tradizionali. Imparerai a usare la console BigQuery per interrogare i dataset pubblici messi a disposizione da Google, con un esempio pratico su come interrogare Google Trends per scoprire gli argomenti più popolari.
TL;DR
- BigQuery è il data warehouse completamente gestito e serverless di Google Cloud che ti consente di interrogare petabyte di dati con SQL standard
- Separa lo storage dal compute, così ognuno scala in modo indipendente, senza gestione dell’infrastruttura
- La sandbox gratuita offre 1 TiB di query al mese e accesso ai dataset pubblici senza carta di credito
- BigQuery usa un formato di archiviazione colonnare ottimizzato per carichi analitici (OLAP), a differenza dei database orientati alle righe per l’OLTP
- BigQuery ML ti permette di creare e distribuire modelli di machine learning direttamente nel warehouse usando SQL
Che cos’è BigQuery?
BigQuery è un data warehouse completamente gestito e serverless sviluppato da Google per archiviare e analizzare dati su larga scala. Le organizzazioni lo usano per eseguire query analitiche su petabyte di dati usando SQL, senza dover gestire alcuna infrastruttura.
Puoi interagire con BigQuery tramite la console Google Cloud, lo strumento da riga di comando bq o le librerie client per Python, Java, Go, Node.js, C#, PHP e Ruby.
BigQuery include anche funzionalità ML integrate (BigQuery ML), che ti consentono di creare ed eseguire modelli di machine learning direttamente nel warehouse usando SQL. Puoi anche importare modelli addestrati esternamente da Vertex AI o altri framework.
Questo tutorial è rivolto a data analyst, data engineer e amministratori di data warehouse che iniziano a usare BigQuery. Se vuoi approfondire, il nostro corso Introduction to BigQuery tratta l’ottimizzazione delle query e flussi di lavoro avanzati. Puoi anche esplorare la nostra guida alla BigQuery Sandbox e il tutorial completo sul data warehousing in GCP.
Data warehouse tradizionale vs cloud
Un data warehouse tradizionale è distribuito on-premise, richiede in genere alti costi iniziali, un team qualificato per gestirlo e un’adeguata pianificazione per soddisfare la domanda crescente, a causa della natura rigida dello scaling delle risorse nei data center tradizionali.
Un data warehouse cloud, invece, è gestito e ospitato da un provider di servizi cloud. Esempi sono Google BigQuery, Amazon Redshift e Snowflake.
Vantaggi dei data warehouse cloud
In genere, un data warehouse cloud presenta diversi vantaggi rispetto a quelli tradizionali:
- Sono progettati per la scalabilità e per sfruttare la flessibilità dell’ambiente cloud
- Hanno velocità e prestazioni migliorate
- Prezzi flessibili e un ambiente cloud consentono l’ottimizzazione dei costi (ad es. scalare verso il basso nei periodi di bassa domanda)
- Possono essere completamente o parzialmente gestiti, riducendo i costi operativi.
Database orientati alle righe vs alle colonne
Esempio di database orientato alle righe:

Esempio di database orientato alle colonne:

I database orientati alle righe funzionano bene per recuperi completi di righe, inserimenti di record e aggiornamenti. Ma faticano con i carichi di lavoro analitici.
Per esempio, se interroghi tre colonne da una tabella con 50 colonne, un database orientato alle righe leggerà comunque tutte e 50 le colonne per ogni riga. Un database orientato alle colonne legge solo le tre colonne di cui hai bisogno, risultando molto più veloce per analisi come il forecasting dei prodotti o reportistica ad hoc.
I database orientati alle righe sono in genere adatti all’online transaction processing (OLTP), mentre quelli orientati alle colonne all’online analytical processing (OLAP).
OLTP vs OLAP
- OLTP è un tipo di sistema di database usato nelle applicazioni orientate alle transazioni. "Online" significa che tali sistemi devono rispondere alle richieste degli utenti ed elaborarle in tempo reale (cioè elaborare transazioni).
- Il termine contrasta con l’online analytical processing (OLAP), che invece si concentra sull’analisi dei dati.
Riepilogo del confronto:
|
Database orientato alle righe |
Database orientato alle colonne |
||||||
|
Archiviazione |
Per riga |
Per colonna |
|||||
|
Recupero dati |
Record completi |
Colonne rilevanti |
|||||
|
Applicazione tipica |
OLTP |
OLAP |
|||||
|
Operazioni veloci |
Inserimenti, aggiornamenti, look-up |
Query a fini di reportistica |
|||||
|
Caricamento dati |
Tipicamente un record alla volta |
Tipicamente in batch |
|||||
|
Opzioni popolari |
Postgres, MySQL, Oracle, Microsoft SQL Server |
Snowflake, Google BigQuery, Amazon Redshift |
|||||
Come funziona BigQuery?
BigQuery separa il motore di calcolo dallo storage, così ciascuno può scalare in modo indipendente. Risultato: puoi interrogare terabyte di dati in pochi secondi e petabyte in minuti.
Quando BigQuery esegue una query, il motore di query distribuisce il lavoro in parallelo, scansiona le tabelle rilevanti nello storage, unisce i risultati e restituisce il dataset finale.

Funzionalità principali di BigQuery nel 2026
Dall’introduzione di BigQuery, Google ha aggiunto diverse funzionalità che lo estendono oltre un data warehouse tradizionale:
- BigQuery ML — Crea, addestra e distribuisci modelli di machine learning usando SQL. Supporta regressione lineare, classificazione, forecasting di serie temporali e altro.
- Gemini in BigQuery — Assistenza basata su AI per scrivere query, comprendere gli schemi e generare insight sui dati in linguaggio naturale.
- BigQuery Studio — Uno spazio di lavoro unificato per SQL, notebook Python e Spark all’interno della console BigQuery.
- Query federate — Interroga dati in Cloud SQL, Cloud Storage, Bigtable e altre fonti senza spostarli in BigQuery.
- BigQuery Omni — Esegui analisi BigQuery su dati archiviati in AWS o Azure senza copiarli su Google Cloud.
Come iniziare con BigQuery
La sandbox di BigQuery ti permette di provarlo senza fornire una carta di credito o creare un account di fatturazione. In questa sezione ti mostrerò come accedere a BigQuery e configurare il tuo primo progetto usando la sandbox.
Puoi accedere a BigQuery tramite la Google Cloud Console. Dovrai accedere con un account Google (o crearne uno). Una volta effettuato l’accesso, dovrebbe comparire una schermata di benvenuto:

Puoi trovare BigQuery nella barra del menu a sinistra. Facendo clic verrai portato alla schermata seguente:

Usare la sandbox di BigQuery
Per usare la sandbox di BigQuery, crea prima un progetto facendo clic su "Select Project".

Poi fai clic su "New Project":

Dovrai fornire un nome per il progetto; per questa guida usiamo datacamp-guide-project

Ora nella pagina di BigQuery viene visualizzato un avviso della sandbox, che indica che hai abilitato correttamente la sandbox di BigQuery.

Con la sandbox di BigQuery abilitata, puoi usare il tuo nuovo progetto per caricare dati e fare query, oltre a interrogare i dataset pubblici di Google.
Crea un dataset e una tabella
Prima di creare una tabella, devi creare un dataset nel tuo nuovo progetto. Un dataset è un contenitore di primo livello usato per organizzare e controllare l’accesso a un insieme di tabelle e viste. Per creare un dataset, fai clic sull’icona "Actions" del progetto:

Per questa guida, inseriremo "Dataset ID" con "main".

Puoi creare una tabella usando SQL. BigQuery usa GoogleSQL, conforme allo standard ANSI.
CREATE TABLE datacamp-guide-project.main.users (
id INT64 NOT NULL,
first_name STRING NOT NULL,
middle_name STRING,
last_name STRING NOT NULL,
active_account BOOL NOT NULL
);
Puoi anche usare l’interfaccia della Console BigQuery:

Nota: Non è possibile inserire dati mentre si è in ambiente sandbox. Se vuoi provare a inserire dati, devi abilitare la prova gratuita. Le prossime sezioni si concentrano sull’interrogazione dei dataset pubblici forniti nell’ambito di Google Cloud.
Interrogare un dataset pubblico con la Console BigQuery
Per interrogare un dataset pubblico, segui questi passaggi:
1. Clicca su "Add" accanto a Explorer.

2. Poi scegli un dataset.

3. Cerca "Google Trends" e seleziona Google Trends, quindi fai clic sul pulsante "View dataset".

4. bigquery-public-data comparirà con un lungo elenco di dataset. Aggiungi bigquery-public-data ai preferiti (stella) così rimane "fisso" nell’explorer

Un esempio pratico con il dataset Google Trends
Useremo la tabella top_terms:

Clicca sulla tabella top_terms per aprirla e ispeziona le schede Details e Preview per saperne di più sui dati di top_terms.


Puoi interrogare il dataset; ecco un esempio per recuperare i termini che hanno raggiunto la prima posizione nelle ultime due settimane:
SELECT
term
FROM
bigquery-public-data.google_trends.top_terms
WHERE
rank = 1
AND refresh_date >= DATE_SUB(CURRENT_DATE(), INTERVAL 2 WEEK)
GROUP BY
term
Risultati (variano):

Prezzi di BigQuery
La tariffazione di BigQuery ha due componenti principali: compute (elaborazione delle query) e storage.
| Componente | Livello gratuito | Prezzo a pagamento |
|---|---|---|
| Query on-demand | 1 TiB al mese | $6.25 per TiB |
| Storage (attivo) | 10 GiB | $0.02 per GiB/mese |
| Storage (a lungo termine) | 10 GiB | $0.01 per GiB/mese |
| Streaming insert | N/D | $0.05 per 200 MB |
Per i team con carichi di lavoro prevedibili, BigQuery offre anche prezzi flat tramite prenotazioni di capacità (BigQuery Editions). Controlla la pagina ufficiale dei prezzi per le tariffe aggiornate.
Considerazioni finali
BigQuery è uno dei punti di ingresso più accessibili al data warehousing nel cloud. La sandbox ti offre un ambiente senza rischi per sperimentare e 1 TiB di query gratuite al mese significa che puoi esplorare i dataset pubblici senza spendere nulla. Quando ti serve di più, la prova gratuita di Google Cloud fornisce 300 $ di crediti.
Se vuoi consolidare quanto hai imparato qui, ti consiglio il corso Introduction to BigQuery su DataCamp, che tratta l’ottimizzazione delle query e la gestione di dataset più grandi. Per una panoramica più ampia del data engineering, il percorso Data Engineer in Python copre l’intera pipeline, dall’ingestione al warehousing.
Puoi anche esplorare come BigQuery si confronta con le alternative nei nostri confronti BigQuery vs Redshift e BigQuery vs Snowflake, oppure prepararti ai colloqui con la nostra guida alle domande di colloquio su BigQuery.
Chief Technology Officer di DataCamp e General Manager della Learning Platform. Nel mio ruolo, gestisco i team focalizzati sulla creazione della tecnologia e del curriculum che alimentano l'esperienza degli utenti di DataCamp.


