Vai al contenuto principale

Tutorial BigQuery per principianti: dalla configurazione alla prima query

Scopri cos'è BigQuery, come funziona, in cosa differisce dai data warehouse tradizionali e come usare la console BigQuery per interrogare i dataset pubblici forniti da Google.
Aggiornato 21 mag 2026  · 9 min leggi

Il mio incontro con il big data è iniziato oltre 10 anni fa, quando lavoravo come software engineer nell’Ad-Tech. All’epoca, i dataset hanno iniziato a crescere rapidamente ed esplodere in dimensioni. Era una grande opportunità, ma anche una sfida. Le query per rispondere a domande basilari ma cruciali per i report improvvisamente richiedevano ore.

Per questo, nel 2013 ho iniziato a usare database orientati alle colonne come BigQuery. Essendo basati sul cloud, ci hanno permesso di eseguire carichi analitici in modo performante e conveniente, oltre a scalare le risorse quando necessario. Negli ultimi anni ho guidato un ampio team di data engineer che ha costruito un data warehouse BigQuery da oltre 10 PB per tenere il passo con un catalogo di prodotti per la casa in rapida crescita e con esigenze analitiche in aumento.

Oggi, come CTO di DataCamp, guido diversi team di engineering e di contenuti che aiutano gli utenti a imparare e mettere in pratica proprio queste competenze (tra le altre). Sono convinto che data warehouse cloud come BigQuery possano rendere molti flussi di lavoro molto più efficienti. Ecco perché voglio condividere con te le mie esperienze in questo tutorial.

In questa guida scoprirai cos’è BigQuery, come funziona e in cosa differisce dai data warehouse tradizionali. Imparerai a usare la console BigQuery per interrogare i dataset pubblici messi a disposizione da Google, con un esempio pratico su come interrogare Google Trends per scoprire gli argomenti più popolari.

TL;DR

  • BigQuery è il data warehouse completamente gestito e serverless di Google Cloud che ti consente di interrogare petabyte di dati con SQL standard
  • Separa lo storage dal compute, così ognuno scala in modo indipendente, senza gestione dell’infrastruttura
  • La sandbox gratuita offre 1 TiB di query al mese e accesso ai dataset pubblici senza carta di credito
  • BigQuery usa un formato di archiviazione colonnare ottimizzato per carichi analitici (OLAP), a differenza dei database orientati alle righe per l’OLTP
  • BigQuery ML ti permette di creare e distribuire modelli di machine learning direttamente nel warehouse usando SQL

Che cos’è BigQuery?

BigQuery è un data warehouse completamente gestito e serverless sviluppato da Google per archiviare e analizzare dati su larga scala. Le organizzazioni lo usano per eseguire query analitiche su petabyte di dati usando SQL, senza dover gestire alcuna infrastruttura.

Puoi interagire con BigQuery tramite la console Google Cloud, lo strumento da riga di comando bq o le librerie client per Python, Java, Go, Node.js, C#, PHP e Ruby.

BigQuery include anche funzionalità ML integrate (BigQuery ML), che ti consentono di creare ed eseguire modelli di machine learning direttamente nel warehouse usando SQL. Puoi anche importare modelli addestrati esternamente da Vertex AI o altri framework.

Questo tutorial è rivolto a data analyst, data engineer e amministratori di data warehouse che iniziano a usare BigQuery. Se vuoi approfondire, il nostro corso Introduction to BigQuery tratta l’ottimizzazione delle query e flussi di lavoro avanzati. Puoi anche esplorare la nostra guida alla BigQuery Sandbox e il tutorial completo sul data warehousing in GCP

Data warehouse tradizionale vs cloud

Un data warehouse tradizionale è distribuito on-premise, richiede in genere alti costi iniziali, un team qualificato per gestirlo e un’adeguata pianificazione per soddisfare la domanda crescente, a causa della natura rigida dello scaling delle risorse nei data center tradizionali.

Un data warehouse cloud, invece, è gestito e ospitato da un provider di servizi cloud. Esempi sono Google BigQuery, Amazon Redshift e Snowflake.

Vantaggi dei data warehouse cloud

In genere, un data warehouse cloud presenta diversi vantaggi rispetto a quelli tradizionali:

  • Sono progettati per la scalabilità e per sfruttare la flessibilità dell’ambiente cloud
  • Hanno velocità e prestazioni migliorate
  • Prezzi flessibili e un ambiente cloud consentono l’ottimizzazione dei costi (ad es. scalare verso il basso nei periodi di bassa domanda)
  • Possono essere completamente o parzialmente gestiti, riducendo i costi operativi.

Database orientati alle righe vs alle colonne

Esempio di database orientato alle righe:

image20.jpg

Esempio di database orientato alle colonne:

image17.png

I database orientati alle righe funzionano bene per recuperi completi di righe, inserimenti di record e aggiornamenti. Ma faticano con i carichi di lavoro analitici.

Per esempio, se interroghi tre colonne da una tabella con 50 colonne, un database orientato alle righe leggerà comunque tutte e 50 le colonne per ogni riga. Un database orientato alle colonne legge solo le tre colonne di cui hai bisogno, risultando molto più veloce per analisi come il forecasting dei prodotti o reportistica ad hoc.

I database orientati alle righe sono in genere adatti all’online transaction processing (OLTP), mentre quelli orientati alle colonne all’online analytical processing (OLAP).

OLTP vs OLAP

  • OLTP è un tipo di sistema di database usato nelle applicazioni orientate alle transazioni. "Online" significa che tali sistemi devono rispondere alle richieste degli utenti ed elaborarle in tempo reale (cioè elaborare transazioni).
  • Il termine contrasta con l’online analytical processing (OLAP), che invece si concentra sull’analisi dei dati.

Riepilogo del confronto:

 

Database orientato alle righe

Database orientato alle colonne

Archiviazione

Per riga

Per colonna

Recupero dati

Record completi

Colonne rilevanti

Applicazione tipica

OLTP

OLAP

Operazioni veloci

Inserimenti, aggiornamenti, look-up

Query a fini di reportistica

Caricamento dati

Tipicamente un record alla volta

Tipicamente in batch

Opzioni popolari

Postgres, MySQL, Oracle, Microsoft SQL Server

Snowflake, Google BigQuery, Amazon Redshift

Come funziona BigQuery?

BigQuery separa il motore di calcolo dallo storage, così ciascuno può scalare in modo indipendente. Risultato: puoi interrogare terabyte di dati in pochi secondi e petabyte in minuti.

Quando BigQuery esegue una query, il motore di query distribuisce il lavoro in parallelo, scansiona le tabelle rilevanti nello storage, unisce i risultati e restituisce il dataset finale.

image13.png

Funzionalità principali di BigQuery nel 2026

Dall’introduzione di BigQuery, Google ha aggiunto diverse funzionalità che lo estendono oltre un data warehouse tradizionale:

  • BigQuery ML — Crea, addestra e distribuisci modelli di machine learning usando SQL. Supporta regressione lineare, classificazione, forecasting di serie temporali e altro.
  • Gemini in BigQuery — Assistenza basata su AI per scrivere query, comprendere gli schemi e generare insight sui dati in linguaggio naturale.
  • BigQuery Studio — Uno spazio di lavoro unificato per SQL, notebook Python e Spark all’interno della console BigQuery.
  • Query federate — Interroga dati in Cloud SQL, Cloud Storage, Bigtable e altre fonti senza spostarli in BigQuery.
  • BigQuery Omni — Esegui analisi BigQuery su dati archiviati in AWS o Azure senza copiarli su Google Cloud.

Come iniziare con BigQuery

La sandbox di BigQuery ti permette di provarlo senza fornire una carta di credito o creare un account di fatturazione. In questa sezione ti mostrerò come accedere a BigQuery e configurare il tuo primo progetto usando la sandbox.

Puoi accedere a BigQuery tramite la Google Cloud Console. Dovrai accedere con un account Google (o crearne uno). Una volta effettuato l’accesso, dovrebbe comparire una schermata di benvenuto:

image4.png

Puoi trovare BigQuery nella barra del menu a sinistra. Facendo clic verrai portato alla schermata seguente:

image1.png

Usare la sandbox di BigQuery

Per usare la sandbox di BigQuery, crea prima un progetto facendo clic su "Select Project".

image14.png

Poi fai clic su "New Project":

image3.png

Dovrai fornire un nome per il progetto; per questa guida usiamo datacamp-guide-project

image7.png

Ora nella pagina di BigQuery viene visualizzato un avviso della sandbox, che indica che hai abilitato correttamente la sandbox di BigQuery.

image16.png

Con la sandbox di BigQuery abilitata, puoi usare il tuo nuovo progetto per caricare dati e fare query, oltre a interrogare i dataset pubblici di Google.

Crea un dataset e una tabella

Prima di creare una tabella, devi creare un dataset nel tuo nuovo progetto. Un dataset è un contenitore di primo livello usato per organizzare e controllare l’accesso a un insieme di tabelle e viste. Per creare un dataset, fai clic sull’icona "Actions" del progetto:

image18.png

Per questa guida, inseriremo "Dataset ID" con "main".

image8.png

Puoi creare una tabella usando SQL. BigQuery usa GoogleSQL, conforme allo standard ANSI.

CREATE TABLE datacamp-guide-project.main.users (
  id INT64 NOT NULL,
  first_name STRING NOT NULL,
  middle_name STRING,
  last_name STRING NOT NULL,
  active_account BOOL NOT NULL
);

Puoi anche usare l’interfaccia della Console BigQuery:

image19.png

Nota: Non è possibile inserire dati mentre si è in ambiente sandbox. Se vuoi provare a inserire dati, devi abilitare la prova gratuita. Le prossime sezioni si concentrano sull’interrogazione dei dataset pubblici forniti nell’ambito di Google Cloud.

Interrogare un dataset pubblico con la Console BigQuery

Per interrogare un dataset pubblico, segui questi passaggi:

1. Clicca su "Add" accanto a Explorer.

image10.png

2. Poi scegli un dataset.

image2.png

3. Cerca "Google Trends" e seleziona Google Trends, quindi fai clic sul pulsante "View dataset".

image6.png

4. bigquery-public-data comparirà con un lungo elenco di dataset. Aggiungi bigquery-public-data ai preferiti (stella) così rimane "fisso" nell’explorer

image5.png

Useremo la tabella top_terms:

image12.png

Clicca sulla tabella top_terms per aprirla e ispeziona le schede Details e Preview per saperne di più sui dati di top_terms.

image9.png

image21.png

Puoi interrogare il dataset; ecco un esempio per recuperare i termini che hanno raggiunto la prima posizione nelle ultime due settimane:

SELECT
  term
FROM
  bigquery-public-data.google_trends.top_terms
WHERE
  rank = 1
  AND refresh_date >= DATE_SUB(CURRENT_DATE(), INTERVAL 2 WEEK)
GROUP BY
  term

Risultati (variano):

image11.png

Prezzi di BigQuery

La tariffazione di BigQuery ha due componenti principali: compute (elaborazione delle query) e storage.

Componente Livello gratuito Prezzo a pagamento
Query on-demand 1 TiB al mese $6.25 per TiB
Storage (attivo) 10 GiB $0.02 per GiB/mese
Storage (a lungo termine) 10 GiB $0.01 per GiB/mese
Streaming insert N/D $0.05 per 200 MB

Per i team con carichi di lavoro prevedibili, BigQuery offre anche prezzi flat tramite prenotazioni di capacità (BigQuery Editions). Controlla la pagina ufficiale dei prezzi per le tariffe aggiornate.

Considerazioni finali

BigQuery è uno dei punti di ingresso più accessibili al data warehousing nel cloud. La sandbox ti offre un ambiente senza rischi per sperimentare e 1 TiB di query gratuite al mese significa che puoi esplorare i dataset pubblici senza spendere nulla. Quando ti serve di più, la prova gratuita di Google Cloud fornisce 300 $ di crediti.

Se vuoi consolidare quanto hai imparato qui, ti consiglio il corso Introduction to BigQuery su DataCamp, che tratta l’ottimizzazione delle query e la gestione di dataset più grandi. Per una panoramica più ampia del data engineering, il percorso Data Engineer in Python copre l’intera pipeline, dall’ingestione al warehousing.

Puoi anche esplorare come BigQuery si confronta con le alternative nei nostri confronti BigQuery vs Redshift e BigQuery vs Snowflake, oppure prepararti ai colloqui con la nostra guida alle domande di colloquio su BigQuery.


Eduardo Oliveira's photo
Author
Eduardo Oliveira
LinkedIn

Chief Technology Officer di DataCamp e General Manager della Learning Platform. Nel mio ruolo, gestisco i team focalizzati sulla creazione della tecnologia e del curriculum che alimentano l'esperienza degli utenti di DataCamp.

Argomenti

Inizia oggi con il Data Engineering!

Programma

Ingegnere dei dati associato in SQL

30 h
Impara i fondamenti dell'ingegneria dei dati: progettazione di database e data warehousing, lavorando con tecnologie come PostgreSQL e Snowflake!
Vedi dettagliRight Arrow
Inizia il corso
Mostra altroRight Arrow
Correlato

blog

Che cos'è Snowflake? Guida per principianti alla piattaforma dati cloud

Esplora le basi di Snowflake, la piattaforma dati cloud. Scopri la sua architettura, le sue funzionalità e come integrarla nelle tue pipeline di dati.
Tim Lu's photo

Tim Lu

12 min

blog

Tokenizzazione nel NLP: come funziona, sfide e casi d'uso

Guida al preprocessing NLP nel machine learning. Copriamo spaCy, i transformer di Hugging Face e come funziona la tokenizzazione in casi d'uso reali.
Abid Ali Awan's photo

Abid Ali Awan

10 min

blog

I 15 migliori server MCP remoti che ogni AI builder dovrebbe conoscere nel 2026

Scopri i 15 migliori server MCP remoti che stanno trasformando lo sviluppo AI nel 2026. Scopri come migliorano automazione, ragionamento, sicurezza e velocità dei workflow.
Abid Ali Awan's photo

Abid Ali Awan

15 min

Mostra altroMostra altro