Apache Iceberg spiegato: guida completa per principianti

Scopri come Apache Iceberg semplifica la gestione dei dati in lake e lakehouse. Esplora le sue funzionalità chiave, segui le istruzioni passo passo per il setup e ottimizza i tuoi workflow di dati!

Aggiornato 3 giu 2026 · 14 min leggi

Se lavori con l’elaborazione di big data, sai che gestire e analizzare file di dati non organizzati può essere impegnativo e soggetto a errori. Il rischio di perdere dati preziosi per un semplice errore, come un comando di eliminazione accidentale, è una preoccupazione costante.

Apache Iceberg affronta queste sfide offrendo un formato di tabella solido e affidabile che supporta i rollback e il ripristino di stati precedenti dei tuoi dati. Questo garantisce integrità e coerenza dei dati, rendendo la gestione più efficiente e meno incline a errori.

In questo tutorial spiegheremo cos’è Apache Iceberg, perché si usa e come funziona. Imparerai anche come iniziare a usarlo con istruzioni pratiche passo dopo passo, per aiutarti a gestire e analizzare i tuoi dati in modo più efficace.

Cos’è Apache Iceberg?

Apache Iceberg è un formato di tabella aperto progettato per gestire in modo efficiente enormi dataset analitici. Fornisce una struttura di tabella ad alte prestazioni che porta ai tuoi file di dati i vantaggi dei database tradizionali, come interrogazioni SQL, conformità ACID e partizionamento.

In sostanza, Apache Iceberg agisce come una lente, permettendoti di visualizzare e gestire una raccolta di file di dati come se fosse un’unica tabella coesa.

Il principale vantaggio di Apache Iceberg è la capacità di gestire dati su larga scala in modo altamente ottimizzato. Supporta funzionalità come l’evoluzione dello schema, il partizionamento nascosto e il time travel, rendendolo una soluzione robusta per la gestione di workflow di dati complessi.

Astrazione le complessità dei formati di storage sottostanti, Iceberg abilita una gestione dei dati e interrogazioni efficienti, risultando una scelta ideale per l’elaborazione di big data.

Storia di Apache Iceberg

Netflix ha sviluppato Apache Iceberg nel 2017 per superare i limiti di Hive, in particolare nella gestione dell’elaborazione incrementale e dei dati in streaming. Nel 2018, Netflix ha donato Iceberg alla Apache Software Foundation, rendendolo un progetto open source.

Da allora, Apache Iceberg è diventato un pilastro delle moderne architetture di data lake, con un’ampia adozione in vari settori.

Il progetto si è evoluto continuamente, incorporando funzionalità come il partizionamento nascosto e l’evoluzione dello schema per soddisfare le esigenze di ambienti dati su larga scala.

Nel 2024, Databricks ha annunciato il suo accordo per acquisire Tabular, un’azienda di data management fondata dai creatori originali di Apache Iceberg. Questa acquisizione punta a unificare Apache Iceberg e Delta Lake, migliorando la compatibilità dei dati e promuovendo l’evoluzione verso un unico standard aperto di interoperabilità.

Timeline dell’evoluzione di Apache Iceberg

Anno	Evento
2017	Netflix sviluppa Apache Iceberg per superare i limiti di Hive, soprattutto per l’elaborazione incrementale e i dati in streaming.
2018	Netflix dona Apache Iceberg alla Apache Software Foundation, rendendolo un progetto open source.
2019	Apache Iceberg viene adottato da vari settori per le sue capacità di gestione dei dati scalabili ed efficienti. Vengono introdotte funzionalità come l’evoluzione dello schema e il partizionamento nascosto.
2020	Continuano a crescere i contributi della community e l’adozione, con miglioramenti nelle prestazioni e nuove funzionalità come il time travel e la gestione dei metadati.
2021	Apache Iceberg guadagna notevole trazione come formato di tabella preferito per i data lake, integrandosi con i principali strumenti e piattaforme di big data.
2022	Vengono aggiunte nuove funzionalità e ottimizzazioni, migliorando il supporto di Iceberg per workflow di dati complessi e ambienti dati su larga scala.
2023	Apache Iceberg continua a evolvere con un focus sul miglioramento della compatibilità dei dati e dell’interoperabilità con altri formati e sistemi.
2024	Databricks annuncia l’accordo per acquisire Tabular. Questa acquisizione mira a unificare Iceberg e Delta Lake.

A cosa serve Apache Iceberg?

Come abbiamo visto, Apache Iceberg è un potente strumento per la gestione e l’analisi dei dati in ambienti su larga scala.

Ecco un quadro più specifico di come viene utilizzato Apache Iceberg.

Analisi dei dati

Usare formati di file come ORC o Parquet è semplice da implementare, ma eseguire analisi su di essi è inefficiente. Iceberg, invece, fornisce un formato di tabella con informazioni di metadati per ottimizzare le query.

Per esempio, i file di dati grezzi non conservano informazioni sulla tabella di appartenenza, mentre i file di metadati di Iceberg sì. Questo permette ai motori di query di decidere quali tabelle leggere e quali saltare, migliorando notevolmente l’efficienza delle interrogazioni.

I file di metadati archiviano questo tipo di informazioni per interrogazioni efficienti. I linguaggi di query cercano prima il nome del file rilevante nei metadati e recuperano solo quel file per una consultazione rapida, riducendo letture di dati non necessarie.

Pruning delle partizioni

Il partition pruning è una tecnica che salta i dati irrilevanti ed esegue operazioni solo sui dati necessari.

Per esempio, se la tua colonna di partizione è "date" e specifichi un intervallo di date, la query legge solo i dati all’interno di quel range. Questo riduce la quantità di dati letti dal disco, rendendo le interrogazioni alle tabelle Iceberg più veloci ed efficienti.

Time travel

Il time travel è una funzionalità che ti consente di accedere a versioni precedenti dei tuoi dati recuperando snapshot da un momento specifico.

Uno snapshot è un insieme completo di file di dati in un determinato istante.

I file di metadati tengono traccia degli ID degli snapshot, dei timestamp e dei dettagli della cronologia, consentendo l’accesso a ciascuno snapshot per ID o timestamp.

Integrazioni

Molti sistemi di storage popolari, come Google Cloud, AWS e Microsoft Azure, supportano il formato di tabella Iceberg. Puoi archiviare i file di dati su queste piattaforme cloud e usare un servizio di catalogo esterno o integrato per puntare ai relativi metadati.

Una volta configurato il servizio di catalogo, puoi usare framework di elaborazione big data come Apache Spark o Apache Flink.

Iceberg supporta anche vari motori di interrogazione, come SQL, Trino e Presto, consentendo un’integrazione fluida con i workflow di dati esistenti.

Community

Apache Iceberg ha una community attiva e una presenza online su varie piattaforme di collaborazione come Twitter e Github. Dispone anche di uno spazio Slack dedicato per chi vuole partecipare alle discussioni sugli ultimi sviluppi.

I contributori open source e gli sviluppatori di Iceberg sono accessibili alla community di apprendenti attraverso le piattaforme social. Questo rende più semplice trovare soluzioni quando incontri problemi nell’implementare le funzionalità di Iceberg.

Concetti fondamentali di Apache Iceberg

Apache Iceberg introduce un insieme di concetti chiave che abilitano una gestione e un’interrogazione efficienti dei dati. In questa sezione li rivediamo.

Gestione dei metadati

Iceberg gestisce schemi di tabella, partizioni, posizioni dei file e altro tramite il suo livello di metadati, che mantiene metadati, manifest list e manifest file in formato JSON.

File di metadati: tiene traccia dello schema e delle partizioni della tabella.
Manifest file: contengono informazioni a livello di file, come posizione, dimensioni, partizione e statistiche di righe e colonne di un file di dati.

Iceberg supporta il versioning tramite metadati degli snapshot. Memorizza dettagli sul timestamp dello snapshot, sulla partizione e sui file di dati rilevanti. Uno snapshot è una vista dell’intero dataset in un punto specifico nel tempo.

Evoluzione dello schema

L’evoluzione dello schema è il processo di modifica dello schema di una tabella per accogliere nuovi elementi di dati o esigenze in cambiamento. Apache Iceberg supporta nativamente l’evoluzione dello schema, consentendo aggiornamenti senza costose riscritture o migrazioni dei dati.

Per esempio, se gestisci dati sui dipendenti e vuoi aggiungere una nuova colonna per le metriche di performance, puoi aggiungere una colonna "employee_performance". Iceberg aggiorna i suoi metadati per includere questa colonna senza influire sui dati esistenti. La nuova colonna inizialmente ha valori predefiniti e viene popolata quando vengono inseriti nuovi record.

Partizionamento

Il partizionamento divide i dati in sottoinsiemi più piccoli, permettendoti di accedere solo ai dati necessari per una query invece di leggere l’intero dataset.

Iceberg supporta molte strategie di partizionamento, ad esempio:

Partizionamento per intervallo (range): divide i dati in base a un intervallo di valori nella colonna di partizione, come date specifiche, valori numerici o stringhe.
Partizionamento per hash: applica una funzione di hash alla chiave di partizione per suddividere i dati.
Partizionamento per troncamento: tronca i valori di una colonna di partizione e raggruppa i dati. Per esempio, troncare i CAP 533405, 533404, 533689, 533098, 535209 e 535678 a 3 cifre raggruppa i dati in "533" e "535".
Partizionamento per lista: abbina i valori della chiave di partizione a valori in un elenco, dividendo di conseguenza i dati. È adatto per valori categoriali nella colonna di partizione. Per esempio, partizionare le aziende di laptop in gruppi come “Lenovo”, "Apple” e “HP”.

Snapshot

Uno snapshot è un insieme di manifest file validi in un momento specifico. Ogni modifica ai dati crea un nuovo snapshot con manifest file e metadati aggiornati.

Iceberg segue interrogazioni basate su snapshot, il che significa che puoi accedere all’intero insieme di file di dati in un dato momento accedendo a un determinato timestamp. Questo ti consente di consultare dati storici e tornare a versioni precedenti in caso di perdita di dati.

Architettura tecnica di Apache Iceberg

Apache Iceberg non archivia i dati in tabelle. Invece, organizza i file di dati per presentarli come un’unica tabella.

Vediamo l’architettura che lo rende possibile.

Immagine fonte

Catalogo Iceberg

Il livello di catalogo contiene un riferimento o puntatore al file di metadati corrente della tabella. Ogni volta che modifichi i dati, viene scritto un nuovo file di metadati e il puntatore punta al file di metadati più recente nel log.

Questo livello facilita la conformità ACID all’interno delle tabelle Iceberg. Per esempio, le modifiche in corso non sono visibili ad altre transazioni finché non sono completate e confermate sulla tabella. Fino ad allora, il puntatore fa riferimento al file di metadati corrente.

In generale, i cataloghi semplificano la gestione della conformità ACID nelle tabelle Iceberg puntando a versioni specifiche dei file di metadati.

Livello dei metadati

Questo livello contiene tre tipi di file:

File di metadati: questi file archiviano lo schema della tabella, la posizione, le informazioni sulle partizioni, i timestamp degli snapshot e altre informazioni.
Manifest file: i manifest tracciano i metadati a livello di file. Per ogni file di dati memorizzano informazioni sulla partizione, statistiche come conteggio righe e colonne, dettagli dello snapshot e formato del file.
Manifest list: un gruppo di manifest che costituiscono un singolo snapshot è una manifest list.

Questo livello mantiene la struttura e l’integrità della tabella, abilitando interrogazioni e gestione dei dati efficienti.

Livello dati

Il livello dati è il componente di storage dell’architettura Iceberg in cui risiedono i dati effettivi.

Iceberg supporta vari formati di dati, tra cui Parquet, ORC e Avro. Questa flessibilità consente uno storage ottimizzato e un’elaborazione efficiente, adattandosi a diversi tipi di dati e casi d’uso.

Integrazione e compatibilità di Apache Iceberg

Apache Iceberg si integra con molti framework popolari di elaborazione big data e motori di calcolo.

Integrazioni con motori di elaborazione dati

Apache Spark

Le tabelle Iceberg funzionano come grandi sistemi di archiviazione dati su cui puoi usare le API di Spark per leggere e scrivere dati. Oltre alla dataframe API, puoi usare il modulo Spark SQL per interrogare le tabelle Iceberg.

Apache Spark dispone di due cataloghi: org.apache.iceberg.spark.SparkCatalog e org.apache.iceberg.spark.SparkSessionCatalog. Questi cataloghi aiutano Spark a scoprire e accedere ai metadati delle tabelle Iceberg disponibili.

metadataorg.apache.iceberg.spark.SparkCatalog: per usare servizi di catalogo esterni come Hive o Hadoop.
org.apache.iceberg.spark.SparkSessionCatalog: il catalogo integrato di Spark può gestire nella stessa sessione sia tabelle Iceberg sia non-Iceberg.

Apache Flink

L’integrazione tra Apache Flink e Iceberg è nota per l’elaborazione di dati in streaming. Questa integrazione ti consente di trasmettere dati direttamente da varie sorgenti alle tabelle Iceberg e facilita l’analisi di dati in streaming in tempo reale.

Presto e Trino

Preso e Trino sono noti per le loro capacità di elaborazione rapida dei dati rispetto a Hive o ad altri motori SQL. Pertanto, se hai quantità massive di dati da interrogare e analizzare, l’integrazione tra Iceberg e Presto/Trino è un’ottima scelta.

Trino non ha un catalogo integrato. Si affida a servizi di catalogo esterni come Hive Metastore o AWS Glue per puntare alle tabelle Iceberg.

Compatibilità con i data lake

I data lake tradizionali non supportano le proprietà ACID, con il rischio di letture di dati incomplete o scritture concorrenti. Integrare un data lake con Iceberg, invece, garantisce coerenza e accuratezza dei dati.

Amazon S3: Amazon S3 è un popolare servizio di storage cloud che supporta vari formati di file. È usato come livello di storage nell’architettura dei data lake. Per usare Iceberg con S3, utilizzerai AWS Glue come servizio di catalogo. Una volta configurato il catalogo, puoi usare qualsiasi linguaggio di interrogazione per analizzare le tabelle.
Google Cloud Storage: Un data lake su Google Cloud offre un’architettura dati più scalabile e flessibile. Molte aziende con infrastruttura dati basata su Google Cloud possono sfruttare il formato di tabella Iceberg. Le tabelle Iceberg possono essere interrogate con BigQuery di Google o con linguaggi di interrogazione standard.
Azure Blob Storage: È il sistema di storage di Microsoft ottimizzato per archiviare enormi quantità di dati non strutturati nel cloud. Iceberg si integra con Azure e fornisce accesso ai dati rapido e affidabile.

Apache Iceberg vs Delta Lake

Apache Iceberg e Delta Lake sono entrambi formati di tabella avanzati progettati per portare le proprietà ACID nei data lake, ma differiscono per funzionalità, integrazioni e casi d’uso.

Ecco un confronto dettagliato tra i due:

Panoramica di Delta Lake

Delta Lake è un formato di tabella che fornisce proprietà ACID a una raccolta di file Parquet, assicurando che i lettori non vedano mai dati incoerenti.

Sviluppato da Databricks, l’azienda dietro Apache Spark, Delta Lake è altamente compatibile con Spark per l’elaborazione e l’analisi di big data.

Delta Lake utilizza log transazionali per gestire le funzionalità di time travel. Un transaction log è un elenco di file JSON che tracciano le modifiche apportate alla tabella. Ogni inserimento, eliminazione o aggiornamento genera un nuovo file di log che registra le modifiche specifiche.

Delta Lake crea periodicamente file di checkpoint, che rappresentano snapshot dell’intera tabella in punti specifici nel tempo e sono archiviati in formato Parquet.

Confronto delle funzionalità: Apache Iceberg vs. Delta Lake

Funzionalità	Apache Iceberg	Delta Lake
Definizione	Il formato di tabella Iceberg offre un’infrastruttura scalabile con supporto per molteplici motori di elaborazione.	Delta Lake è un livello di storage affidabile, particolarmente adatto all’ecosistema Databricks.
Formato file	Iceberg supporta vari formati di file, tra cui Parquet, Avro e ORC.	Delta Lake supporta nativamente solo il formato Parquet.
Supporto proprietà ACID	Iceberg supporta transazioni ACID.	Delta Lake offre proprietà ACID robuste.
Gestione delle partizioni	Iceberg supporta il partizionamento dinamico, quindi le partizioni possono essere aggiornate senza riscrivere lo schema.	Le partizioni sono costanti e vanno definite alla creazione delle tabelle. Modificarle può richiedere riscritture dei dati.
Time travel	Ogni modifica apportata alla tabella crea un nuovo snapshot.	Offre funzionalità di time travel tramite log transazionali, con modifiche tracciate in file JSON.
Integrazioni	Iceberg supporta più motori di elaborazione dati, come SQL, Spark, Trino, Hive, Flink, Presto e altri.	Delta Lake è strettamente integrato con Apache Spark.

Casi d’uso: Apache Iceberg vs. Delta Lake

Caso d’uso	Apache Iceberg	Delta Lake
Flessibilità del motore	È ideale quando si usano più motori, inclusi Apache Spark, Flink, Presto, Hive, ecc. Perfetto per ambienti che necessitano motori diversi per compiti di elaborazione differenti.	Ideale per chi usa nativamente Apache Spark, offrendo integrazione stretta e prestazioni ottimali all’interno dell’ecosistema Spark.
Data streaming	Supporta ingest continua di dati da varie sorgenti, elaborandoli in tempo reale.	Unifica batch e stream processing, ideale per casi d’uso che richiedono entrambi in un’unica pipeline.

Considerazioni aggiuntive: Apache Iceberg vs. Delta Lake

Community ed ecosistema: Sia Iceberg sia Delta Lake hanno community attive e documentazione estesa. Tuttavia, Delta Lake beneficia del supporto di Databricks, che offre solide garanzie all’interno dell’ecosistema Databricks.
Prestazioni: Sebbene entrambi i formati offrano ottimizzazioni, l’integrazione stretta di Delta Lake con Spark può avvantaggiare workflow incentrati su Spark. La flessibilità di Iceberg con diversi motori può offrire benefici prestazionali in ambienti multi-motore.

In generale, Delta Lake è adatto a casi d’uso che richiedono elaborazione in tempo reale e integrazione stretta con Spark e l’ecosistema Databricks. D’altra parte, Apache Iceberg offre maggiore flessibilità per l’elaborazione di dati su larga scala e la possibilità di scegliere il motore migliore per casi d’uso specifici.

Per iniziare con Apache Iceberg

Configurare e usare Apache Iceberg implica impostare l’ambiente e comprendere operazioni di base e avanzate. Questa guida ti aiuterà a iniziare.

Installazione e setup

Per configurare ed eseguire tabelle Iceberg, devi avere sul tuo computer i seguenti ambienti configurati:

Java JDK
PySpark
Python
Apache Spark

È anche utile avere una conoscenza di base di questi strumenti e tecnologie. Puoi impararli tramite i seguenti corsi:

Quando sei pronto, puoi seguire i passaggi seguenti per configurare le tabelle Iceberg:

Scarica i file JAR di Iceberg e posizionali in una directory sul tuo computer.
Crea una nuova cartella chiamata iceberg-warehouse per archiviare le tue tabelle Iceberg.

mkdir iceberg-warehouse

Configura i file jar in una sessione Spark, come mostrato di seguito.

from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("Iceberg-sample") \
    .config("spark.jars", "jars/iceberg-spark-runtime-<version>.jar") \
    .getOrCreate()

Sostituisci “jars/iceberg-spark-runtime-<version>.jar” con la directory reale dei file jar e la versione che stai usando.

Configura PySpark per usare le tabelle Iceberg.

from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("Iceberg-Sample") \
    .config("spark.jars", "jars/iceberg-spark-runtime-<version>.jar") \
    .config("spark.sql.catalog.catalog_name", "org.apache.iceberg.spark.SparkCatalog") \
    .config("spark.sql.catalog.catalog_name.type", "hadoop") \
    .config("spark.sql.catalog.catalog_name.warehouse", "file:///C:/HP/iceberg-warehouse") \
    .getOrCreate()

Sostituisci "jars/iceberg-spark-runtime-<version>.jar" con il percorso reale e la versione dei file JAR di Iceberg, e assicurati che il percorso del warehouse sia corretto.

Ora puoi creare e usare tabelle Iceberg con PySpark.

Operazioni di base

Crea una tabella Iceberg e inserisci dati al suo interno.

spark.sql(""" CREATE TABLE my_catalog.emp_table ( id INT, data STRING ) USING iceberg """)
spark.sql(""" INSERT INTO catalog_name.emp_table VALUES (14, 'james'),('15','john')""")

Comando per eliminare dati dalle tabelle Iceberg.

spark.sql("DELETE FROM catalog_name.emp_table WHERE id = 14")

Operazioni avanzate

Aggiungere, aggiornare o rimuovere colonne senza influire sui dati esistenti fa parte dell’evoluzione dello schema.

Ecco come puoi aggiungere una nuova colonna.

spark.sql("ALTER TABLE ADD catalog_name.emp_table COLUMN salary INT")

L’evoluzione delle partizioni significa cambiare le colonne di partizione senza sovrascrivere i file di dati esistenti.

Ecco come puoi aggiungere una nuova colonna di partizione.

spark.sql("ALTER TABLE catalog_name.emp_table ADD PARTITION FIELD emp_join_date")

Questi passaggi e comandi forniscono una base per iniziare con Apache Iceberg e ti danno un’idea di come si lavora con questo formato.

Conclusione

Abbiamo coperto molti aspetti oggi; riassumiamo con alcuni punti chiave.

Apache Iceberg offre una struttura di tabella robusta a un insieme di file di dati, fornendo supporto per transazioni ACID e garantendo coerenza e affidabilità dei dati.

Il formato Iceberg introduce evoluzione dinamica dello schema, partizionamento fluido e scalabilità nei sistemi di storage. La sua integrazione con motori di elaborazione come Apache Spark e Flink abilita una gestione efficiente sia dei dati batch sia dello streaming in tempo reale.

Se vuoi approfondire l’architettura e la gestione dei dati moderna, valuta di esplorare queste risorse aggiuntive:

Apache Iceberg può gestire strutture di dati annidate complesse?

Come garantisce Apache Iceberg la coerenza dei dati durante scritture concorrenti?

Quali sono le implicazioni sulle prestazioni usando Apache Iceberg rispetto ai data lake tradizionali?

Apache Iceberg può essere usato con soluzioni cloud non Hadoop?

Come gestisce Apache Iceberg i cambiamenti di schema senza richiedere downtime?

Esiste un’interfaccia utente per gestire e interrogare le tabelle Iceberg?

Come si confronta Apache Iceberg con altri formati di tabella come Apache Hudi?

Apache Iceberg può essere usato per workflow di machine learning?

Come gestisce Apache Iceberg sicurezza dei dati e controllo degli accessi?

Author

Srujana Maddula

Argomenti

Data Engineering

Approfondisci l’ingegneria e la gestione dei dati con questi corsi!

Corso

Fondamenti di Big Data con PySpark

4 h

65.2K

Impara le basi per lavorare con i big data usando PySpark.

Vedi dettagli

Inizia il corso

Corso

Introduzione al Data Engineering

4 h

127.6K

Scopri il mondo dell'ingegneria dei dati in questo breve corso, che parla di strumenti e argomenti come ETL e cloud computing.

Vedi dettagli

Inizia il corso

Corso

Concetti di Data Management

2 h

10.6K

Impara i concetti chiave della gestione dei dati, dalle fasi del ciclo di vita alla sicurezza e alla governance.

Vedi dettagli

Inizia il corso

Mostra altro

Correlato

blog

Che cos'è Snowflake? Guida per principianti alla piattaforma dati cloud

Esplora le basi di Snowflake, la piattaforma dati cloud. Scopri la sua architettura, le sue funzionalità e come integrarla nelle tue pipeline di dati.

Tim Lu

12 min

blog

I 15 migliori server MCP remoti che ogni AI builder dovrebbe conoscere nel 2026

Scopri i 15 migliori server MCP remoti che stanno trasformando lo sviluppo AI nel 2026. Scopri come migliorano automazione, ragionamento, sicurezza e velocità dei workflow.

Abid Ali Awan

15 min

blog

Tokenizzazione nel NLP: come funziona, sfide e casi d'uso

Guida al preprocessing NLP nel machine learning. Copriamo spaCy, i transformer di Hugging Face e come funziona la tokenizzazione in casi d'uso reali.

Abid Ali Awan

10 min

Mostra altro Mostra altro

Cos’è Apache Iceberg?

Storia di Apache Iceberg

Timeline dell’evoluzione di Apache Iceberg

A cosa serve Apache Iceberg?

Analisi dei dati

Pruning delle partizioni

Time travel

Integrazioni

Community

Concetti fondamentali di Apache Iceberg

Gestione dei metadati

Evoluzione dello schema

Partizionamento

Snapshot

Architettura tecnica di Apache Iceberg

Catalogo Iceberg

Livello dei metadati

Livello dati

Integrazione e compatibilità di Apache Iceberg

Integrazioni con motori di elaborazione dati

Apache Spark

Apache Flink

Presto e Trino

Compatibilità con i data lake

Apache Iceberg vs Delta Lake

Panoramica di Delta Lake

Confronto delle funzionalità: Apache Iceberg vs. Delta Lake

Casi d’uso: Apache Iceberg vs. Delta Lake

Considerazioni aggiuntive: Apache Iceberg vs. Delta Lake

Per iniziare con Apache Iceberg

Installazione e setup

Operazioni di base

Operazioni avanzate

Conclusione

FAQs

Quali sono le implicazioni sulle prestazioni usando Apache Iceberg rispetto ai data lake tradizionali?

Apache Iceberg può essere usato con soluzioni cloud non Hadoop?

Come gestisce Apache Iceberg i cambiamenti di schema senza richiedere downtime?

Esiste un’interfaccia utente per gestire e interrogare le tabelle Iceberg?

Come si confronta Apache Iceberg con altri formati di tabella come Apache Hudi?

Apache Iceberg può essere usato per workflow di machine learning?

Come gestisce Apache Iceberg sicurezza dei dati e controllo degli accessi?

Che cos'è Snowflake? Guida per principianti alla piattaforma dati cloud

I 15 migliori server MCP remoti che ogni AI builder dovrebbe conoscere nel 2026

Tokenizzazione nel NLP: come funziona, sfide e casi d'uso

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Fondamenti di Big Data con PySpark

Introduzione al Data Engineering

Concetti di Data Management

Che cos'è Snowflake? Guida per principianti alla piattaforma dati cloud

I 15 migliori server MCP remoti che ogni AI builder dovrebbe conoscere nel 2026

Tokenizzazione nel NLP: come funziona, sfide e casi d'uso

Fondamenti di Big Data con PySpark