Apache Iceberg uitgelegd: een complete gids voor beginners

Leer hoe Apache Iceberg databeheer in lakes en lakehouses vereenvoudigt. Ontdek de belangrijkste features, krijg stapsgewijze setup-instructies en optimaliseer je dataworkflows!

Bijgewerkt 1 jun 2026 · 14 min lezen

Als je met big dataverwerking werkt, weet je dat het beheren en analyseren van ongestructureerde databestanden uitdagend en foutgevoelig kan zijn. Het risico om waardevolle data te verliezen door een simpele fout, zoals een per ongeluk gegeven delete-opdracht, is altijd aanwezig.

Apache Iceberg pakt deze uitdagingen aan door een robuust en betrouwbaar tabelformaat te bieden dat rollbacks ondersteunt en eerdere toestanden van je data kan herstellen. Dit waarborgt dataintegriteit en consistentie, waardoor databeheer efficiënter en minder foutgevoelig wordt.

In deze tutorial leggen we uit wat Apache Iceberg is, waarom het wordt gebruikt en hoe het werkt. Je leert ook hoe je ermee aan de slag gaat met praktische, stapsgewijze instructies, zodat je je data effectiever kunt beheren en analyseren.

Wat is Apache Iceberg?

Apache Iceberg is een open tabelformaat dat is ontworpen om enorme analytische datasets efficiënt te verwerken. Het biedt een high-performance tabelstructuur die de voordelen van traditionele databases, zoals SQL-querying, ACID-naleving en partitionering, naar je databestanden brengt.

In essentie fungeert Apache Iceberg als een lens waarmee je een collectie databestanden kunt bekijken en beheren alsof het één samenhangende tabel is.

Het grootste voordeel van Apache Iceberg is het vermogen om grootschalige data sterk geoptimaliseerd te verwerken. Het ondersteunt features zoals schema-evolutie, verborgen partitionering en time travel, wat het tot een robuuste oplossing maakt voor het beheren van complexe dataworkflows.

Door de complexiteit van onderliggende opslagformaten te abstraheren, maakt Iceberg efficiënt databeheer en querying mogelijk, waardoor het een ideale keuze is voor big dataverwerking.

Geschiedenis van Apache Iceberg

Netflix ontwikkelde Apache Iceberg in 2017 om beperkingen in Hive aan te pakken, met name bij incrementele verwerking en streamingdata. In 2018 schonk Netflix Iceberg aan de Apache Software Foundation, waardoor het een open-sourceproject werd.

Sindsdien is Apache Iceberg uitgegroeid tot een hoeksteen van moderne datalake-architecturen, met brede adoptie in diverse sectoren.

Het project is continu doorontwikkeld, met features als verborgen partitionering en schema-evolutie om te voldoen aan de eisen van grootschalige dataomgevingen.

In 2024 kondigde Databricks zijn overeenkomst aan om Tabular over te nemen, een databeheerbedrijf opgericht door de oorspronkelijke makers van Apache Iceberg. Deze overname heeft als doel Apache Iceberg en Delta Lake te verenigen, de datacompatibiliteit te verbeteren en de ontwikkeling richting één open interoperabiliteitsstandaard te stimuleren.

Tijdlijn van de evolutie van Apache Iceberg

Jaar	Gebeurtenis
2017	Netflix ontwikkelt Apache Iceberg om beperkingen van Hive aan te pakken, vooral voor incrementele verwerking en streamingdata.
2018	Netflix schenkt Apache Iceberg aan de Apache Software Foundation, waardoor het een open-sourceproject wordt.
2019	Apache Iceberg wordt door diverse sectoren geadopteerd vanwege de schaalbare en efficiënte databeheercapaciteiten. Features zoals schema-evolutie en verborgen partitionering worden geïntroduceerd.
2020	Community-bijdragen en adoptie blijven groeien, met prestatieverbeteringen en nieuwe features zoals time travel en metadatabeheer.
2021	Apache Iceberg wint veel terrein als voorkeurs-tabelformaat voor datalakes en integreert met belangrijke big datatools en -platforms.
2022	Nieuwe features en optimalisaties worden toegevoegd, waardoor de ondersteuning van Iceberg voor complexe dataworkflows en grootschalige omgevingen wordt versterkt.
2023	Apache Iceberg blijft evolueren met focus op het verbeteren van datacompatibiliteit en interoperabiliteit met andere dataformaten en systemen.
2024	Databricks kondigde de overeenkomst aan om Tabular over te nemen. Deze overname is gericht op het verenigen van Iceberg en Delta Lake.

Waarvoor wordt Apache Iceberg gebruikt?

Zoals we eerder zagen, is Apache Iceberg een krachtige tool voor databeheer en analytics in grootschalige omgevingen.

Hier is een specifiekere kijk op waarvoor Apache Iceberg wordt gebruikt.

Data analyseren

Bestandsformaten zoals ORC of Parquet zijn eenvoudig te implementeren, maar analyses erop draaien is inefficiënt. Iceberg voegt echter een tabelformaat toe met metadata-informatie om queries te optimaliseren.

Zo slaan ruwe databestanden niet op bij welke tabel ze horen, maar de metadata-bestanden van Iceberg doen dat wel. Hierdoor kunnen query-engines bepalen welke tabellen ze moeten lezen en welke ze kunnen overslaan, wat de query-efficiëntie aanzienlijk verbetert.

Metadatabestanden bewaren dit soort informatie voor efficiënte querying. Querytalen zoeken eerst naar de relevante bestandsnaam in de metadata en halen alleen dat bestand op voor snelle querying, wat onnodige dataleesacties vermindert.

Partition pruning

Partition pruning is een techniek waarbij irrelevante data wordt overgeslagen en bewerkingen alleen op de benodigde data worden uitgevoerd.

Als je partitionkolom bijvoorbeeld "date" is en je een specifiek datumbereik opgeeft, leest de query alleen data binnen dat bereik. Dit vermindert de hoeveelheid data die van de schijf wordt gelezen, waardoor queries op Iceberg-tabellen sneller en efficiënter zijn.

Time travel

Time travel is een feature waarmee je oudere versies van je data kunt benaderen door snapshots van een specifiek tijdstip op te halen.

Een snapshot is een volledige set databestanden op een bepaald moment.

Metadatabestanden houden snapshot-ID's, timestamps en historiekdetails bij, zodat je elke snapshot kunt benaderen op basis van zijn ID of timestamp.

Integraties

Veel populaire opslagsystemen, zoals Google Cloud, AWS en Microsoft Azure, ondersteunen het Iceberg-tabelformaat. Je kunt databestanden op die cloudplatforms opslaan en een externe of ingebouwde catalogusservice gebruiken om naar hun metadata te verwijzen.

Zodra de catalogusservice is geconfigureerd, kun je big dataverwerkingsframeworks zoals Apache Spark of Apache Flink gebruiken.

Iceberg ondersteunt ook verschillende query-engines, zoals SQL, Trino en Presto, waardoor naadloze integratie met bestaande dataworkflows mogelijk is.

Community

Apache Iceberg heeft een actieve community en online aanwezigheid op verschillende samenwerkingsplatforms zoals Twitter en GitHub. Er is ook een speciale Slack-werkruimte voor wie wil meedoen aan de laatste ontwikkelgesprekken.

Open-sourcebijdragers en Iceberg-ontwikkelaars zijn via sociale platforms goed bereikbaar voor de lerende community. Daardoor is het makkelijk om een oplossing te krijgen wanneer je tegen problemen aanloopt bij het implementeren van Iceberg-features.

Kernconcepten van Apache Iceberg

Apache Iceberg introduceert een set kernconcepten die efficiënt databeheer en querying mogelijk maken. In deze sectie lopen we ze door.

Metadatabeheer

Iceberg beheert tabelschema's, partitions, bestandslocaties en meer via zijn metadatalayer, dat metadata, manifestlijsten en manifestbestanden bijhoudt in JSON-indeling.

Metadatabestand: houdt het schema en de partitions van de tabel bij.
Manifestbestanden: bevatten informatie op bestandsniveau, zoals de locatie, grootte, partition en rij- en kolomstatistieken van een databestand.

Iceberg ondersteunt versiebeheer via snapshotmetadata. Het slaat details op over de timestamp van de snapshot, de partition en de relevante databestanden. Een snapshot is een weergave van al je data op een specifiek moment.

Schema-evolutie

Schema-evolutie is het proces waarbij een tabelschema wordt aangepast om nieuwe data-elementen of veranderende behoeften te accommoderen. Apache Iceberg ondersteunt native schema-evolutie, waardoor schema-updates mogelijk zijn zonder kostbare datarewrites of migraties.

Als je bijvoorbeeld medewerkersdata onderhoudt en een nieuwe kolom voor prestatiemetingen wilt toevoegen, kun je een kolom “employee_performance” toevoegen. Iceberg werkt zijn metadata bij om deze kolom op te nemen zonder bestaande data te beïnvloeden. De nieuwe kolom heeft in eerste instantie standaardwaarden en wordt bijgewerkt zodra nieuwe records worden ingevoegd.

Partitionering

Partitionering verdeelt data in kleinere subsets, zodat je alleen de data hoeft te benaderen die voor een query nodig is in plaats van de hele dataset te lezen.

Iceberg ondersteunt veel partitioneringsstrategieën, bijvoorbeeld:

Range-partitionering: Verdeelt data op basis van een waardenbereik in de partitionkolom, zoals specifieke datums, numerieke waarden of stringwaarden.
Hash-partitionering: Past een hashfunctie toe op de partitionsleutel om de data te verdelen.
Truncate-partitionering: Truncate de waarden van een partitionkolom en groepeert de data. Door bijvoorbeeld postcodes 533405, 533404, 533689, 533098, 535209 en 535678 tot 3 cijfers te truncaten, wordt de data gegroepeerd tot ‘533’ en ‘535’.
Lijst-partitionering: Komt waarden van de partitionsleutel overeen met waarden in een lijst en verdeelt de data dienovereenkomstig. Dit is geschikt voor categorische waarden in de partitionkolom. Bijvoorbeeld het partitioneren van laptopbedrijven in groepen als “Lenovo”, "Apple” en “HP”.

Snapshots

Een snapshot is een set manifestbestanden die geldig is op een specifiek moment. Elke wijziging die je aan de data aanbrengt, creëert een nieuwe snapshot met bijgewerkte manifestbestanden en metadata.

Iceberg gebruikt snapshot-based querying, wat betekent dat je de volledige set databestanden op een specifiek moment kunt benaderen door een bepaalde timestamp te gebruiken. Zo kun je historische data raadplegen en terugrollen naar eerdere versies in geval van dataverlies.

Technische architectuur van Apache Iceberg

Apache Iceberg slaat data niet op in tabellen. In plaats daarvan organiseert het databestanden om ze als één tabel te presenteren.

Laten we de architectuur doornemen die dat mogelijk maakt.

Afbeelding bron

Iceberg-catalogus

De cataloguslaag bevat een verwijzing of pointer naar het huidige metadatabestand van de tabel. Telkens wanneer je data wijzigt, wordt een nieuw metadatabestand weggeschreven en wijst de pointer naar het meest recente metadatabestand in de log.

Deze laag faciliteert ACID-naleving binnen Iceberg-tabellen. Doorlopende wijzigingen zijn bijvoorbeeld niet zichtbaar voor andere transacties totdat ze klaar zijn en aan de tabel zijn gecommitte. Tot die tijd verwijst de pointer naar het huidige metadatabestand.

Al met al vereenvoudigen catalogi het beheer van ACID-naleving in Iceberg-tabellen door naar specifieke versies van metadatabestanden te verwijzen.

Metadatalayer

Deze laag bevat drie soorten bestanden:

Metadatabestanden: Deze bestanden slaan het schema, de locatie, partitioninformatie, snapshottimestamps en andere informatie van de tabel op.
Manifestbestanden: Manifestbestanden volgen metadata op bestandsniveau. Ze slaan partitioninformatie, statistieken zoals rij- en kolomtellingen, snapshotdetails en bestandsformaat per databestand op.
Manifestlijsten: Een groep manifestbestanden die samen één snapshot vormen, is een manifestlijst.

Deze laag bewaakt de structuur en integriteit van de tabel en maakt efficiënte dataquerying en -beheer mogelijk.

Datalayer

De datalayer is de opslagcomponent van de Iceberg-architectuur waar de feitelijke data zich bevindt.

Iceberg ondersteunt verschillende dataformaten, waaronder Parquet, ORC en Avro. Deze flexibiliteit zorgt voor geoptimaliseerde opslag en efficiënte dataverwerking, toegesneden op verschillende datatypen en use-cases.

Integratie en compatibiliteit van Apache Iceberg

Apache Iceberg integreert met veel populaire frameworks voor big dataverwerking en compute-engines.

Integraties met dataverwerkingsengines

Apache Spark

Iceberg-tabellen functioneren als grote dataopslagsystemen waarop je Spark-API's kunt gebruiken om data te lezen en te schrijven. Naast de dataframe-API kun je de module Spark SQL gebruiken om Iceberg-tabellen te bevragen.

Apache Spark heeft twee catalogi: org.apache.iceberg.spark.SparkCatalog en org.apache.iceberg.spark.SparkSessionCatalog. Deze catalogi helpen Spark bij het ontdekken en benaderen van beschikbare Iceberg-tabelmetadata.

metadataorg.apache.iceberg.spark.SparkCatalog: Voor het gebruik van externe catalogusservices zoals Hive of Hadoop.
org.apache.iceberg.spark.SparkSessionCatalog: De ingebouwde catalogus van Spark kan zowel Iceberg- als niet-Iceberg-tabellen in dezelfde sessie afhandelen.

Apache Flink

De integratie van Apache Flink en Iceberg staat bekend om streamingdataverwerking. Deze integratie stelt je in staat om data rechtstreeks uit verschillende bronnen naar Iceberg-tabellen te streamen en maakt het eenvoudig om analytics uit te voeren op realtime streamingdata.

Presto en Trino

Presto en Trino staan bekend om hun snelle dataverwerkingsmogelijkheden vergeleken met Hive of andere SQL-engines. Als je dus enorme hoeveelheden data hebt die moeten worden bevraagd en geanalyseerd, is de combinatie van Iceberg en Presto/Trino een uitstekende keuze.

Trino heeft geen ingebouwde catalogus. Het is afhankelijk van externe catalogusservices zoals Hive Metastore of AWS Glue om naar Iceberg-tabellen te verwijzen.

Compatibiliteit met datalakes

Traditionele datalakes ondersteunen geen ACID-eigenschappen, wat kan leiden tot onvolledige datalezingen of gelijktijdige datatoevoegen. Door een datalake met Iceberg te integreren, worden dataconsistentie en nauwkeurigheid echter gewaarborgd.

Amazon S3: Amazon S3 is een populaire cloudopslagdienst die verschillende bestandsformaten ondersteunt. Het wordt gebruikt als de opslaglaag in datalake-architectuur. Om Iceberg met S3 te gebruiken, gebruik je AWS Glue als catalogusservice. Zodra de catalogus is geconfigureerd, kun je elke querytaal gebruiken om tabellen te analyseren.
Google Cloud Storage: Een datalake op Google Cloud biedt een meer schaalbare en flexibele data-architectuur. Veel bedrijven met een datainfrastructuur rond Google Cloud kunnen profiteren van het Iceberg-tabelformaat. Iceberg-tabellen kunnen worden bevraagd met Google BigQuery of standaard querytalen.
Azure Blob Storage: Dit is Microsofts opslagsysteem, geoptimaliseerd om enorme hoeveelheden ongestructureerde data in de cloud op te slaan. Iceberg integreert met Azure en biedt snelle en betrouwbare datatoegang.

Apache Iceberg vs Delta Lake

Apache Iceberg en Delta Lake zijn beide geavanceerde tabelformaten die ACID-eigenschappen naar datalakes brengen, maar ze verschillen in features, integraties en use-cases.

Hier is een gedetailleerde vergelijking van de twee:

Overzicht van Delta Lake

Delta Lake is een tabelformaat dat ACID-eigenschappen toevoegt aan een verzameling Parquet-bestanden en zo garandeert dat lezers nooit inconsistente data zien.

Ontwikkeld door Databricks, het bedrijf achter Apache Spark, is Delta Lake sterk compatibel met Spark voor big dataverwerking en analytics.

Delta Lake gebruikt transactionele logs om time travel-features te beheren. Een transactielog is een lijst met JSON-bestanden die wijzigingen in de tabel bijhouden. Elke insert, delete of update resulteert in een nieuw logbestand dat de specifieke wijzigingen bijhoudt.

Delta Lake maakt periodiek checkpoint-bestanden aan, die snapshots van de volledige tabel op specifieke momenten vertegenwoordigen en in Parquet-formaat worden opgeslagen.

Vergelijking van features: Apache Iceberg vs. Delta Lake

Feature	Apache Iceberg	Delta Lake
Definitie	Iceberg-tabelformaat biedt een schaalbare infrastructuur met ondersteuning voor meerdere verwerkingengines.	Delta Lake is een betrouwbare opslaglaag, vooral geschikt voor het Databricks-ecosysteem.
Bestandsformaat	Iceberg ondersteunt diverse bestandsformaten, waaronder Parquet, Avro en ORC.	Delta Lake ondersteunt native alleen het Parquet-bestandsformaat.
Ondersteuning voor ACID-eigenschappen	Iceberg ondersteunt ACID-transacties.	Delta Lake biedt robuuste ACID-eigenschappen.
Partitionafhandeling	Iceberg ondersteunt dynamische partitionering, wat betekent dat partitions kunnen worden bijgewerkt zonder het schema te herschrijven.	Partitions zijn vast en je definieert ze bij het aanmaken van tabellen. Het wijzigen van gedefinieerde partitions kan datarewrites vereisen.
Time travel	Elke wijziging aan de tabel creëert een nieuwe snapshot.	Biedt time travel via transaction logs, waarbij wijzigingen in JSON-bestanden worden bijgehouden.
Integraties	Iceberg ondersteunt meerdere dataverwerkingsengines, zoals SQL, Spark, Trino, Hive, Flink, Presto en meer.	Delta Lake is nauw gekoppeld aan Apache Spark.

Use-cases: Apache Iceberg vs. Delta Lake

Use-case	Apache Iceberg	Delta Lake
Engine-flexibiliteit	Het werkt het best met meerdere engines, waaronder Apache Spark, Flink, Presto, Hive, enz. Ideaal voor omgevingen die verschillende engines voor verschillende verwerkingstaken nodig hebben.	Het beste voor gebruikers die Apache Spark native gebruiken, met nauwe integratie en optimale prestaties binnen het Spark-ecosysteem.
Datastreaming	Ondersteunt continue data-inname uit verschillende bronnen en verwerkt deze in realtime.	Verenigt batch- en streamverwerking, ideaal voor use-cases die beide in één pipeline vereisen.

Aanvullende overwegingen: Apache Iceberg vs. Delta Lake

Community en ecosysteem: Zowel Iceberg als Delta Lake hebben actieve communities en uitgebreide documentatie. Delta Lake profiteert echter van de steun van Databricks, wat robuuste ondersteuning binnen het Databricks-ecosysteem biedt.
Prestaties: Hoewel beide formaten prestatie-optimalisaties bieden, kan de nauwe integratie van Delta Lake met Spark voordelen opleveren voor Spark-centrische workflows. De flexibiliteit van Iceberg met verschillende engines kan prestatievoordelen bieden in multi-engine-omgevingen.

Kortom, Delta Lake is bijzonder geschikt voor use-cases die realtime verwerking en nauwe integratie met Spark en het Databricks-ecosysteem vereisen. Apache Iceberg daarentegen biedt meer flexibiliteit voor grootschalige dataverwerking en de mogelijkheid om per use-case de beste engine te kiezen.

Aan de slag met Apache Iceberg

Het opzetten en gebruiken van Apache Iceberg houdt in dat je je omgeving configureert en basis- en geavanceerde bewerkingen begrijpt. Deze gids helpt je op weg.

Installatie en setup

Om Iceberg-tabellen op te zetten en uit te voeren, moeten de volgende omgevingen op je machine zijn geconfigureerd:

Java JDK
PySpark
Python
Apache Spark

Het is ook handig om basiskennis van deze tools en technologieën te hebben. Je kunt ze leren via de volgende cursussen:

Zodra je klaar bent, kun je de onderstaande stappen volgen om Iceberg-tabellen in te richten:

Download de Iceberg JAR-bestanden en plaats ze in een map op je machine.
Maak een nieuwe map met de naam iceberg-warehouse om je Iceberg-tabellen op te slaan.

mkdir iceberg-warehouse

Configureer de jar-bestanden in een Spark-sessie, zoals hieronder getoond.

from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("Iceberg-sample") \
    .config("spark.jars", "jars/iceberg-spark-runtime-<version>.jar") \
    .getOrCreate()

Vervang “jars/iceberg-spark-runtime-<version>.jar” door de daadwerkelijke map van de jar-bestanden en de versie die je gebruikt.

Configureer PySpark om Iceberg-tabellen te gebruiken.

from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("Iceberg-Sample") \
    .config("spark.jars", "jars/iceberg-spark-runtime-<version>.jar") \
    .config("spark.sql.catalog.catalog_name", "org.apache.iceberg.spark.SparkCatalog") \
    .config("spark.sql.catalog.catalog_name.type", "hadoop") \
    .config("spark.sql.catalog.catalog_name.warehouse", "file:///C:/HP/iceberg-warehouse") \
    .getOrCreate()

Vervang "jars/iceberg-spark-runtime-<version>.jar" door het daadwerkelijke pad en de versie van de Iceberg JAR-bestanden en zorg dat het warehouse-pad klopt.

Je kunt nu met PySpark Iceberg-tabellen aanmaken en gebruiken.

Basisbewerkingen

Maak een Iceberg-tabel en voeg er data aan toe.

spark.sql(""" CREATE TABLE my_catalog.emp_table ( id INT, data STRING ) USING iceberg """)
spark.sql(""" INSERT INTO catalog_name.emp_table VALUES (14, 'james'),('15','john')""")

Opdracht om data uit Iceberg-tabellen te verwijderen.

spark.sql("DELETE FROM catalog_name.emp_table WHERE id = 14")

Geavanceerde bewerkingen

Kolommen toevoegen, bijwerken of verwijderen zonder bestaande data te beïnvloeden is onderdeel van schema-evolutie.

Zo voeg je een nieuwe kolom toe.

spark.sql("ALTER TABLE ADD catalog_name.emp_table COLUMN salary INT")

Partitionevolutie betekent partitionkolommen wijzigen zonder bestaande databestanden te overschrijven.

Zo voeg je een nieuwe partitionkolom toe.

spark.sql("ALTER TABLE catalog_name.emp_table ADD PARTITION FIELD emp_join_date")

Deze stappen en opdrachten bieden een basisraamwerk om te starten met Apache Iceberg en geven je een beeld van hoe het werken met dit formaat eruitziet.

Conclusie

We hebben vandaag veel behandeld; laten we afsluiten met een paar kernpunten.

Apache Iceberg biedt een robuuste tabelstructuur voor een set databestanden, met ondersteuning voor ACID-transacties en waarborging van dataconsistentie en betrouwbaarheid.

Het Iceberg-formaat introduceert dynamische schema-evolutie, naadloze partitionering en schaalbaarheid voor opslagsystemen. De integratie met dataverwerkingsengines zoals Apache Spark en Flink maakt efficiënte verwerking van zowel batch- als realtime streamingdata mogelijk.

Als je dieper wilt duiken in moderne data-architectuur en -beheer, bekijk dan deze aanvullende bronnen: