Vision Banana uitgelegd: hoe beeldgeneratoren generalistische visiemodellen werden

Een praktische uiteenzetting van het argument van Google DeepMind dat afbeeldingsgeneratie voor computervisie is wat next-token-predictie voor taal is.

Bijgewerkt 28 apr 2026 · 10 min lezen

Computervisie werkte altijd met een duidelijke scheiding tussen modellen die afbeeldingen produceren en modellen die ze begrijpen. Generatieve frameworks waren de primaire bronnen voor synthese, terwijl discriminerende architecturen zich richtten op classificatie, segmentatie of diepte-regressie. Het standaardrecept voor een nieuwe visietaak was: kies een architectuur, koppel er een taakspecifieke head aan en finetune op gelabelde data.

Precies die aanname is wat Vision Banana van Google DeepMind wil doorbreken. Het artikel stelt dat afbeeldingsgeneratoren al alles hebben geleerd wat een generalistisch visiemodel nodig heeft, inclusief segmentatie, diepte, oppervlaknormaalvectoren en meer. Volgens de auteurs ontbreekt er alleen nog een dunne laag met instruction tuning om die latente vaardigheden meetbaar te maken op benchmarks.

In deze post begin ik met wat Vision Banana eigenlijk is en waarom het artikel de aandacht van het veld heeft getrokken, daarna loop ik door hoe het model werkt. Ik eindig met wat wél werkt, wat niet, en wat practitioners hieruit kunnen meenemen. Onderweg licht ik de vragen uit die ik had tijdens het lezen; andere lezers zullen waarschijnlijk dezelfde hebben.

Opmerking: Vision Banana zelf is niet publiek toegankelijk. Wat er is, zijn het paper en de projectpagina. Het basismodel is gebouwd op Nano Banana Pro en is beschikbaar via de Gemini API en Google AI Studio.

Wat is Vision Banana?

Vision Banana is een onderzoeksmodel van Google DeepMind, gebouwd door Nano Banana Pro (tekst-naar-beeldgenerator) te nemen en lichte instruction tuning toe te passen op een mix van de oorspronkelijke trainingsdata, aangevuld met een kleine hoeveelheid data voor computervisie-taken.

Figuur 1: Verborgen visuele begripsvaardigheden van beeldgeneratoren door Nano Banana Pro met instruction tuning (Bron)

Het recept is:

Laat de basisarchitectuur van het model ongewijzigd
Mix segmentatie-, diepte- en oppervlaknormaal-data op lage ratio in de trainingsdistributie
Instruction-tune

De volledige trainingsmethodologie vereist geen nieuwe architectuur, geen custom heads, geen nevenverliezen en geen gespecialiseerde decoders.

Het resulterende model:

Verslaat SAM 3 op drie segmentatiebenchmarks
Verslaat Depth Anything V3 op metrische diepteschatting
Verslaat Lotus-2 op schatting van oppervlaknormaalvectoren
Behoudt de afbeeldingsgeneratiekwaliteit van het basismodel (statistische gelijkstand op GenAI-Bench en ImgEdit)

Dit alles wordt bereikt onder een strikt zero-shot transfer-protocol, wat garandeert dat het model de trainingssplits van de benchmarks waarop het wordt geëvalueerd nooit heeft gezien.

Waarom is dit belangrijk?

Visuele representatieleren heeft door de jaren heen veel pretraining-doelen geprobeerd. Veelvoorkomende zijn:

Gecodeerd leren (ImageNet, JFT)
Contrastief leren (CLIP, SigLIP)
Self-distillation (DINO, DINOv2)
Masked autoencoding (MAE, BEiT)

Belangrijk is dat geen van deze generatief is. Afbeeldingsgeneratie werd historisch gezien als een downstream-vaardigheid, niet als fundament voor begrip. Vroege generatieve pretraining-pogingen (iGPT, LVM) bleven consequent achter op contrastieve methoden op representatiekwaliteitsbenchmarks.

Het opschalen van generatieve autoregressieve doelen via next-token-predictie katalyseerde het ontstaan van zero-shot generalistische capaciteiten in modellen zoals GPT-3. Complexe downstream-gedragingen bleken latent aanwezig in de hoogdimensionale gewichtsruimte en werden vervolgens naar boven gehaald via lichte supervised fine-tuning en instruction alignment. Voorbeelden zijn:

Neurale machinevertaling
Polyglotte codegeneratie
Abstracte samenvatting
Rekenkundig redeneren

Vision Banana betoogt dat we voor visie op hetzelfde punt staan. Het artikel trekt expliciet een analogie tussen pretraining voor afbeeldingsgeneratie en pretraining van taalmodellen, en tussen instruction tuning en de alignmentstap.

Als die analogie standhoudt, stoppen we met het bouwen van taakspecifieke pijplijnen en behandelen we één grote afbeeldingsgenerator als de fundamentlaag, waarbij we taken via prompts specificeren.

Hoe werkt Vision Banana?

Het mechanisme is eenvoudig: elke visietaak wordt herkadert als "genereer een RGB-afbeelding met deze eigenschappen", en bij decoderen zet je die RGB-afbeelding deterministisch terug naar taakvoorspellingen.

Zo mapt elke taak:

Semantische segmentatie

Geef het model per-klasse kleurtoewijzingen als prompt, en cluster bij decoderen pixels naar de dichtstbijzijnde opgegeven kleur. De woordenschat is wat je in de prompt zet; hij is per definitie open-vocabulary.

Het wordt duidelijker met een voorbeeld. Hier is een prompt uit het paper:

This image is a per-pixel class labeling of the input. The macaron cakes are represented by (255, 255, 0). The round plates are represented by (255, 192, 128). The slice cakes are depicted in (64, 192, 64). The flowers are shown in (128, 0, 64). The tongs are (255, 0, 192).

Figuur 2: Semantische segmentatie (Bron)

Instance-segmentatie

Instance-segmentatie is lastiger dan semantische segmentatie, omdat het aantal instanties vooraf niet bekend is. Je kunt dus geen kleuren vooraf toewijzen.

De oplossing van Vision Banana is: één klasse per inferentie, laat het model dynamisch verschillende kleuren aan verschillende instanties toewijzen, en cluster vervolgens pixels bij decoderen naar kleurmodi.

Expression-segmentatie

Vision Banana kan een prompt met een natuurlijke-taalbeschrijving van wat je wilt segmenteren gebruiken en een masker teruggeven. Hier is een voorbeeldprompt uit het paper:

A segmentation map image. The stretching cat is rendered in green, the cat that is cleaning itself is in cyan.

Hier schittert de multimodale redenering die in generatieve pretraining is ingebakken. Discriminerende modellen worstelen met verwijzende expressies omdat de taak gezamenlijke linguïstische en visuele redenering vereist. Generatieve modellen die zijn getraind op miljarden paren van bijschriften en beelden pakken dit van nature op.

Figuur 3: Vision Banana begrijpt prompts in natuurlijke taal en kan erover redeneren (Bron)

Diepte en oppervlaknormaalvectoren

Zowel diepte als oppervlaknormaalvectoren worden via bijectieve mappings naar de RGB-ruimte geprojecteerd, zodat de latente geometrische eigenschappen behouden blijven met nul informatieverlies tijdens de transformatie. In de volgende sectie ontleden we de details van de diepte-naar-RGB-codering.

Dit uniforme inferentieparadigma behandelt elke computervisie-taak als een deterministisch afbeeldingsgeneratieprobleem. Door een consistente RGB-interface in de hele pijplijn te behouden, vermijdt het model taakspecifieke architecturale vertakkingen en vertrouwt het volledig op promptgestuurde conditionering om de outputsemantiek te definiëren.

Laten we diepte nu iets gedetailleerder begrijpen. Dit is het deel waar de hele aanpak het gemakkelijkst kan stuklopen.

Onbegrensde diepte coderen in RGB

Als de codering niet bijectief is, kun je metrische afstanden bij decoderen niet terugwinnen, en valt de hele claim van "afbeeldingsgeneratie als universele interface" in duigen. Dit is het begrijpen waard, omdat het je vertelt of de aanpak principieel is of een hack.

Het probleem is dat dieptewaarden onbegrensde reële getallen in [0, ∞) zijn, terwijl RGB begrensd is tot [0, 1]. Dus, om "genereer de dieptekaart" als trainingssignaal te gebruiken, heb je een bijectieve mapping nodig waarbij elke metrische diepte naar precies één RGB-waarde mapt, en je deze bij decoderen terug kunt inverteren naar meters.

De aanpak van Vision Banana kent twee stadia:

Fase 1: Onbegrensde diepte comprimeren naar [0, 1)

De auteurs gebruiken Barrons (2025) power transform met vormparameter λ = -3, wat nabijgelegen gebieden meer resolutie geeft dan verafgelegen. Een object op 2 meter krijgt meer precisie dan een object op 200 meter. Dit sluit aan bij de meeste toepassingen, namelijk grijpbare objecten, niet verre.

Fase 2: [0, 1) mappen op de randen van de RGB-kubus

Vervolgens interpoleren ze langs een stukgewijze lineair pad dat de randen van de RGB-kubus volgt, in essentie de eerste iteratie van een 3D-Hilbert-curve. Dit levert vloeiende, perceptueel zinvolle kleurtransities op zonder ambiguïteit over welke kleur bij welke diepte hoort.

Omdat beide stadia strikt omkeerbaar zijn, is de samenstelling een bijectie. Ze trainen dan op RGB-gecodeerde ground truth, en projecteren bij inferentie de voorspelde RGB op de dichtstbijzijnde kubusrand en inverteren terug naar meters.

Figuur 4: Een visualisatie van onze bijectie tussen scalair metrische afstanden 𝑑 ≥ 0 en RGB-kleurwaarden (Bron)

Voor robuustheid wordt tijdens training aangevuld met alternatieve kleurkaarten zoals Plasma, Inferno, Viridis en grijswaarden, zodat het model de visualisatiestijl aankan die je in de prompt vraagt.

Oppervlaknormaalvectoren zijn eenvoudiger omdat het al eenheidsvectoren zijn met componenten in [-1, 1], wat direct naar RGB mapt met de standaard cameraspace-conventie (+x rechts, +y omhoog, +z uit het beeldvlak). Lichtgroen betekent naar boven gericht, roze-rood betekent naar links gericht en lichtblauw/paars betekent naar de camera gericht. Geen warp nodig.

Opmerking: Vision Banana gebruikt geen camera-intrinsieken, noch in training noch in inferentie. De meeste SOTA-dieptemethoden (Depth Anything V3, MoGe-2, UniK3D, DepthLM) gebruiken ergens in de lus intrinsieken omdat die helpen monoculaire schaal te ontwarren.

Dat Vision Banana absolute schaal afleidt uit alleen visuele priors, en toch wint, is het sterkste bewijs in het artikel dat de generatieve pretraining geometrisch werk doet en niet slechts visualisaties napapegaait die het tijdens training zag.

Specialisten vs. Vision Banana: een vergelijking

De schoonste manier om het verschil te zien is de twee paradigma's direct op één taak te vergelijken. Laten we diepteschatting vergelijken met de specialistische aanpak (Marigold, Lotus, Depth Anything V3) en Vision Banana.

De twee paradigma's produceren verschillende artefacten. Marigold is een gespecialiseerd gereedschap, terwijl Vision Banana een generalist is wiens breedte uit één enkele trainingsstap komt.

De verschillen werken door in hoe het model in de praktijk wordt gebruikt:

Aspect	Specialist (Marigold-stijl)	Vision Banana
Outputformaat	Taakspecifieke tensor	RGB-afbeelding
Woordenlijst	Vastgezet bij training	Gedefinieerd in prompt
Multitask	Eén model per taak	Eén model, veel taken
Camera-intrinsieken	Vaak vereist	Niet gebruikt
Generatiecapaciteit	Gaat verloren bij finetunen	Behoudt
Infrentiekosten	Laag	Hoog (volledige afbeeldingsgenerator)

De benchmarks zijn een mix van duidelijke overwinningen en één eerlijke nederlaag. Allemaal onder zero-shot transfer, dus het model heeft de trainingssplits van de evaluatiebenchmarks nooit gezien.

Sterke prestatieprofielen:

Semantische segmentatie (Cityscapes): Behaalde 0,699 mean Intersection over Union (mIoU), beter dan het gespecialiseerde Segment Anything Model (SAM 3) met 0,652.
Referring-segmentatie (RefCOCOg): Liet 0,738 cIoU (cumulative IoU) zien, beter dan de SAM 3 Agent-baseline van 0,734.
Complex visueel redeneren (ReasonSeg): In combinatie met Gemini 2.5 Pro behaalde het 0,793 gIoU, beter dan de 0,770 van de SAM 3 Agent en een nieuwe zero-shot state-of-the-art, zelfs ten opzichte van niet-zero-shot, volledig gesuperviseerde methoden.
Metrische diepteschatting: Noteerde een gemiddelde δ (drempelnauwkeurigheid) van 0,929 over vier diverse datasets, een verbetering ten opzichte van Depth Anything V3 met 0,918.
Oppervlaknormaalvectoren: Gaf een lagere gemiddelde hoekfout van 15,549° over drie indoor-datasets, wat superieure geometrische getrouwheid toont vergeleken met Lotus-2 (16,558°).

Prestatieverlies:

Instance-segmentatie (SA-Co/Gold): 0,540 pmF1 (geëvalueerd op een steekproef van 500 queries van SA-Co/Gold, niet de volledige benchmark), achter de niet-zero-shot SAM 3 (0,661) en vergelijkbaar met de zero-shot DINO-X (0,552). Dit komt waarschijnlijk door de beperking van discrete kleurtoewijzing voor het aantal instanties, wat de resolutie beperkt in zeer dichte scènes.

Op GenAI-Bench wint Vision Banana 53,5% van de menselijke vergelijkingen tegen de base Nano Banana Pro. Hier is een voorbeeld van een in-the-wild groundingtest uit het paper:

Figuur 5: Vision Banana diepteschatting (Bron)

Een auteur maakte een smartphonefoto bij Kinkaku-Ji. Vision Banana voorspelde een specifiek punt op 13,71 meter. Google Maps zegt 12,87, wat neerkomt op 6,5% absolute relatieve fout bij een telefoonfoto zonder calibratie, zonder intrinsieken, zonder setup. Dat is het soort test dat het implementatiegedrag betrouwbaarder voorspelt dan benchmarkcijfers.

Beperkingen van Vision Banana

Vision Banana heeft vier beperkingen die het vermelden waard zijn. Dit zijn:

Kosten: Een model op schaal Nano Banana Pro voor elke inferentie draaien is aanzienlijk duurder dan een gedistilleerde dieptespecialist draaien. Het artikel erkent dit direct in de sectie Toekomstig Werk. Voor 10K videoframes is deze aanpak vandaag economisch niet concurrerend. Distillatie naar kleinere specialisten is de logische volgende stap.
Scènes met veel instanties: SA-Co/Gold is de duidelijke nederlaag. Per-klasse kleurtoewijzing raakt aan z'n plafond wanneer veel kleine objecten precies geteld moeten worden. SAM 3 wint hier nog steeds.
Enkele afbeelding: De huidige modelimplementatie is fundamenteel beperkt tot statische inputs met één aanzicht en mist de capaciteit voor spatio-temporele of multi-view verwerking. Temporele redenering is door de auteurs aangewezen als toekomstig werk.
Black-box implementatie: Je kunt het model niet onderzoeken, aanpassen of privé draaien. Dit is belangrijk in gereguleerde of IP-gevoelige contexten waar het draaien van een frontier-API geen optie is.

Slotgedachten

Vision Banana is een concreet bewijs dat afbeeldingsgeneratoren het zware werk voor visueel begrip al doen, en dat het naar boven halen van die capaciteiten alignment vergt in plaats van nieuwe architecturen.

De specifieke bijdragen van het artikel zijn

Bijectieve RGB-codering die diepte en segmentatie tot omkeerbare afbeeldingsgeneratieproblemen maakt
Lichte instruction-tuning-receptuur die visie-vaardigheden toevoegt zonder de generatieve prior te verbranden
Metrische diepteschatting zonder camera-intrinsieken die specialisten verslaat, die ze wel nodig hebben
Strikt zero-shot transfer-protocol dat de generalistische claim meetbaar maakt op standaardbenchmarks.

Het artikel promoot ook een generatie-first denkkader waarin taken worden gespecificeerd via een prompt en outputs worden teruggedecodeerd uit RGB-afbeeldingen, en waarin dezelfde gewichten zowel het produceren als het parsen van visuele content afhandelen.

Je kunt de prompts van de projectpagina testen tegen de basis-Nano Banana Pro of Nano Banana 2 om te zien wat er zonder instruction tuning al mogelijk is, en reasoning-segmentatiefuncties bouwen met NBP-klasse modellen en een multimodale LLM-router in plaats van direct custom pijplijnen te trainen.

Hoe kan ik Vision Banana vandaag gebruiken?

Kan Vision Banana SAM 3 of Depth Anything vervangen?

Hoe verhoudt dit zich tot MLLM's zoals GPT-5V of Gemini 2.5?

Waarom gebruikt Vision Banana geen camera-intrinsieken voor diepte?

Author

Aashi Dutt

Onderwerpen

Kunstmatige intelligentie

Generative AI

Deep Learning

Topcursussen in multimodale AI

Leerpad

Deep learning in Python

18 Hr

Ga verder met je machine learning-avontuur en duik in deep learning. Gebruik de PyTorch-bibliotheek om neurale netwerken te maken om verschillende soorten data te modelleren.

Bekijk details

Begin met de cursus

Cursus

Deep Learning voor afbeeldingen met PyTorch

4 Hr

11.6K

Gebruik PyTorch voor afbeeldingen en zet deep learning-modellen in voor het vinden van objecten met begrenzingskaders en het maken van beeldsegmentatie.

Bekijk details

Begin met de cursus

Cursus

Multi-modale modellen met Hugging Face

4 Hr

1.6K

Combineer tekst, afbeeldingen, audio en video met de nieuwste AI-modellen van Hugging Face en maak nieuwe afbeeldingen en video's!

Bekijk details

Begin met de cursus

Meer zien

Gerelateerd

blog

AI vanaf nul leren in 2026: een complete gids van de experts

Ontdek alles wat je moet weten om in 2026 AI te leren, van tips om te beginnen tot handige resources en inzichten van industrie-experts.

Adel Nehme

15 min

Meer zien Meer zien

Wat is Vision Banana?

Waarom is dit belangrijk?

Hoe werkt Vision Banana?

Semantische segmentatie

Instance-segmentatie

Expression-segmentatie

Diepte en oppervlaknormaalvectoren

Onbegrensde diepte coderen in RGB

Fase 1: Onbegrensde diepte comprimeren naar [0, 1)

Fase 2: [0, 1) mappen op de randen van de RGB-kubus

Specialisten vs. Vision Banana: een vergelijking

Beperkingen van Vision Banana

Slotgedachten

Vision Banana FAQ's

Hoe verhoudt dit zich tot MLLM's zoals GPT-5V of Gemini 2.5?

Waarom gebruikt Vision Banana geen camera-intrinsieken voor diepte?

AI vanaf nul leren in 2026: een complete gids van de experts

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Deep learning in Python

Deep Learning voor afbeeldingen met PyTorch

Multi-modale modellen met Hugging Face

AI vanaf nul leren in 2026: een complete gids van de experts

Deep learning in Python