Cursus
La vision par ordinateur a toujours reposé sur une séparation nette entre les modèles qui produisent des images et ceux qui les comprennent. Les cadres génératifs servaient principalement à la synthèse, tandis que les architectures discriminatives se concentraient sur la classification, la segmentation ou la régression de profondeur. Le schéma classique pour toute nouvelle tâche de vision consistait à choisir une architecture, ajouter une tête spécifique à la tâche et affiner le modèle sur des données annotées.
C’est précisément ce postulat que Vision Banana de Google DeepMind remet en cause. L’article défend l’idée que les générateurs d’images ont déjà appris tout ce dont un modèle de vision généraliste a besoin, y compris la segmentation, la profondeur, les normales de surface, et plus encore. Selon les auteurs, il ne manque qu’une fine couche d’instruction tuning pour rendre ces capacités latentes mesurables sur les benchmarks.
Dans cet article, je commence par décrire ce qu’est concrètement Vision Banana et pourquoi le papier retient l’attention, puis j’explique le fonctionnement du modèle. Je terminerai par ce qui fonctionne, ce qui fonctionne moins bien, et ce que les praticiens doivent en retenir. Au passage, je relèverai les questions que je me suis posé en lisant l’article — vous vous les poserez sans doute aussi.
Remarque : Vision Banana n’est pas accessible publiquement. Seuls l’article et la page du projet sont disponibles. Le modèle de base s’appuie sur Nano Banana Pro et est disponible via l’API Gemini et Google AI Studio.
Qu’est-ce que Vision Banana ?
Vision Banana est un modèle de recherche de Google DeepMind, construit à partir de Nano Banana Pro (génération texte-vers-image) sur lequel est appliqué un instruction tuning léger, en mélangeant ses données d’entraînement d’origine et une petite quantité de données de tâches de vision par ordinateur.

Figure 1 : capacités latentes de compréhension visuelle des générateurs d’images via instruction-tuning de Nano Banana Pro (Source)
La recette :
- Conserver telle quelle l’architecture du modèle de base
- Mélanger des données de segmentation, de profondeur et de normales de surface dans la distribution d’entraînement à faible ratio
- Procéder à l’instruction tuning
Toute la méthodologie ne nécessite aucune nouvelle architecture, aucune tête personnalisée, aucune perte auxiliaire, ni décodeur spécialisé.
Le modèle obtenu :
- Dépasse SAM 3 sur trois benchmarks de segmentation
- Dépasse Depth Anything V3 en estimation de profondeur métrique
- Dépasse Lotus-2 en estimation des normales de surface
- Conserve la qualité de génération d’images du modèle de base (ex aequo statistique sur GenAI-Bench et ImgEdit)
Tout cela est obtenu sous un protocole strict de transfert zero-shot, garantissant que le modèle n’a jamais vu les jeux d’entraînement des benchmarks sur lesquels il est évalué.
Pourquoi est-ce important ?
L’apprentissage des représentations visuelles a testé de nombreux objectifs de pré-entraînement au fil des années. Les plus courants incluent :
- Classification supervisée (ImageNet, JFT)
- Apprentissage contrastif (CLIP, SigLIP)
- Auto-distillation (DINO, DINOv2)
- Masquage auto-encodant (MAE, BEiT)
L’essentiel, c’est qu’aucun de ces objectifs n’est génératif. La génération d’images a historiquement été considérée comme une capacité en aval, pas comme un socle pour la compréhension. Les premières tentatives de pré-entraînement génératif (iGPT, LVM) étaient systématiquement en retrait des méthodes contrastives sur les benchmarks de qualité de représentation.
Le passage à l’échelle des objectifs génératifs auto-régressifs via la prédiction du prochain jeton a déclenché l’émergence de capacités généralistes zero-shot dans des modèles comme GPT-3. Des comportements complexes en aval se sont révélés latents dans l’espace de poids de haute dimension, puis ont été mis en surface par un affinement supervisé léger et un alignement par instructions. Parmi les exemples :
- Traduction automatique neuronale
- Génération de code multilingue
- Résumés abstraits
- Raisonnement arithmétique
Vision Banana soutient que la vision vit le même moment charnière. L’article établit explicitement une analogie entre le pré-entraînement pour la génération d’images et le pré-entraînement des modèles de langage, et entre l’instruction tuning et l’étape d’alignement.
Si l’analogie tient, nous cesserons de construire des pipelines spécifiques à chaque tâche et nous traiterons un unique grand générateur d’images comme couche fondatrice, en spécifiant les tâches par des invites.
Comment fonctionne Vision Banana ?
Le mécanisme est simple : chaque tâche de vision est reformulée comme « générer une image RGB avec ces propriétés », puis au décodage, on reconvertit déterministement cette image RGB en prédictions de tâche.
Voici comment chaque tâche est mise en correspondance :
Segmentation sémantique
Demandez au modèle, via le prompt, des couleurs attribuées à chaque classe, puis au décodage, regroupez chaque pixel vers la couleur spécifiée la plus proche. Le vocabulaire est celui de votre prompt : c’est, par construction, un vocabulaire ouvert.
Ce sera plus clair avec un exemple. Voici un prompt tiré de l’article :
This image is a per-pixel class labeling of the input. The macaron cakes are represented by (255, 255, 0). The round plates are represented by (255, 192, 128). The slice cakes are depicted in (64, 192, 64). The flowers are shown in (128, 0, 64). The tongs are (255, 0, 192).

Figure 2 : segmentation sémantique (Source)
Segmentation d’instances
La segmentation d’instances est plus délicate que la segmentation sémantique, car le nombre d’instances n’est pas connu à l’avance. Vous ne pouvez donc pas préattribuer les couleurs.
La solution de Vision Banana consiste à traiter une classe par inférence, laisser le modèle attribuer dynamiquement des couleurs distinctes aux instances distinctes, puis à regrouper les pixels selon les modes de couleur au décodage.
Segmentation par expression référentielle
Vision Banana accepte un prompt en langage naturel décrivant ce qu’il faut segmenter, et renvoie un masque. Exemple de prompt tiré de l’article :
A segmentation map image. The stretching cat is rendered in green, the cat that is cleaning itself is in cyan.
C’est là que le raisonnement multimodal acquis pendant le pré-entraînement génératif excelle. Les modèles discriminatifs peinent avec les expressions référentielles car la tâche exige un raisonnement à la fois linguistique et visuel. Les modèles génératifs entraînés sur des milliards de couples légende-image les gèrent naturellement.

Figure 3 : Vision Banana comprend des prompts en langage naturel et raisonne dessus (Source)
Profondeur et normales de surface
La profondeur et les normales de surface sont projetées dans l’espace RGB via des mappings bijectifs, garantissant la conservation sans perte d’information des propriétés géométriques latentes pendant la transformation. Nous allons détailler l’encodage profondeur-vers-RGB dans la section suivante.
Ce paradigme d’inference unifié traite chaque tâche de vision comme un problème d’image générée de façon déterministe. En conservant une interface RGB cohérente tout au long du pipeline, le modèle évite les branches architecturales spécifiques à chaque tâche et s’appuie entièrement sur le conditionnement par prompt pour définir la sémantique de sortie.
Passons maintenant à une compréhension un peu plus fine de la profondeur. C’est là que l’approche pourrait le plus facilement achopper.
Encoder une profondeur non bornée en RGB
Si l’encodage n’est pas bijectif, vous ne pouvez pas retrouver des distances métriques au décodage, et toute l’idée « la génération d’images comme interface universelle » s’effondre. Il est utile de le comprendre pour juger si l’approche est solide ou bricolée.
Le problème, c’est que les valeurs de profondeur sont des réels non bornés dans [0, ∞), tandis que le RGB est borné à [0, 1]. Pour utiliser « générer la carte de profondeur » comme signal d’entraînement, il faut un mapping bijectif où chaque profondeur métrique correspond à une valeur RGB unique, et qu’au décodage on puisse l’inverser en mètres.
L’approche de Vision Banana comporte deux étapes :
Étape 1 : comprimer la profondeur non bornée sur [0, 1)
Les auteurs utilisent la puissance transformée de Barron (2025) avec un paramètre de forme λ = -3, ce qui offre davantage de résolution au proche champ qu’au lointain. Un objet à 2 mètres bénéficie de plus de précision qu’un objet à 200 mètres. Cela correspond aux priorités de la plupart des applications : des objets manipulables plutôt que lointains.
Étape 2 : projeter [0, 1) sur les arêtes du cube RGB
Ensuite, ils interpolent le long d’un chemin affine par morceaux qui parcourt les arêtes du cube RGB, en substance la première itération d’une courbe de Hilbert 3D. Cela produit des transitions de couleur fluides et perceptuellement cohérentes, sans ambiguïté sur la correspondance couleur-profondeur.
Les deux étapes étant strictement inversibles, leur composition est une bijection. Ils entraînent alors sur les vérités terrain encodées en RGB et, à l’inférence, projettent le RGB prédit sur l’arête la plus proche du cube puis inversent en mètres.

Figure 4 : visualisation de la bijection entre distances métriques scalaires d ≥ 0 et valeurs de couleur RGB (Source)
Pour la robustesse, l’entraînement est augmenté avec des color maps alternatives comme Plasma, Inferno, Viridis et niveaux de gris, afin que le modèle gère le style de visualisation demandé dans le prompt.
Les normales de surface sont plus simples, car ce sont déjà des vecteurs unitaires de composantes dans [-1, 1], facilement mappées en RGB selon la convention standard en repère caméra (+x à droite, +y en haut, +z vers l’objectif). Le vert clair indique une surface orientée vers le haut, le rouge rosé vers la gauche, et le bleu/violet clair vers la caméra. Pas de déformation nécessaire.
Remarque : Vision Banana n’utilise aucune intrinsèque caméra, ni à l’entraînement ni à l’inférence. La plupart des méthodes SOTA de profondeur (Depth Anything V3, MoGe-2, UniK3D, DepthLM) les intègrent car elles aident à lever l’ambiguïté d’échelle monoculaire.
Le fait que Vision Banana déduise l’échelle absolue à partir de purs indices visuels, tout en surpassant des spécialistes qui recourent aux intrinsèques, constitue la preuve la plus forte, dans l’article, que le pré-entraînement génératif apprend une géométrie et ne se contente pas d’imiter des visualisations vues pendant l’entraînement.
Modèles spécialistes vs Vision Banana : comparaison
La meilleure façon de cerner ce qui change vraiment est de comparer directement les deux paradigmes sur une même tâche. Comparons l’estimation de profondeur avec l’approche spécialiste (Marigold, Lotus, Depth Anything V3) et Vision Banana.
Les deux paradigmes produisent des artefacts différents. Marigold est un outil spécialisé, alors que Vision Banana est un généraliste dont l’étendue provient d’une unique étape d’entraînement.
Ces différences se répercutent sur la manière d’utiliser le modèle en pratique :
|
Aspect |
Spécialiste (type Marigold) |
Vision Banana |
|
Format de sortie |
Tensor spécifique à la tâche |
Image RGB |
|
Vocabulaire |
Fixé à l’entraînement |
Défini dans le prompt |
|
Multi-tâches |
Un modèle par tâche |
Un modèle, plusieurs tâches |
|
Intrinsèques caméra |
Souvent requis |
Non utilisés |
|
Capacité de génération |
Perdue lors du fine-tuning |
Préservée |
|
Coût d’inférence |
Faible |
Élevé (générateur d’images complet) |
Les benchmarks livrent un bilan contrasté entre victoires nettes et un revers honnête. Le tout en zero-shot, c’est-à-dire sans avoir vu les jeux d’entraînement des benchmarks d’évaluation.
Profils de performance supérieurs :
- Segmentation sémantique (Cityscapes) : mIoU moyenne de 0,699, au-dessus du Segment Anything Model (SAM 3) à 0,652.
- Segmentation référentielle (RefCOCOg) : cIoU de 0,738, supérieure au SAM 3 Agent à 0,734.
- Raisonnement visuel complexe (ReasonSeg) : en synergie avec Gemini 2.5 Pro, gIoU de 0,793, au-dessus du SAM 3 Agent à 0,770, établissant un nouvel état de l’art zero-shot, y compris face à des approches pleinement supervisées non zero-shot.
- Estimation de profondeur métrique :
δmoyen (précision au seuil) de 0,929 sur quatre jeux de données variés, mieux que Depth Anything V3 (0,918). - Estimation des normales de surface : erreur angulaire moyenne plus faible de 15,549° sur trois jeux de données indoor, meilleure fidélité géométrique que Lotus-2 (16,558°).
Déficit de performance :
- Segmentation d’instances (SA-Co/Gold) : 0,540 pmF1 (sur un échantillon de 500 requêtes de SA-Co/Gold, pas le benchmark complet), derrière le SAM 3 non zero-shot (0,661) et au niveau du DINO-X zero-shot (0,552). Cette limite vient vraisemblablement de l’assignation discrète de couleurs pour compter les instances, qui bride la résolution dans les scènes très denses.
Sur GenAI-Bench, Vision Banana l’emporte dans 53,5 % des comparaisons humaines face au Nano Banana Pro de base. Voici un exemple de test de mise à l’épreuve en conditions réelles tiré de l’article :

Figure 5 : estimation de profondeur avec Vision Banana (Source)
Un des auteurs a pris une photo au smartphone près de Kinkaku-Ji. Vision Banana a prédit 13,71 m pour un point donné. Google Maps indique 12,87 m, soit 6,5 % d’erreur relative absolue, sans calibration, sans intrinsèques, sans installation. Ce type de test prédit mieux le comportement en production que des chiffres de benchmark.
Limites de Vision Banana
Vision Banana présente quatre contraintes à connaître :
- Coût : exécuter un modèle de l’échelle de Nano Banana Pro à chaque inférence coûte nettement plus cher qu’un spécialiste distillé pour la profondeur. L’article le reconnaît explicitement dans la section Travaux futurs. Pour 10 000 images vidéo, l’approche n’est pas compétitive économiquement aujourd’hui. La distillation vers de petits spécialistes est l’étape évidente.
- Scènes riches en instances : SA-Co/Gold est la défaite nette. L’assignation de couleurs par classe sature quand il faut compter avec précision de nombreux petits objets. SAM 3 garde l’avantage.
- Image unique : la mise en œuvre actuelle est fondamentalement limitée à des entrées statiques monoculaires, sans capacité spatio-temporelle ni multi-vues. Le raisonnement temporel est laissé aux travaux futurs.
- Déploiement en boîte noire : vous ne pouvez ni sonder, ni modifier, ni exécuter le modèle en privé. Problématique dans les contextes réglementés ou sensibles en PI où une API de pointe n’est pas envisageable.
Conclusion
Vision Banana démontre concrètement que les générateurs d’images réalisent déjà l’essentiel du travail pour la compréhension visuelle, et que mettre ces capacités en surface relève de l’alignement, pas de nouvelles architectures.
Les contributions spécifiques de l’article :
- Un encodage RGB bijectif qui rend la profondeur et la segmentation inversibles comme problèmes de génération d’images
- Une recette d’instruction tuning légère qui ajoute des compétences de vision sans détruire le prior de génération
- Une estimation de profondeur métrique sans intrinsèques caméra qui dépasse des spécialistes qui en dépendent
- Un protocole strict de transfert zero-shot qui rend la prétention généraliste mesurable sur des benchmarks standards.
L’article promeut aussi un paradigme « génération d’abord » où les tâches sont spécifiées par prompt et les sorties décodées à partir d’images RGB, et où les mêmes poids servent à la fois à produire et à analyser des contenus visuels.
Vous pouvez tester les prompts de la page projet sur les modèles de base Nano Banana Pro ou Nano Banana 2 pour voir ce qui est déjà accessible sans instruction tuning, et construire des fonctions de segmentation par raisonnement avec des modèles de classe NBP et un routeur LLM multimodal plutôt que d’entraîner des pipelines sur mesure.
FAQs sur Vision Banana
Comment utiliser Vision Banana aujourd’hui ?
Non. L’article et la page projet sont disponibles, mais les poids du modèle restent chez Google DeepMind. Le modèle de base, Nano Banana Pro, est disponible via l’API Gemini et AI Studio, et la thèse même de l’article suggère que le fait de solliciter NBP directement avec les prompts de la page projet devrait déjà produire des résultats pertinents.
Vision Banana peut-il remplacer SAM 3 ou Depth Anything ?
Pas aujourd’hui, principalement à cause du coût. Pour des applications où il faut exécuter de l’inférence vision à bas coût et à l’échelle (vidéo, temps réel, mobile), les spécialistes restent gagnants économiquement.
Comment cela se compare-t-il aux MLLM comme GPT-5V ou Gemini 2.5 ?
Les LLM multimodaux prennent une image et produisent du texte. Vision Banana prend une image et un prompt pour produire une image. Ils résolvent des problèmes différents.
Pourquoi Vision Banana n’utilise-t-il pas les intrinsèques caméra pour la profondeur ?
La plupart des spécialistes utilisent des intrinsèques pour lever l’ambiguïté d’échelle monoculaire (un petit objet proche et un grand objet lointain peuvent produire des pixels identiques). Vision Banana, lui, déduit l’échelle à partir de priors visuels appris durant le pré-entraînement génératif : taille des objets, contexte de scène, et connaissances du monde.
Je suis experte Google Developers en ML (Gen AI), triple experte Kaggle et ambassadrice Women Techmakers, avec plus de trois ans d’expérience dans la tech. J’ai cofondé une startup dans le domaine de la santé en 2020 et je poursuis actuellement un master en informatique à Georgia Tech, avec une spécialisation en apprentissage automatique.
