Nano Banana Pro

Created Time

modele IMG

Nano Banana Pro est la nouvelle itération de l’outil IA de génération et d'édition d'images de Google.

Basé sur Gemini 3 Pro, il permet de créer des images réalistes à partir de prompts textuels, avec des fonctionnalités d'édition avancées via langage naturel. Il succède à Gemini 2.5 Flash, en visant une intégration plus profonde dans l'écosystème Gemini pour des usages mobiles et professionnels.

Dernière mise à jour : 04/12/2025

🗞️

L’Actualité Nano Banana Pro

Nano Banana Pro dans Flow

03/12/25 - Nano Banana Pro est disponible dans Google Flow.

→ En savoir plus

Nano Banana Pro dans ComfyUI

21/11/25 - L’interface nodale de ComfyUI intégre Nano Banana Pro dans ses workflows.

→ Lire l'article

Qu’est ce que Nano Banana Pro ?

Nano Banana Pro est un modèle de génération et d'édition d'images, construit sur les fondations de Gemini 3 Pro. Là où son prédécesseur Gemini 2.5 Flash excellait déjà dans la génération d’images, les retouches rapides et la création visuels viraux, la version Pro va encore plus loin et vise clairement le niveau professionnel.

Les principales forces de Nano Banana Pro tiennent en quelques points essentiels :

D'abord, le rendu de texte atteint enfin un niveau de fiabilité remarquable : le modèle génère du texte lisible, stylisé et multilingue directement dans les images (une faiblesse historique des générateurs d'images IA).

Ensuite, la résolution grimpe jusqu'en 4K natif (contre 1024px maximum pour la version précédente), permettant de créer des visuels utilisables pour l'impression ou les grands formats web.

Le modèle intègre également des capacités de raisonnement héritées de Gemini 3 Pro : il peut se connecter à Google Search pour intégrer des données en temps réel (météo, actualités, statistiques) dans ses créations, et "réfléchit" avant de générer pour produire des compositions plus cohérentes.

Autre évolution majeure : la gestion multi-images. Nano Banana Pro accepte jusqu'à 14 images de référence en entrée et maintient la cohérence visuelle de 5 personnes différentes au sein d'une même composition. Cette capacité ouvre la porte à des workflows professionnels comme la création de lookbooks de mode, de storyboards ou de campagnes marketing avec des personnages récurrents.

Qui est derrière Nano Banana Pro ?

Nano Banana Pro est développé par Google DeepMind, la division d'intelligence artificielle de Google née de la fusion entre Google Brain et DeepMind en 2023. Le projet mobilise une équipe conséquente : selon David Sharon, développeur senior chez Google DeepMind qui dirige le projet, plus de 1 000 personnes issues de disciplines variées contribuent au développement de Nano Banana et de son jumeau vidéo Veo 3. Cette équipe rassemble chercheurs en IA, ingénieurs infrastructure, experts en sécurité, spécialistes juridiques et développeurs produit.

Parmi les figures clés du projet, on retrouve également Alisa Fortin et Naina Raisinghani, Product Managers chez Google DeepMind, ainsi que Nicole Brichtova, responsable produit du modèle. Logan Kilpatrick, ancien responsable des relations développeurs chez OpenAI passé chez Google, contribue également au projet en tant que Senior Product Manager pour Google AI Studio et l'API Gemini.

Côté recherche, des ingénieurs comme Robert Riachi et Kaushik Shivakumar ont apporté leur expertise en modèles multimodaux et en compréhension vision-langage. Le guide de prompting officiel publié au lancement a été rédigé par Bea Alessio, Group Product Manager chez Google DeepMind, soulignant l'importance accordée à l'accompagnement des utilisateurs dans la maîtrise de cet outil.

Comment utiliser Nano Banana Pro ?

Accès à Nano Banana Pro

Le moyen le plus simple d'accéder à Nano Banana Pro reste l'application Gemini de Google. Pour l'utiliser, il suffit de sélectionner l'option "Créer des images" puis de choisir le mode "Raisonement" qui active automatiquement Nano Banana Pro.

1. Choisir Créer une Image 2. Sélectionner le mode Raisonement 3. Ecrivez votre prompt — 1. Choisir *Créer une Image* 2. Sélectionner le mode *Raisonement* 3. Ecrivez votre prompt

Les utilisateurs gratuits disposent d'un quota limité de générations basse résolution avant de basculer automatiquement vers le modèle Nano Banana standard. Les abonnés Google AI Plus, Pro et Ultra bénéficient de quotas plus généreux et d'un accès aux résolutions supérieures.

Nano Banana n’a donc aucune idée de comment il s’utilise 😉

Pour les développeurs, Nano Banana Pro est également accessible via l'API Gemini dans Google AI Studio et Vertex AI. Cependant, contrairement aux autres modèles Gemini, il n'existe pas de version gratuite dans AI Studio : une clé API avec facturation activée est requise. Le modèle s'intègre également dans l'écosystème Google : Workspace (Slides, Vids), Flow, Google Ads pour les annonceurs, et Google Antigravity pour les designers UX.

→ Découvrir où et comment utiliser Nano Banana Pro en ligne

Créer avec Nano Banana Pro

Le prompting de Nano Banana Pro ne diffère pas beaucoup des générateurs d'images traditionnels. Grâce à son architecture multimodale héritée de Gemini 3 Pro, le modèle comprend le langage naturel de manière holistique plutôt que de traiter les mots-clés de façon isolée et il est donc conseillé d’utiliser des prompts descriptifs sous forme de texte détaillés.

Pour obtenir les meilleurs résultats, Google recommande de structurer ses prompts autour de plusieurs éléments : le sujet (qui ou quoi apparaît), la composition (cadrage, angle), l'action (ce qui se passe), le lieu, le style visuel souhaité, et pour l'édition, des instructions directes et précises. Les prompts peuvent ensuite être affinés avec des détails avancés comme les paramètres de caméra (profondeur de champ, ouverture), l'éclairage, le format et le ratio d'aspect, ou encore l'intégration de texte spécifique.

Petit cerveau anthropomorphique en style cartoon, avec pieds et mains, tenant une craie et jouant le rôle d’un professeur devant un tableau d’école. La scène montre le cerveau en train d’expliquer un exemple de prompt minimaliste. Sur le tableau, un texte écrit à la main : « Un lapin mange une carotte dans son salon ». Trois flèches colorées pointent respectivement vers « lapin » (Sujet), « mange une carotte » (Action), et « dans son salon » (Contexte). L’ambiance est lumineuse, cadrage en plan moyen, éclairage doux façon classe d’école. Typographie simple et lisible sur le tableau.

Le modèle excelle particulièrement dans plusieurs domaines : la génération de texte lisible dans les images (slogans, paragraphes, calligraphies multilingues), la création d'infographies et de diagrammes basés sur des connaissances réelles, la traduction et localisation de visuels existants, et le maintien de la cohérence de style ou de personnages à travers plusieurs générations.

Crée une image 16:9 illustrant la phrase « Les chaussettes de l’archiduchesse sont-elles sèches ? » en écrivant les mots à partir de chaussettes mises à sécher par une servante.

Google reconnaît cependant certaines limitations actuelles : le rendu de texte très petit peut manquer de netteté, les données factuelles dans les diagrammes méritent vérification, la traduction multilingue peut présenter des approximations grammaticales, et les éditions complexes peuvent parfois produire des artefacts visuels.

🍌

Le Guide Ultime de Nano Banana

https://www.stablediffusion.blog/guide-nano-banana

Consulter notre guide complet pour apprendre à utiliser et maitriser Nano Banana :

Prise en main

Techniques avancées

Exemples de prompts

Conseils d’utilisation

→ Voir le guide Nano Banana

Combien coûte Nano Banana Pro ?

Nano Banana Pro se positionne clairement sur le segment premium. Le modèle est nettement plus coûteux que son prédécesseur, qui facturait déjà 0,039 $ par image en 1024px.

La tarification officielle de l'API s'établit comme suit :

Images 1K/2K : environ 0,134 $ par image (certaines plateformes tierces arrondissent à 0,15 $)

Images 4K : 0,24 $ par image

Images en entrée (pour l'édition ou les références) : environ 0,0011 $ par image

Pour donner un ordre de grandeur concret : générer 1 000 images en 2K coûte environ 134 $, et le même volume en 4K monte à 240 $. Et Une utilisation intensive de toutes les fonctionnalités (14 images de référence pour créer une image 4K) peut faire grimper le coût d'un seul appel API à plus d'un dollar.

Les abonnements Gemini (Pro à ~19,99 $/mois, Ultra pour des fonctionnalités avancées) offrent des quotas inclus et permettent d'amortir les coûts pour un usage régulier.

Images générées avec Nano Banana Pro

Depuis son lancement, Nano Banana Pro a impressionné la communauté créative par la qualité et la diversité de ses productions. Les réseaux sociaux, notamment X, regorgent d'exemples allant des infographies médicales complexes aux recreations de scènes cultes de manga, en passant par des mockups de produits ultra-réalistes et des diagrammes techniques détaillés. Les publications officielles de Google mettent en avant sa capacité à créer des storyboards, des logos typographiques créatifs, et des visuels marketing localisés en plusieurs langues.

https://deepmind.google/models/gemini-image/

https://x.com/azed_ai/status/1992232386059538917/photo/1

https://x.com/CharaspowerAI/status/1991876761877897311

https://deepmind.google/models/gemini-image/pro/

https://x.com/sahilypatel/status/1991594946110148734/photo/1

https://x.com/CharaspowerAI/status/1991918340068065304

https://x.com/GenIArt_Fr/status/1991514346518901206/photo/2

https://x.com/goodside/status/1992038915881029641

https://x.com/googlejapan/status/1991522884351607188/photo/2

Nano Banana Pro en détails

Fonctionnalités et points forts

Génération et édition d'images

Nano Banana Pro couvre l'ensemble du spectre créatif, de la génération pure à l'édition fine. Le modèle génère des images à partir de prompts textuels, mais accepte également des images existantes comme point de départ pour des modifications ciblées. L'édition conversationnelle permet d'itérer sur une création à travers plusieurs échanges, le modèle conservant le contexte de ce qu'il vient de produire pour appliquer des ajustements cohérents.

Prompt : Crée un storyboard pour cette scène.

Rendu textuel

C'est l’une des avancées les plus significativse. Nano Banana Pro génère du texte lisible, correctement orthographié, dans une variété de polices, textures et styles. Le modèle gère le texte multilingue et peut traduire le texte présent dans une image tout en préservant la mise en page et le style graphique. Cette capacité transforme les cas d'usage : création de posters, mockups d'interfaces, menus de restaurant, packaging produit avec texte localisé.

Prompt : Crée une infographie qui montre comment préparer un elaichi chai.

Connaissances du monde

Etant basé sur Gemini Pro 3, Nano Banana Pro bénéficie des connaissances du modèle et peut donc non seulement comprendre les prompts (texte et images) mais également utilisé ce qu’il connait du monde pour créer ses images.

Prompt : Photographie à plat de haute qualité créant une infographie DIY qui explique simplement comment fonctionne l'énergie solaire, disposée sur un fond texturé gris clair épuré. Le récit visuel se déroule de gauche à droite en étapes claires : Le contenu est basé sur ceci : https://en.wikipedia.org/wiki/Solar_power. Des flèches noires simples et épurées sont dessinées à la main sur le fond pour guider le regard du spectateur du soleil vers la maison, marquant clairement le flux d'énergie. L'ambiance générale est éducative, moderne et facile à comprendre. L'image est prise d'en haut, avec une vue à vol d'oiseau, avec un éclairage doux et uniforme qui minimise les ombres et maintient l'attention sur le processus. Format 16:9

De plus, grâce au "grounding" avec Google Search, Nano Banana Pro peut accéder à des informations actualisées pour créer des visuels factuellement ancrés. On peut lui demander de créer une infographie sur la météo du jour, un diagramme basé sur des données sportives récentes, ou une visualisation intégrant des statistiques à jour.

Contrôles créatifs avancés

Le modèle offre un niveau de contrôle digne d'un logiciel professionnel : ajustement de l'angle de caméra, de la profondeur de champ, de la mise au point, de l'éclairage (passage du jour à la nuit, effets de bokeh), et du color grading. L'édition locale permet de modifier des zones spécifiques sans affecter le reste de l'image.

Composition multi-images

Nano Banana Pro accepte jusqu'à 14 images de référence pour guider la génération. Cette fonctionnalité permet de charger un guide de style complet (logos, palettes de couleurs, références de personnages) pour garantir une cohérence de marque. Le modèle maintient la ressemblance et l'identité de jusqu'à 5 personnes différentes au sein d'une même composition ou à travers plusieurs générations.

Flexibilité des formats

Le modèle supporte plusieurs ratios d'aspect (1:1, 4:3, 16:9, formats cinématiques) et peut convertir entre ces formats tout en préservant les éléments principaux de la composition. Les résolutions s'échelonnent de 1K à 4K selon les besoins.

Architecture et détails techniques

Fondation Gemini 3 Pro

Nano Banana Pro repose sur l'architecture Gemini 3 Pro, un modèle de type transformeur à mélange d'experts clairsemé (sparse Mixture-of-Experts). Cette conception active uniquement un sous-ensemble des paramètres du modèle pour chaque token en entrée, permettant de gérer une capacité totale importante tout en maîtrisant le coût computationnel de chaque génération.

Approche multimodale

Contrairement aux générateurs d'images traditionnels qui traitent les prompts comme des collections de tokens pondérés, Nano Banana Pro traite texte et images de manière unifiée au sein de la même architecture. Le modèle peut traiter des entrées texte et image dans une fenêtre de contexte allant jusqu'à un million de tokens et produire une image avec une sortie de 64K tokens.

Processus de "réflexion" (Thinking)

Une caractéristique distinctive est le mode "thinking" du modèle. Avant de produire l'image finale, Nano Banana Pro génère des "images de pensée" intermédiaires en arrière-plan pour affiner la composition et raisonner sur les prompts complexes. Ces images intermédiaires ne sont pas facturées et ne sont pas visibles de l'utilisateur, mais contribuent à la cohérence et à la qualité du résultat final.

En s'appuyant sur Gemini 3 Pro, le modèle peut consommer du texte, du contenu structuré et des références, puis planifier l'image comme une explication de ce contenu. Cette approche de "génération par raisonnement" diffère fondamentalement des modèles de diffusion traditionnels qui "hallucinent" des motifs à partir de bruit aléatoire sans véritable compréhension sémantique.

Architecture de diffusion multimodale (MMDiT)

Le cœur de génération d'images utilise une architecture de Transformeur de Diffusion Multimodale (Multimodal Diffusion Transformer) qui emploie des ensembles de poids séparés pour les représentations d'image et de langage. Cette séparation améliore significativement la compréhension du texte et les capacités d'orthographe par rapport aux modèles de diffusion précédents.

Traçabilité SynthID

Toutes les images générées ou éditées par Nano Banana Pro intègrent un filigrane numérique invisible via la technologie SynthID de Google. Ce watermark imperceptible survit au recadrage, à la compression et aux captures d'écran, permettant de vérifier l'origine IA d'une image. Les métadonnées C2PA complètent ce dispositif pour une traçabilité renforcée. Les utilisateurs gratuits et Pro voient également un watermark visible (le "sparkle" Gemini), retiré pour les abonnés Ultra et les utilisateurs API.

Performances

Benchmarks et classements

Sur le classement LMArena, la plateforme d'évaluation participative de modèles d'IA, Nano Banana Pro a atteint la première position dans les catégories "Text-to-Image" et "Image Editing", établissant un nouveau state-of-the-art. Le modèle a enregistré un bond de près de 200 points ELO par rapport au précédent leader (Flux One Context Max), représentant la plus grande progression d'un modèle unique dans l'histoire de la plateforme.

Précision du rendu de texte

En benchmarks internes, Nano Banana Pro affiche un taux de rendu correct des caractères d'environ 94%, contre environ 82% pour les dernières versions de Stable Diffusion et 70-80% pour de nombreux concurrents. Cette amélioration drastique réduit considérablement le besoin de corrections manuelles pour les visuels contenant du texte.

Qualité d'image (FID)

Sur le score FID (Fréchet Inception Distance), métrique standard de qualité et réalisme des images générées, Nano Banana Pro obtient un score de 12,4 (plus bas = meilleur), surpassant DALL·E 3 (18,7), Midjourney v7 (15,3) et Stable Diffusion 3 (16,9).

Temps de génération

Les temps de génération varient selon la résolution et la complexité. Les tests rapportent généralement moins de 2 secondes pour une génération simple, et jusqu'à 60 secondes ou plus pour des images 4K complexes avec le mode thinking activé. Pour une image 4K standard, comptez environ 10 à 15 secondes. À titre de comparaison, l'architecture optimisée permet de générer des images 1024x1024 en 2,3 secondes sur infrastructure cloud standard, contre 4,1 secondes pour DALL·E 3.

Résolutions de sortie

Les fichiers de sortie en 4K peuvent atteindre des dimensions de 5632 × 3072 pixels et des tailles de fichier de plus de 24 Mo en PNG, attestant du niveau de détail généré nativement.

Adoption et impact

Selon Google, la première version de Nano Banana a attiré plus de 10 millions de nouveaux utilisateurs vers l'application Gemini et a permis plus de 200 millions d'éditions d'images dans les semaines suivant son lancement. Au total, plus de 5 milliards de créations ont été réalisées depuis août 2025.

Nano Banana 2