Nano Banana Pro
Tout ce qu'il faut savoir pour comprendre et utiliser Nano Banana 2
Created Time
modele IMG
modele IMG
Nano Banana Pro est la nouvelle itération de l’outil IA de génération et d'édition d'images de Google.
Basé sur Gemini 3 Pro, il permet de créer des images réalistes à partir de prompts textuels, avec des fonctionnalités d'édition avancées via langage naturel. Il succède à Gemini 2.5 Flash, en visant une intégration plus profonde dans l'écosystème Gemini pour des usages mobiles et professionnels.

Dernière mise à jour : 04/12/2025
Nano Banana 2
Qu’est ce que Nano Banana Pro ?Qui est derrière Nano Banana Pro ?Comment utiliser Nano Banana Pro ?Accès à Nano Banana ProCréer avec Nano Banana ProCombien coûte Nano Banana Pro ?Images générées avec Nano Banana ProNano Banana Pro en détailsFonctionnalités et points fortsGénération et édition d'imagesRendu textuelConnaissances du mondeContrôles créatifs avancésComposition multi-imagesFlexibilité des formatsArchitecture et détails techniquesFondation Gemini 3 ProApproche multimodaleProcessus de "réflexion" (Thinking)Architecture de diffusion multimodale (MMDiT)Traçabilité SynthIDPerformancesBenchmarks et classementsPrécision du rendu de texteQualité d'image (FID)Temps de générationRésolutions de sortieAdoption et impactTous nos Articles et Tuto sur Nano Banana Pros
L’Actualité Nano Banana Pro

Nano Banana Pro dans Flow
03/12/25 - Nano Banana Pro est disponible dans Google Flow.
Qu’est ce que Nano Banana Pro ?

Nano Banana Pro est un modèle de génération et d'édition d'images, construit sur les fondations de Gemini 3 Pro. Là où son prédécesseur Gemini 2.5 Flash excellait déjà dans la génération d’images, les retouches rapides et la création visuels viraux, la version Pro va encore plus loin et vise clairement le niveau professionnel.
Les principales forces de Nano Banana Pro tiennent en quelques points essentiels :
- D'abord, le rendu de texte atteint enfin un niveau de fiabilité remarquable : le modèle génère du texte lisible, stylisé et multilingue directement dans les images (une faiblesse historique des générateurs d'images IA).
- Ensuite, la résolution grimpe jusqu'en 4K natif (contre 1024px maximum pour la version précédente), permettant de créer des visuels utilisables pour l'impression ou les grands formats web.
- Le modèle intègre également des capacités de raisonnement héritées de Gemini 3 Pro : il peut se connecter à Google Search pour intégrer des données en temps réel (météo, actualités, statistiques) dans ses créations, et "réfléchit" avant de générer pour produire des compositions plus cohérentes.
- Autre évolution majeure : la gestion multi-images. Nano Banana Pro accepte jusqu'à 14 images de référence en entrée et maintient la cohérence visuelle de 5 personnes différentes au sein d'une même composition. Cette capacité ouvre la porte à des workflows professionnels comme la création de lookbooks de mode, de storyboards ou de campagnes marketing avec des personnages récurrents.
Qui est derrière Nano Banana Pro ?
Nano Banana Pro est développé par Google DeepMind, la division d'intelligence artificielle de Google née de la fusion entre Google Brain et DeepMind en 2023. Le projet mobilise une équipe conséquente : selon David Sharon, développeur senior chez Google DeepMind qui dirige le projet, plus de 1 000 personnes issues de disciplines variées contribuent au développement de Nano Banana et de son jumeau vidéo Veo 3. Cette équipe rassemble chercheurs en IA, ingénieurs infrastructure, experts en sécurité, spécialistes juridiques et développeurs produit.

Parmi les figures clés du projet, on retrouve également Alisa Fortin et Naina Raisinghani, Product Managers chez Google DeepMind, ainsi que Nicole Brichtova, responsable produit du modèle. Logan Kilpatrick, ancien responsable des relations développeurs chez OpenAI passé chez Google, contribue également au projet en tant que Senior Product Manager pour Google AI Studio et l'API Gemini.
Côté recherche, des ingénieurs comme Robert Riachi et Kaushik Shivakumar ont apporté leur expertise en modèles multimodaux et en compréhension vision-langage.
Le guide de prompting officiel publié au lancement a été rédigé par Bea Alessio, Group Product Manager chez Google DeepMind, soulignant l'importance accordée à l'accompagnement des utilisateurs dans la maîtrise de cet outil.
Comment utiliser Nano Banana Pro ?
Accès à Nano Banana Pro
Le moyen le plus simple d'accéder à Nano Banana Pro reste l'application Gemini de Google. Pour l'utiliser, il suffit de sélectionner l'option "Créer des images" puis de choisir le mode "Raisonement" qui active automatiquement Nano Banana Pro.

Les utilisateurs gratuits disposent d'un quota limité de générations basse résolution avant de basculer automatiquement vers le modèle Nano Banana standard. Les abonnés Google AI Plus, Pro et Ultra bénéficient de quotas plus généreux et d'un accès aux résolutions supérieures.

Pour les développeurs, Nano Banana Pro est également accessible via l'API Gemini dans Google AI Studio et Vertex AI. Cependant, contrairement aux autres modèles Gemini, il n'existe pas de version gratuite dans AI Studio : une clé API avec facturation activée est requise. Le modèle s'intègre également dans l'écosystème Google : Workspace (Slides, Vids), Flow, Google Ads pour les annonceurs, et Google Antigravity pour les designers UX.
Créer avec Nano Banana Pro
Le prompting de Nano Banana Pro ne diffère pas beaucoup des générateurs d'images traditionnels. Grâce à son architecture multimodale héritée de Gemini 3 Pro, le modèle comprend le langage naturel de manière holistique plutôt que de traiter les mots-clés de façon isolée et il est donc conseillé d’utiliser des prompts descriptifs sous forme de texte détaillés.
Pour obtenir les meilleurs résultats, Google recommande de structurer ses prompts autour de plusieurs éléments : le sujet (qui ou quoi apparaît), la composition (cadrage, angle), l'action (ce qui se passe), le lieu, le style visuel souhaité, et pour l'édition, des instructions directes et précises. Les prompts peuvent ensuite être affinés avec des détails avancés comme les paramètres de caméra (profondeur de champ, ouverture), l'éclairage, le format et le ratio d'aspect, ou encore l'intégration de texte spécifique.

Le modèle excelle particulièrement dans plusieurs domaines : la génération de texte lisible dans les images (slogans, paragraphes, calligraphies multilingues), la création d'infographies et de diagrammes basés sur des connaissances réelles, la traduction et localisation de visuels existants, et le maintien de la cohérence de style ou de personnages à travers plusieurs générations.

Google reconnaît cependant certaines limitations actuelles : le rendu de texte très petit peut manquer de netteté, les données factuelles dans les diagrammes méritent vérification, la traduction multilingue peut présenter des approximations grammaticales, et les éditions complexes peuvent parfois produire des artefacts visuels.
Combien coûte Nano Banana Pro ?
Nano Banana Pro se positionne clairement sur le segment premium. Le modèle est nettement plus coûteux que son prédécesseur, qui facturait déjà 0,039 $ par image en 1024px.
La tarification officielle de l'API s'établit comme suit :
- Images 1K/2K : environ 0,134 $ par image (certaines plateformes tierces arrondissent à 0,15 $)
- Images 4K : 0,24 $ par image
- Images en entrée (pour l'édition ou les références) : environ 0,0011 $ par image
Pour donner un ordre de grandeur concret : générer 1 000 images en 2K coûte environ 134 $, et le même volume en 4K monte à 240 $. Et Une utilisation intensive de toutes les fonctionnalités (14 images de référence pour créer une image 4K) peut faire grimper le coût d'un seul appel API à plus d'un dollar.
Les abonnements Gemini (Pro à ~19,99 $/mois, Ultra pour des fonctionnalités avancées) offrent des quotas inclus et permettent d'amortir les coûts pour un usage régulier.

Images générées avec Nano Banana Pro
Depuis son lancement, Nano Banana Pro a impressionné la communauté créative par la qualité et la diversité de ses productions. Les réseaux sociaux, notamment X, regorgent d'exemples allant des infographies médicales complexes aux recreations de scènes cultes de manga, en passant par des mockups de produits ultra-réalistes et des diagrammes techniques détaillés. Les publications officielles de Google mettent en avant sa capacité à créer des storyboards, des logos typographiques créatifs, et des visuels marketing localisés en plusieurs langues.
Nano Banana Pro en détails
Fonctionnalités et points forts
Génération et édition d'images
Nano Banana Pro couvre l'ensemble du spectre créatif, de la génération pure à l'édition fine. Le modèle génère des images à partir de prompts textuels, mais accepte également des images existantes comme point de départ pour des modifications ciblées. L'édition conversationnelle permet d'itérer sur une création à travers plusieurs échanges, le modèle conservant le contexte de ce qu'il vient de produire pour appliquer des ajustements cohérents.

Rendu textuel
C'est l’une des avancées les plus significativse. Nano Banana Pro génère du texte lisible, correctement orthographié, dans une variété de polices, textures et styles. Le modèle gère le texte multilingue et peut traduire le texte présent dans une image tout en préservant la mise en page et le style graphique. Cette capacité transforme les cas d'usage : création de posters, mockups d'interfaces, menus de restaurant, packaging produit avec texte localisé.

Connaissances du monde
Etant basé sur Gemini Pro 3, Nano Banana Pro bénéficie des connaissances du modèle et peut donc non seulement comprendre les prompts (texte et images) mais également utilisé ce qu’il connait du monde pour créer ses images.

De plus, grâce au "grounding" avec Google Search, Nano Banana Pro peut accéder à des informations actualisées pour créer des visuels factuellement ancrés. On peut lui demander de créer une infographie sur la météo du jour, un diagramme basé sur des données sportives récentes, ou une visualisation intégrant des statistiques à jour.
Contrôles créatifs avancés
Le modèle offre un niveau de contrôle digne d'un logiciel professionnel : ajustement de l'angle de caméra, de la profondeur de champ, de la mise au point, de l'éclairage (passage du jour à la nuit, effets de bokeh), et du color grading. L'édition locale permet de modifier des zones spécifiques sans affecter le reste de l'image.

Composition multi-images
Nano Banana Pro accepte jusqu'à 14 images de référence pour guider la génération. Cette fonctionnalité permet de charger un guide de style complet (logos, palettes de couleurs, références de personnages) pour garantir une cohérence de marque. Le modèle maintient la ressemblance et l'identité de jusqu'à 5 personnes différentes au sein d'une même composition ou à travers plusieurs générations.

Flexibilité des formats
Le modèle supporte plusieurs ratios d'aspect (1:1, 4:3, 16:9, formats cinématiques) et peut convertir entre ces formats tout en préservant les éléments principaux de la composition. Les résolutions s'échelonnent de 1K à 4K selon les besoins.

Architecture et détails techniques
Fondation Gemini 3 Pro
Nano Banana Pro repose sur l'architecture Gemini 3 Pro, un modèle de type transformeur à mélange d'experts clairsemé (sparse Mixture-of-Experts). Cette conception active uniquement un sous-ensemble des paramètres du modèle pour chaque token en entrée, permettant de gérer une capacité totale importante tout en maîtrisant le coût computationnel de chaque génération.
Approche multimodale
Contrairement aux générateurs d'images traditionnels qui traitent les prompts comme des collections de tokens pondérés, Nano Banana Pro traite texte et images de manière unifiée au sein de la même architecture. Le modèle peut traiter des entrées texte et image dans une fenêtre de contexte allant jusqu'à un million de tokens et produire une image avec une sortie de 64K tokens.
Processus de "réflexion" (Thinking)
Une caractéristique distinctive est le mode "thinking" du modèle. Avant de produire l'image finale, Nano Banana Pro génère des "images de pensée" intermédiaires en arrière-plan pour affiner la composition et raisonner sur les prompts complexes. Ces images intermédiaires ne sont pas facturées et ne sont pas visibles de l'utilisateur, mais contribuent à la cohérence et à la qualité du résultat final.
En s'appuyant sur Gemini 3 Pro, le modèle peut consommer du texte, du contenu structuré et des références, puis planifier l'image comme une explication de ce contenu. Cette approche de "génération par raisonnement" diffère fondamentalement des modèles de diffusion traditionnels qui "hallucinent" des motifs à partir de bruit aléatoire sans véritable compréhension sémantique.
Architecture de diffusion multimodale (MMDiT)
Le cœur de génération d'images utilise une architecture de Transformeur de Diffusion Multimodale (Multimodal Diffusion Transformer) qui emploie des ensembles de poids séparés pour les représentations d'image et de langage. Cette séparation améliore significativement la compréhension du texte et les capacités d'orthographe par rapport aux modèles de diffusion précédents.
Traçabilité SynthID
Toutes les images générées ou éditées par Nano Banana Pro intègrent un filigrane numérique invisible via la technologie SynthID de Google. Ce watermark imperceptible survit au recadrage, à la compression et aux captures d'écran, permettant de vérifier l'origine IA d'une image. Les métadonnées C2PA complètent ce dispositif pour une traçabilité renforcée. Les utilisateurs gratuits et Pro voient également un watermark visible (le "sparkle" Gemini), retiré pour les abonnés Ultra et les utilisateurs API.
Performances
Benchmarks et classements
Sur le classement LMArena, la plateforme d'évaluation participative de modèles d'IA, Nano Banana Pro a atteint la première position dans les catégories "Text-to-Image" et "Image Editing", établissant un nouveau state-of-the-art. Le modèle a enregistré un bond de près de 200 points ELO par rapport au précédent leader (Flux One Context Max), représentant la plus grande progression d'un modèle unique dans l'histoire de la plateforme.


Précision du rendu de texte
En benchmarks internes, Nano Banana Pro affiche un taux de rendu correct des caractères d'environ 94%, contre environ 82% pour les dernières versions de Stable Diffusion et 70-80% pour de nombreux concurrents. Cette amélioration drastique réduit considérablement le besoin de corrections manuelles pour les visuels contenant du texte.
Qualité d'image (FID)
Sur le score FID (Fréchet Inception Distance), métrique standard de qualité et réalisme des images générées, Nano Banana Pro obtient un score de 12,4 (plus bas = meilleur), surpassant DALL·E 3 (18,7), Midjourney v7 (15,3) et Stable Diffusion 3 (16,9).
Temps de génération
Les temps de génération varient selon la résolution et la complexité. Les tests rapportent généralement moins de 2 secondes pour une génération simple, et jusqu'à 60 secondes ou plus pour des images 4K complexes avec le mode thinking activé. Pour une image 4K standard, comptez environ 10 à 15 secondes. À titre de comparaison, l'architecture optimisée permet de générer des images 1024x1024 en 2,3 secondes sur infrastructure cloud standard, contre 4,1 secondes pour DALL·E 3.
Résolutions de sortie
Les fichiers de sortie en 4K peuvent atteindre des dimensions de 5632 × 3072 pixels et des tailles de fichier de plus de 24 Mo en PNG, attestant du niveau de détail généré nativement.
Adoption et impact
Selon Google, la première version de Nano Banana a attiré plus de 10 millions de nouveaux utilisateurs vers l'application Gemini et a permis plus de 200 millions d'éditions d'images dans les semaines suivant son lancement. Au total, plus de 5 milliards de créations ont été réalisées depuis août 2025.

























