Z-Image
Tout ce qu'il faut savoir pour comprendre et utiliser Z-Image AI
Created Time
modele IMG
modele IMG
Z-Image est une famille de modèles de génération d'images développée par Alibaba, conçue pour allier efficacité technique et qualité photoréaliste. Avec seulement 6 milliards de paramètres, elle rivalise avec des modèles bien plus volumineux (jusqu'à 80 milliards de paramètres) tout en restant accessible sur du matériel grand public.

Z-Image
Qu'est-ce que Z-Image ?Qui est derrière Z-Image ?Comment utiliser Z-Image ?Accès en ligneInstallation en localeConsomation d’APILes différentes versions de Z-ImageZ-Image-TurboZ-Image-BaseZ-Image-EditZ-Image-OmniImages générées avec Z-ImageZ-Image en détailsPoints forts et fonctionnalités clefsArchitecture et détails techniquesCaractéristiques architecturalesLa Turbo DistillationPerformances computationnellesEntraînement et donnéesInfrastructure de donnéesEntraînement progressifCoût et ressourcesPerformances et benchmarksL’avis de la communautéAccessibilité, licences et prixOptions de déploiementConfiguration matérielle recommandée :Écosystème et supportArticles et Tutoriels Z-Image
L’Actualités de Z-Image

Z-Image sur ComfyUI
27/01/25 - Comfy-UI supporte et intégre le nouveau Z-Image Base.
→ En savoir plus

Tongyi Lab partage Z-Image Base
27/01/25 - La version base du modèle, non-distillée est désormais disponible sous licence Open-Source.
→ En savoir plus

Z-Image, le nouveau modèle d’Alibaba
26/11/25 - Z-Image-Turbo se positionne comme l’alternative Open-source pour la génération photoréaliste et rapide.
→ En savoir plus
Qu'est-ce que Z-Image ?
Z-Image (造相 en chinois, littéralement "créer des images") représente l'approche d'Alibaba pour démocratiser la génération d'images par IA. Contrairement à la course aux paramètres qui caractérise bon nombre de modèles concurrents, Z-Image mise sur l'efficacité : faire mieux avec moins. Cette philosophie se traduit par des performances remarquables qui remettent en question le paradigme du "toujours plus gros".
Là où des concurrents comme Flux.2 dev embarquent 32 milliards de paramètres, ou Hunyuan-Image-3.0 en compte 80 milliards, Z-Image atteint des performances comparables avec ses 6 milliards de paramètres. Cette approche ouvre la porte à une utilisation locale sans nécessiter une station de travail hors de prix : une RTX 3060 avec 12 Go de VRAM suffit pour faire tourner le modèle, et sur une RTX 4090, la génération en 1024×1024 pixels ne prend que 2,3 secondes.
Le lancement de Z-Image s'inscrit dans une démarche open-source assumée. Le modèle est publié sous licence Apache 2.0, ce qui autorise son utilisation commerciale sans restriction majeure. Cette ouverture contraste avec les modèles propriétaires de type Midjourney ou Nano Banana et renforce la position d'Alibaba comme acteur majeur de l'IA open-source, aux côtés de Meta avec Llama ou de Stability AI avec Stable Diffusion.
L'entraînement complet du modèle n'a nécessité que 314 000 heures de calcul sur GPU H800, soit environ 630 000 dollars. Ce coût relativement modéré pour un modèle de cette qualité démontre qu'il est possible d'atteindre l'excellence sans nécessiter les budgets astronomiques généralement associés aux modèles de génération d'images de pointe.
Qui est derrière Z-Image ?
Z-Image émane de Tongyi-MAI, la division de recherche en intelligence artificielle d'Alibaba dédiée aux technologies d'apprentissage automatique. Cette équipe fait partie de l'écosystème Alibaba Cloud et s'inscrit dans la continuité de la famille Tongyi Qianwen (aussi connue sous le nom Qwen), qui regroupe l'ensemble des modèles d'IA développés par le géant chinois.
Tongyi-MAI ne se concentre pas uniquement sur la génération d'images. L'équipe travaille sur diverses technologies multimodales, de la compréhension de texte à la génération vidéo. Leur stratégie consiste à développer des modèles spécialisés qui excellent dans leur domaine plutôt que de créer un outil généraliste moyennement performant partout. Cette approche modulaire permet à Alibaba de proposer une palette d'outils adaptés aux besoins spécifiques des développeurs et créateurs.
L'équipe a publié un rapport technique détaillé sur arXiv fin novembre 2025, présentant l'architecture S3-DiT (Scalable Single-Stream Diffusion Transformer) et les innovations méthodologiques qui ont permis à Z-Image d'atteindre ses performances tout en restant relativement compact.
Comment utiliser Z-Image ?
L'accès et l’utilisation de Z-Image peut se faire fait selon trois grandes modalités :
Accès en ligne
La démo en ligne constitue le point d'entrée le plus simple. Les modèles sont disponibles sur ModelScope et HuggingFace avec une interface de démonstration publique, permettant de tester le modèle sans installation ni configuration.
Pour Z-Image-Turbo, il suffit d'entrer un prompt (en anglais ou en chinois), d'ajuster quelques paramètres basiques comme le nombre d'étapes d'inférence (8 à 9 recommandées) et le CFG scale (entre 0 et 2, sachant que Turbo fonctionne mieux sans guidance), puis de lancer la génération.
Pour Z-Image base, les paramètres recommandés sont différents : 28 à 50 étapes d'inférence et un CFG scale entre 3.0 et 5.0 pour une meilleure adhésion aux instructions.

De nombreuses plateforme en ligne on aussi adopté et intégré Z-Image (en version base ou Turbo) et permettent de l’utiliser facilement.
Installation en locale
L'installation locale avec une interface comme ComfyUI s'adresse aux utilisateurs qui souhaitent intégrer Z-Image dans leur workflow de création.
Une fois ComfyUI installé, il suffit de télécharger les poids du modèle depuis Hugging Face.
La configuration matérielle requise reste raisonnable : 16 Go de VRAM suffisent, ce qui correspond à des cartes graphiques grand public comme une RTX 4060 Ti ou une RTX 3090. Sur ce type de matériel, une image en 1080p est générée en environ 36 secondes avec la version base, contre 8-9 secondes avec Turbo.
ComfyUI propose également des workflows pré-configurés pour Z-Image, incluant le support de ControlNet pour un contrôle précis de la composition.
Consomation d’API
Les API cloud représentent la solution la plus scalable pour les développeurs intégrant la génération d'images dans des applications. Le modèle est accessible via fal.ai, avec une tarification au mégapixel facilitant la gestion des coûts (0,005 dollar par mégapixel). D'autres plateformes comme Replicate ou WaveSpeedAI proposent également l'accès au modèle. Cette approche libère des contraintes matérielles et permet de scaler facilement en fonction du volume de requêtes.
Les différentes versions de Z-Image
La famille Z-Image se structure autour de quatre modèles complémentaires, chacun optimisé pour des cas d'usage spécifiques.
Z-Image-Turbo

C'est la version qui a fait tourner les têtes lors de sa sortie en novembre 2025.
Cette variante distillée atteint une inférence en moins d'une seconde sur des GPU H800 professionnels, et maintient des temps de génération très compétitifs sur du matériel grand public. La distillation a permis de compresser les capacités du modèle de base en seulement 8 étapes d'inférence (techniquement 8 NFEs - Number of Function Evaluations), contre plusieurs dizaines pour des modèles traditionnels.
Cette efficacité se traduit par une vitesse de génération impressionnante : Z-Image-Turbo rend son verdict en quelques secondes sur une RTX 4090. Pour les créateurs qui itèrent rapidement sur des concepts ou les développeurs qui intègrent la génération dans des applications interactives, cette rapidité change la donne.
Z-Image-Base

Sortie le 27 janvier 2026, Z-Image base représente le modèle de fondation complet, non distillé.
C'est le checkpoint qui préserve l'intégralité du signal d'entraînement et qui servira de base pour le développement communautaire. Contrairement à Turbo, ce modèle supporte pleinement le Classifier-Free Guidance (CFG entre 3.0 et 5.0), offrant la précision nécessaire pour l'ingénierie de prompts complexe et les workflows professionnels.
Z-Image Base vs Turbo
Si Z-Image-Turbo brille par sa rapidité, la version de base a quand même quelques avantages non-négligeables :
- Diversité supérieure : Z-Image base génère une variabilité significativement plus élevée dans les compositions, les identités faciales et l'éclairage entre différentes seeds. Pour les scènes multi-personnages, cette diversité garantit que chaque visage reste distinct et dynamique, évitant l'effet de "clones" parfois observé avec les modèles distillés.
- Fine-tuning et personnalisation : La nature non distillée du modèle en fait une base idéale pour l'entraînement de LoRA, l'application de ControlNet pour le contrôle structurel, et toute forme de conditionnement sémantique. Les premiers retours de la communauté soulignent que les LoRA s'entraînent rapidement et efficacement sur ce modèle.
- Contrôle négatif robuste : Le negative prompting fonctionne avec une haute fidélité, permettant de supprimer de manière fiable les artefacts et d'ajuster les compositions. Cette fonctionnalité est absente de Turbo en raison de sa distillation.
- Versatilité stylistique : Z-Image base maîtrise un vaste spectre de langages visuels, de la photographie hyper-réaliste et de l'art numérique cinématographique aux illustrations stylisées et à l'anime détaillé. C'est le moteur idéal pour les scénarios nécessitant une expression riche et multi-dimensionnelle.
Z-Image-Edit

Z-Image-Edit est une variante fine-tunée de Z-Image spécifiquement pour les tâches d'édition d'images.
Elle supporte la génération créative image-to-image avec des capacités impressionnantes de suivi d'instructions, permettant des modifications précises basées sur des prompts en langage naturel.
Le modèle démontre une compréhension solide des instructions d'édition, permettant des transformations imaginatives et flexibles. Il peut exécuter avec précision des instructions complexes, comme modifier simultanément l'expression et la pose d'un personnage tout en ajoutant du texte spécifié. Même lors de transformations significatives, il maintient une forte cohérence, démontrant un contrôle fin sur chaque élément de l'image.
Z-Image-Omni

Annoncée mais pas encore, Z-Image-Omni-Base sera le modèle de fondation polyvalent capable à la fois de génération et d'édition d'images.
Cette version combinera les capacités de génération text-to-image avec les fonctionnalités d'image-to-image et d'édition dans un seul modèle unifié. L'architecture omni-pre-training utilisée durant l'entraînement permet cette polyvalence sans sacrifier les performances dans aucun des domaines.
Avec ce checkpoint, Tongyi Lab vise à débloquer le plein potentiel du fine-tuning communautaire et du développement personnalisé, fournissant le point de départ le plus "brut" et diversifié pour la communauté open-source.
Images générées avec Z-Image
Dès sa sortie, Z-Image a suscité beaucoup d’interêt et de nombreux utilisateurs ont partagés avec enthousiasmes les résultats de leurs générations. Petites sélections de ces premières images…
Z-Image en détails
Points forts et fonctionnalités clefs
Z-Image Turbo brille par plusieurs aspects qui le distinguent dans un paysage déjà saturé de modèles de génération d'images.
La qualité photoréaliste constitue sans doute l'atout majeur du modèle. Z-Image excelle dans la production d'images au réalisme photographique, avec un contrôle fin des détails, de l'éclairage et des textures (y compris la version Turbo). Les textures de peau apparaissent naturelles, l'éclairage respecte les lois physiques, et les compositions générales dégagent une cohérence esthétique. Cette qualité ne se limite pas aux portraits : paysages, objets, scènes d'intérieur, tous bénéficient de ce niveau de finition. Les utilisateurs soulignent régulièrement cette capacité à produire des images crédibles du premier coup, sans nécessiter de retouches importantes.

Le rendu de texte représente une autre qualité notable. Le modèle rend avec précision les textes en anglais et en chinois, y compris dans des contextes complexes comme les posters ou les designs graphiques. Cette capacité bilingue est exceptionnelle dans le paysage actuel : là où la plupart des modèles peinent avec les caractères chinois complexes ou le texte anglais aligné sur les bords, Z-Image maintient une qualité typographique correcte même avec des caractères de petite taille. Dans ce domaine, il fait nettement mieux que les autres modèles de taille comparable et rivalise avec des modèles fermés beaucoup plus volumineux.

L'amélioration de prompts intégrée constitue une fonctionnalité moins visible mais tout aussi importante. Le modèle embarque un système de raisonnement appelé Prompt Enhancer qui enrichit les prompts simples en descriptions plus détaillées. Cette intelligence permet au modèle de transcender les descriptions superficielles et de puiser dans les connaissances du monde sous-jacentes, produisant de meilleurs résultats même avec des instructions basiques. Le Prompt Enhancer aide à combler le fossé entre ce que l'utilisateur imagine et ce que le modèle comprend, réduisant le nombre d'itérations nécessaires pour obtenir le résultat souhaité.
L'adhésion aux prompts se révèle particulièrement fiable. Les utilisateurs rapportent que Z-Image suit avec précision les prompts, même complexes, et gère correctement les différents styles artistiques demandés. Cette fidélité aux instructions réduit la frustration liée aux générations qui s'éloignent de l'intention initiale, un problème courant avec certains modèles concurrents. Le modèle possède une vaste compréhension des connaissances du monde et des concepts culturels divers, lui permettant de générer avec précision une large gamme de sujets, incluant des monuments célèbres, des personnages connus et des objets du monde réel spécifiques.

La versatilité stylistique de la version de Base mérite également d'être soulignée. Contrairement à certains modèles spécialisés dans le photoréalisme mais faibles sur d'autres styles, Z-Image gère efficacement une large palette d'esthétiques. Des tests communautaires montrent qu'il produit de meilleurs résultats dans des styles comme "à la manière de Van Gogh" que des concurrents pourtant réputés comme Flux, qui tend à produire des images trop réalistes même quand un style pictural est demandé.

Enfin, l'absence de censure excessive mérite d'être mentionnée. Contrairement à certains modèles très restreints, Z-Image permet la génération de personnalités publiques reconnaissables et n'impose pas de filtres trop stricts sur le contenu. Cette flexibilité, bien que potentiellement controversée, répond à un besoin réel pour certains usages créatifs légitimes.
Alliée à sa petite taille et donc à sa capacité de générer rapidement (et à petit prix), ces qualités permettent à Z-Image de se tailler une place unique dans le paysage actuel, celle d'un petit modèle open-source capable de tenir tête aux géants du secteur.
Architecture et détails techniques
L'architecture de Z-Image repose sur des choix techniques qui expliquent ses performances remarquables.
Le modèle adopte une architecture S3-DiT (Scalable Single-Stream Diffusion Transformer), où les tokens de texte, les tokens sémantiques visuels et les tokens VAE d'image sont concaténés au niveau séquentiel pour former un flux d'entrée unifié. Cette approche contraste avec les architectures dual-stream (comme celle de Flux.1) qui traitent séparément texte et image avant de les combiner, et permet une meilleure efficacité paramétrique.

Caractéristiques architecturales
- Paramètres : 6,15 milliards de paramètres
- Profondeur : 30 couches de transformer
- Dimension cachée : 3840
- Têtes d'attention : 32
- Encodeur de texte : Qwen3-4B (modèle de langage multilingue performant)
- VAE : Flux VAE pour l'encodage/décodage d'images
- Tokens sémantiques : SigLIP-2 pour le conditionnement d'édition
L'architecture intègre plusieurs innovations techniques :
RoPE 3D unifié : L'utilisation de Rotary Position Embeddings en 3D permet au modèle de mieux comprendre les relations spatiales et temporelles dans les données.
QK-Norm et Sandwich-Norm : Ces techniques de normalisation améliorent la stabilité de l'entraînement et permettent au modèle de converger plus efficacement.
Flux unique : Contrairement aux architectures à double flux qui traitent texte et image séparément avant de les fusionner, Z-Image traite tous les tokens dans un seul flux dès le départ. Cette simplification améliore l'efficacité paramétrique sans sacrifier la qualité.
La Turbo Distillation
La distillation constitue le cœur de l'innovation technique pour la version Turbo. Le modèle utilise Decoupled-DMD (Distribution Matching Distillation découplée), qui combine deux mécanismes collaboratifs : l'augmentation CFG (Classifier-Free Guidance) et la rectification DMDR. Cette approche permet de compresser un modèle plus large en une version légère et rapide, tout en conservant l'essentiel des capacités. Le résultat ? Seulement 8 étapes d'inférence nécessaires pour produire une image de qualité, contre 28 à 50 pour la version base non distillée.
L'innovation DMDR (Distribution Matching Distillation with Reinforcement learning) va plus loin en intégrant l'apprentissage par renforcement dans le processus de distillation. Cette approche synergique améliore l'alignement sémantique, la qualité esthétique et la cohérence structurelle, tout en produisant des images avec des détails haute fréquence plus riches.
Performances computationnelles
Le modèle génère des images 1024×1024 en 2,3 secondes sur une RTX 4090, avec une consommation de VRAM maîtrisée à 13 Go pour Turbo et environ 16 Go pour la version base. Cette efficacité rend le modèle accessible sur des configurations grand public : une RTX 3060 avec 12 Go de VRAM suffit pour faire tourner le modèle, même si les temps de génération seront plus longs (environ 36 secondes pour une image 1080p avec la version base).
Les résolutions supportées restent flexibles, avec des exemples allant de 512×512 jusqu'à 2048×2048 pixels natifs, et même la 4K avec upscaling. Le modèle gère nativement les formats haute résolution sans surcoût computationnel excessif, ce qui facilite la création de contenus destinés à l'impression ou à l'affichage grand format. Le système supporte également différents ratios d'aspect, permettant de générer des images verticales, horizontales ou carrées selon les besoins.
Entraînement et données
Le processus d'entraînement de Z-Image reflète une approche systématique de l'optimisation, démontrant qu'il est possible d'atteindre l'excellence sans les budgets astronomiques habituels.
Infrastructure de données
La curation des données constitue un pilier fondamental de la performance du modèle. L'équipe a développé un système sophistiqué incluant :
- Profiling et déduplication : Analyse détaillée des données pour éliminer les redondances
- Graphe topologique : Organisation des données selon leurs relations et caractéristiques
- Active curation : Sélection continue et raffinement des données d'entraînement
- Captions multi-niveaux bilingues : Utilisation du système Z-Captioner pour générer des descriptions en anglais et chinois à différents niveaux de détail
Entraînement progressif
L'entraînement suit un curriculum structuré en plusieurs phases :
- Low-resolution pre-training : Entraînement initial sur des images basse résolution pour apprendre les concepts de base
- Omni-pre-training : Phase d'entraînement multimodale unifiant génération text-to-image et image-to-image
- Supervised Fine-Tuning (SFT) : Affinage supervisé pour améliorer l'adhésion aux instructions
- Distillation : Compression du modèle en version Turbo (pour cette variante uniquement)
- RLHF (Reinforcement Learning from Human Feedback) : Apprentissage par renforcement basé sur les préférences humaines
Coût et ressources
L'entraînement complet a nécessité 314 000 heures de calcul sur GPU H800, soit un coût estimé à environ 630 000 dollars. Ce chiffre, bien que conséquent, reste remarquablement bas comparé aux budgets de plusieurs millions de dollars généralement associés aux modèles de pointe. Cette efficacité a été rendue possible par plusieurs optimisations :
- Hybrid parallelism : Combinaison de parallélisme de données, de modèle et de pipeline
- Gradient checkpointing : Réduction de la consommation mémoire pendant l'entraînement
- torch.compile : Optimisation du code PyTorch pour accélérer l'exécution
Performances et benchmarks
Les chiffres parlent d'eux-mêmes et positionnent Z-Image parmi les leaders du domaine.
Sur le Artificial Analysis, Z-Image-Turbo se classe #18 globalement et #5 parmi les modèles open-source. Cette performance est d'autant plus remarquable qu'elle place un modèle de 6 milliards de paramètres devant des mastodontes comme Qwen-Image 20B, Hunyuan-Image-3.0.
Sur l'Alibaba AI Arena, le modèle obtient un score Elo de 1026 avec un taux de victoire de 45% dans les évaluations basées sur les préférences humaines. Il s'agit là aussi du modèle open-source le mieux classé sur l'ensemble du benchmark.

Cette performance se vérifie sur des benchmarks plus spécifiques. Dans les tests de réalisme, Z-Image Turbo surpasserait Seedream 3.0 et GPT Image 1, tout en restant compétitif face à des modèles fermés bien plus volumineux. La qualité photoréaliste n'est pas son seul atout : l'adhésion aux prompts et la capacité à gérer différents styles artistiques lui valent également de bons scores dans les évaluations communautaires.
Sur le terrain de la vitesse, peu de concurrents peuvent rivaliser. Les 2,4 itérations par seconde sur des setups standards le placent dans le haut du panier des modèles rapides, aux côtés de SDXL Turbo ou Flux [schnell]. Cette rapidité ne se fait pas au détriment de la qualité : là où certains modèles turbo sacrifient les détails pour gagner en vitesse, Z-Image maintient un niveau de finition élevé.
L’avis de la communauté
Les retours utilisateurs confirment ces données quantitatives. Sur Reddit et dans les discussions techniques, les premiers testeurs soulignent :
- L'équilibre remarquable entre vitesse et qualité
- Le photoréalisme et la gestion des détails
- La capacité à générer des styles variés (pas uniquement du photoréalisme)
- L'efficacité du fine-tuning et de l'entraînement de LoRA sur la version base
- La diversité accrue des générations avec Z-Image base comparé à Turbo
Certaines limites sont également pointées :
- Pour Turbo : variation entre seeds faible en raison de la distillation, nécessitant des prompts détaillés pour obtenir des résultats vraiment distincts
- Pour la version base : génération plus lente (mais c'est le compromis attendu pour plus de contrôle)
- Quelques cas occasionnels d'anatomie imparfaite (environ 1 génération sur 30 selon les retours initiaux)
- Pour des styles très spécifiques, l'écosystème de LoRA n'est pas encore aussi mature que ceux de Flux ou de stable Diffusion.
Accessibilité, licences et prix
L'accessibilité constitue un pilier de la stratégie Z-Image. La licence Apache 2.0 autorise explicitement l'usage commercial sans restrictions majeures, ce qui facilite l'adoption par les entreprises et les créateurs professionnels. Cette ouverture contraste avec certains modèles concurrents qui imposent des limitations d'usage ou des frais de licence pour les applications commerciales.
Options de déploiement
La disponibilité sur plusieurs plateformes élargit encore l'accessibilité :
- Hugging Face : Téléchargement gratuit des poids pour utilisation locale
- ModelScope : Alternative pour les utilisateurs en Chine
- GitHub : Code source, documentation et exemples
- API cloud : fal.ai (0,005 $/mégapixel), Replicate, WaveSpeedAI
Pour ceux qui préfèrent externaliser l'infrastructure, les API proposent une tarification à l'usage qui se traduit par quelques centièmes de dollar par image selon la résolution. Cette approche flexible permet aux petits projets de démarrer sans investissement initial, tout en offrant aux applications à fort volume une solution scalable.
Configuration matérielle recommandée :
- Minimum : 12 Go de VRAM (RTX 3060, RTX 4060)
- Recommandé : 16 Go de VRAM (RTX 4060 Ti 16Go, RTX 3090)
- Optimal : 24 Go+ de VRAM (RTX 4090, A100)
Les exigences matérielles restent raisonnables pour un modèle de cette qualité. Même avec 12 Go de VRAM, une génération reste possible moyennant des ajustements de configuration (réduction de la résolution, utilisation de CPU offloading). Cette compatibilité matérielle ouvre la porte à une utilisation locale sans nécessiter une station de travail professionnelle coûteuse.
Écosystème et support
L'écosystème se développe rapidement depuis la sortie :
- ComfyUI : Support day-one avec workflows pré-configurés
- DiffSynth-Studio : Intégration annoncée pour des pipelines sophistiqués
- Cache-DiT : Accélération de l'inférence avec DBCache, Context Parallelism et Tensor Parallelism (jusqu'à 4x plus rapide sur 4 GPUs)
- stable-diffusion.cpp : Moteur d'inférence en C++ pur pour déploiement multi-plateforme (CUDA, Vulkan, etc.)
La communauté commence à partager des workflows optimisés, des configurations adaptées à différents cas d'usage, et on peut s'attendre à voir émerger des LoRAs, des ControlNets et d'autres extensions qui étendront les capacités du modèle dans les mois à venir, suivant la trajectoire habituelle des modèles open-source populaires.



























