
Dernière mise à jour : 26/11/2025
Z-image d'Alibaba est un modèle innovant compact de 6 milliards de paramètres qui rivalise avec des modèles commerciaux trois fois plus volumineux. Avec seulement 8 étapes de génération nécessaires, Z-image produit des images au réalisme photographique en moins d'une seconde, tout en fonctionnant parfaitement sur des cartes graphiques grand public avec moins de 16 Go de VRAM. Disponible en open source sous licence Apache 2.0, Z-image est accessible via API par Alibaba et ses partenaires, mais également en téléchargement gratuit pour une utilisation locale sur vos machines personnelles.
🔗 Vous trouverez ci-dessous les liens et informations détaillées pour télécharger Z-image dans ses différentes versions.
Z-Image AI Download
Z-Image-Turbo

Prix :
Gratuit
Editeur :
Tongyi-MAI
Date :
25/11/2025
Une version distillée de Z-Image qui égale ou surpasse ses principaux concurrents. Elle offre une latence d'inférence inférieure à la seconde sur les GPU H800 de niveau entreprise et s'intègre facilement dans les appareils grand public dotés d'une mémoire VRAM de 16 Go.
Z-Image-Base

Prix :
Gratuit
Editeur :
Tongyi-MAI
Date :
Bientôt
Version de base complète, plus générale et potentiellement plus puissante pour des tâches variée. Elle est avant tout destinée au fine-tuning par la communauté.
Z-Image-Edit

Prix :
Gratuit
Editeur :
Tongyi-MAI
Date :
Bientôt
Version spécialisée pour l'édition d'images (in-painting, out-painting, etc.), avec des capacités créatives avancées.
Les différentes versions de Z-Image
Z-Image se décline en plusieurs modèles d'IA distincts, chacun étant optimisé pour des usages spécifiques de génération d'images. Bien qu'ils partagent la même architecture Single-Stream Diffusion Transformer à 6 milliards de paramètres, ils produisent des résultats adaptés à différents besoins créatifs.
Les versions officielles
Tongyi-MAI, l'équipe d'Alibaba créatrice de Z-Image propose trois variantes principales : -Turbo, -Base et -Edit.
Z-Image-Turbo est la version distillée optimisée pour la vitesse extrême. Avec seulement 8 étapes de génération, elle produit des images photoréalistes en moins d'une seconde sur GPU adaptés.
Z-Image-Base est la version complète non distillée, plus générale et potentiellement plus puissante pour des tâches variées. Sans optimisation spécifique pour la vitesse, elle offre une flexibilité maximale pour le fine-tuning et l'adaptation à des cas d'usage spécifiques. Cette version est annoncée mais sa sortie complète est imminente (suivre les mises à jour sur le dépôt GitHub officiel).
Z-Image-Edit est la variante spécialisée pour l'édition d'images avancée. Elle intègre des capacités d'inpainting, d'outpainting et de manipulation créative avec une compréhension fine des instructions d'édition. Cette version est également annoncée pour une sortie prochaine.
Toutes les versions officielles sont distribuées sous licence Apache 2.0, garantissant une utilisation libre y compris pour un usage commercial.
Les versions communautaire
Le modèle de base partagé par Tongyi-MAI nécessite environ 12 Go d'espace disque et doit être accompagné des fichiers complémentaires appropriés (VAE ae.safetensors et Text Encoder qwen_3_4b.safetensors) disponible sur le repo officiel et à télécharger séparément.
Pour rendre Z-Image [Turbo] plus accessible aux utilisateurs disposant de GPU grand public, la communauté a rapidement développé plusieurs versions quantifiées qui réduisent encore les besoins en VRAM tout en préservant une qualité visuelle remarquable.
Les versions FP8 (floating-point 8-bit) réduisent la taille du modèle à environ 6-8 Go. La communauté propose deux variantes : E4M3FN privilégiant la qualité et E5M2 la vitesse.
Les versions GGUF offrent un large éventail de niveaux de quantification, du Q3 au Q8, permettant de choisir le meilleur équilibre entre taille et qualité selon votre matériel
Télécharger et Utiliser Z-Image
Télécharger un des modèles Z-Image ci-dessus permet de l'utiliser directement dans un programme ou script Python comme dans le code d'exemple partagé par Tongyi-MAI sur leur dépôt GitHub. L'installation nécessite diffusers installé depuis les sources pour bénéficier du support Z-Image intégré aux dernières versions.
Mais il est plus facile d'utiliser Z-Image via une interface complète qui évite d'avoir à écrire soi-même le code. Pour cela, nous recommandons ComfyUI qui est aujourd'hui la solution la plus complète et la plus populaire pour utiliser des modèles d'IA. L'intégration de Z-Image dans ComfyUI est simple :
- placez le modèle de diffusion dans ComfyUI/models/diffusion_models/,
- le text encoder dans ComfyUI/models/text_encoders/,
- et le VAE dans ComfyUI/models/vae/
- Des workflows prêts à l'emploi sont disponibles dans la bibliothèque ComfyUI

FAQ
Où puis-je télécharger Z-Image ?
Z-Image est disponible sur plusieurs plateformes officielles et communautaires :
Versions officielles :
- GitHub : https://github.com/Tongyi-MAI/Z-Image (code source et instructions)
- Hugging Face : https://huggingface.co/Tongyi-MAI/Z-Image-Turbo (modèle Turbo)
Versions communautaires quantifiées :
- Versions FP8 : https://huggingface.co/drbaph/Z-Image-Turbo-FP8 et https://huggingface.co/T5B/Z-Image-Turbo-FP8
- Versions GGUF : https://huggingface.co/jayn7/Z-Image-Turbo-GGUF
- Version 8-bit : https://huggingface.co/mzbac/Z-Image-Turbo-8bit
N'oubliez pas de télécharger également les fichiers complémentaires (VAE ae.safetensors et Text Encoder qwen_3_4b.safetensors) disponibles sur les mêmes dépôts.
Quelle version de Z-Image dois-je télécharger ?
Le choix dépend de votre matériel et de vos besoins :
Si vous avez un GPU puissant (24+ GB VRAM) :
- Z-Image-Turbo officiel (12 GB) ou BF16 pour la meilleure qualité
Si vous avez un GPU moyen (12-16 GB VRAM) :
- Version FP8 E4M3FN (~6-8 GB) pour un excellent équilibre qualité/performance
- Version GGUF Q6_K ou Q8_0 pour une qualité maximale quantifiée
Si vous avez un GPU limité (8-12 GB VRAM) :
- Versions GGUF Q4_K_M ou Q5_K_S pour un bon compromis
- Version FP8 E5M2 pour la vitesse maximale
Si vous avez un GPU très limité (<8 GB VRAM) :
- Versions GGUF Q3_K_M ou Q4_K_S
- Pensez aussi à télécharger une version quantifiée du Text Encoder
Pour le fine-tuning ou l'expérimentation :
- Z-Image-Base (à venir) sera le meilleur choix
Pour l'édition d'images :
- Z-Image-Edit (à venir) sera spécialement optimisé pour cet usage
Z-Image est-il vraiment open source ?
Oui, Z-Image est distribué sous licence Apache 2.0, ce qui en fait un véritable modèle open source. Cette licence vous permet de :
- Utiliser le modèle gratuitement pour un usage personnel ou commercial
- Modifier et adapter le modèle à vos besoins
- Redistribuer vos versions modifiées
- Intégrer Z-Image dans vos applications et produits commerciaux
Le code source, les poids du modèle et la documentation sont entièrement accessibles sur GitHub et Hugging Face. Contrairement à certains modèles qui imposent des restrictions d'usage commercial, Z-Image est véritablement libre d'utilisation.
Quelles sont les exigences système pour faire tourner Z-Image ?
Configuration minimale (versions quantifiées) :
- GPU : 8 GB VRAM (versions GGUF Q3/Q4)
- RAM : 16 GB
- Espace disque : 10-15 GB (modèle + fichiers complémentaires)
- Système : Windows 10 64-bit, Ubuntu 20.04+, ou macOS 10.15+
Configuration recommandée (version officielle Turbo) :
- GPU : 16 GB VRAM (RTX 4060 Ti, RTX 3090, ou équivalent)
- RAM : 32 GB
- Espace disque : 20-25 GB
- Système : Windows 11 ou Ubuntu 22.04+ avec GPU NVIDIA
Configuration optimale :
- GPU : 24 GB VRAM ou plus (RTX 4090, A5000, ou supérieur)
- RAM : 32 GB ou plus
- Espace disque : 30+ GB (pour plusieurs versions et workflows)
- Système : Linux avec CUDA 12+ pour les meilleures performances
Note importante : Z-Image a été conçu pour être efficace même sur du matériel grand public. Avec seulement 6 milliards de paramètres et 8 étapes de génération, il est nettement moins gourmand que d'autres modèles de génération d'images de qualité comparable.
Ecrit par




