Qwen-Image & ComfyUI : Le Guide Complet

Do not index

feather:link

Qwen-Image en bref

Avant de plonger dans la pratique, prenons quelques instants pour comprendre ce qui distingue Qwen-Image des autres modèles de génération d'images.

Développé par Alibaba Cloud et publié sous licence Apache 2.0, Qwen-Image repose sur une architecture MMDiT (Multimodal Diffusion Transformer) avec 20 milliards de paramètres. Cette architecture lui permet de traiter simultanément le texte et l'image de manière plus cohérente, ce qui se traduit par des résultats visuellement plus aboutis.

Forces et Faiblesses

La grande force de Qwen-Image, c'est sa polyvalence. Le modèle excelle dans le rendu de texte intégré aux images, ce qui en fait un outil de choix pour créer des miniatures, des affiches ou des interfaces. Mais il brille également dans la génération de styles variés, de la photographie réaliste aux illustrations artistiques, en passant par les rendus 3D. La fidélité aux prompts est remarquable : ce que vous demandez est généralement ce que vous obtenez, sans les surprises parfois frustrantes d'autres modèles.

Comme tout modèle, Qwen-Image a ses limites. La principale : sa taille. Avec environ 20 Go pour la version optimisée, il nécessite un GPU avec au minimum 12 Go de VRAM, idéalement 24 Go pour travailler confortablement. C'est plus exigeant que les modèles Stable Diffusion classiques.

L'écosystème est également encore jeune : moins de LoRAs disponibles, une communauté en construction, et quelques outils tiers qui ne sont pas encore totalement compatibles.

Si vous souhaitez approfondir les aspects techniques et comprendre en détail comment fonctionne Qwen-Image, vous pouvez consulter la fiche détaillée du modèle qui couvre l'architecture, les benchmarks et les comparaisons avec d'autres solutions.

Ce dont vous avez besoin

Avant de vous lancer, assurons-nous que votre configuration est prête pour accueillir Qwen-Image. Pas de panique si vous n'avez pas le dernier GPU du marché : plusieurs options existent selon votre matériel.

Configuration matérielle

La question de la VRAM est centrale avec Qwen-Image. Contrairement aux modèles Stable Diffusion classiques qui tournent confortablement avec 8 Go, ce modèle demande davantage de ressources. Voici comment vous situer :

Si vous disposez d'un GPU avec 24 Go de VRAM ou plus (RTX 4090, RTX 6000 Ada, A5000), vous êtes dans la zone de confort. Vous pourrez utiliser la version complète BF16 sans compromis, avec des temps de génération optimaux et la qualité maximale. C'est la configuration idéale pour un usage intensif.

Avec 12 à 16 Go de VRAM (RTX 4070 Ti, RTX 3090, RTX 4060 Ti 16GB), vous êtes dans la zone recommandée. La version FP8 optimisée tournera parfaitement sur votre machine. C'est le compromis idéal entre qualité, performance et prix : vous perdez une fraction de détails imperceptible à l'œil nu, tout en divisant par deux l'espace disque et la VRAM nécessaire. C'est la version que nous utiliserons principalement dans ce guide.

Mais rassurez-vous, si vous avez 8 à 10 Go de VRAM (RTX 3060, RTX 4060), ne passez pas votre chemin. Les versions GGUF quantifiées et Nunchaku permettent de faire tourner Qwen-Image sur votre configuration, avec une qualité préservée de plus de 95%. La génération sera un peu plus lente, mais tout à fait utilisable.

En dessous de 8 Go, les choses deviennent compliquées pour un usage local. Nous reccomandons plutôt de vous tourner vers des solutions cloud comme Comfy Cloud pour tester le modèle avant d'envisager une mise à niveau matérielle.

📌

Quelle version pour quel matériel ?

Pour vous aider à choisir la configuration la plus adaptée à votre matériel, voici un tableau récapitulatif qui met en perspective les différentes versions :

Configuration	VRAM	Taille disque	Qualité	GPU exemples
BF16 Standard	24 Go+	~41 Go	100%	RTX 4090, RTX 6000 Ada
FP8 Standard	12-16 Go	~20 Go	99%+	RTX 3090, RTX 4070 Ti
FP8 + Lightning	12-16 Go	~20 Go	99%	RTX 3090, RTX 4070 Ti
Nunchaku Q4_0	6-8 Go	~15 Go	~98%	RTX 3060, RTX 4060
Nunchaku + Lightning	6-8 Go	~15 Go	~97%	RTX 3060, RTX 4060

Ce tableau vous donne une vision claire des compromis à faire selon votre matériel. Si vous avez le GPU pour faire tourner la version FP8 standard, c'est le meilleur choix pour un usage quotidien. Si votre VRAM est limitée, Nunchaku + Lightning offre un excellent équilibre pour un usage régulier sans frustration.

L'essentiel est de comprendre que toutes ces versions produisent des résultats de qualité professionnelle. Vous ne faites pas un choix entre "ça marche" et "ça ne marche pas", mais entre différents niveaux d'optimisation selon vos ressources. Avec Nunchaku, même un GPU modeste peut générer des images qui rivalisent avec ce que produisent les services cloud payants.

Au-delà de la VRAM, prévoyez également de l'espace disque : entre 20 et 40 Go selon la version que vous choisirez. Le modèle complet pèse lourd, mais c'est le prix à payer pour cette qualité de génération.

Un SSD est recommandé pour accélérer le chargement des fichiers, même si ce n'est pas strictement obligatoire.

ComfyUI

Ce tutoriel détaille l’utilisation de Qwen-Image avec ComfyUI, l'interface de workflow pour la génération d'images.

Si vous ne l'avez pas encore installé, pas d'inquiétude : l'installation est relativement simple et vous trouverez nos guides détaillés ci-dessous. L'important est d'avoir une version récente, car Qwen-Image nécessite des nœuds qui n'existaient pas dans les versions plus anciennes.

Installer ComfyUI Desktop (recommandée)

Guide d’installation Mac et Windows

Si ComfyUI est déjà installé sur votre machine, prenez le temps de vérifier que vous avez la dernière version.

Pour ceux qui préfèrent tester avant d'installer quoi que ce soit localement, Comfy Cloud offre une alternative intéressante. Vous accédez à ComfyUI directement depuis votre navigateur, avec des GPU cloud déjà configurés. C'est idéal pour découvrir Qwen-Image sans engagement matériel, même si l'expérience locale reste plus fluide et flexible sur le long terme.

Une fois ComfyUI à jour et votre GPU identifié, vous êtes prêt pour passer à l'étape suivante : télécharger et organiser les fichiers du modèle.

Téléchargement des modèles Qwen-Image

Le téléchargement des fichiers est l'étape qui peut sembler intimidante, mais en réalité, il suffit de suivre quelques règles simples. Le plus important : placer chaque fichier au bon endroit. C'est souvent là que les nouveaux utilisateurs rencontrent des problèmes, alors prenons le temps de détailler chaque élément.

Versions disponibles

Comme expliqué plus haut, Qwen-Image existe en plusieurs versions, chacune adaptée à un niveau de ressources matérielles. Le choix dépend principalement de votre GPU et de l'espace disque disponible.

Qwen-Image BF16 : qualité maximale mais très lourde, idéal pour les configuration avec au moins 25 Go de VRAM et 41 Go d’espace disque.

Qwen-Image FP8 : le compromis idéal qualité/performance pour les configuration avec de 12 à 16 Go de VRAM et 21Go d’espace disque.

Qwen-Image GGUF : une alternative quantifié qui permet d’utiliser Qwen-Image avec jusqu’à 6 Go de VRAM (voir même sans GPU) pour un espace disque entre 8 et 21 Go. → Consulter notre article dédié aux variantes GGUF pour identifier celle qui correspond le mieux à vos besoin.

Qwen-Image Nunchkau : des version quantifiée SVDQuant qui permettent de descendre jusqu’à 8 Go de VRAM tout en conservant une qualité remarquable. → Consultez notre article sur Qwen-Image Nunchaku pour en savoir plus et choisir la version qui correspond à vos besoin.

Les fichiers essentiels

Pour utiliser Qwen-Image avec ComfyUI, vous aurez besoin de trois fichiers principaux, plus un LoRA optionnel pour l'accélération. Tous ces fichiers sont hébergés sur Hugging Face dans le dépôt dédié de Comfy-Org, spécialement organisé pour faciliter l'intégration avec ComfyUI.

Commencez par le modèle de diffusion principal de votre choix, c’est à dire le fichier .safetensor téléchargé via les liens des différentes versions ci-dessus. C'est le cœur du système, celui qui génère réellement les images. Téléchargez-le et placez-le dans placez le dossier ComfyUI/models/diffusion_models/

Viens ensuite l’éditeur de texte : qwen_2.5_vl_7b_fp8_scaled.safetensors. Ce fichier transforme vos prompts en instructions que le modèle de diffusion peut comprendre. Il se télécharge également depuis Hugging Face et se range dans ComfyUI/models/clip/.

Il reste enfin de VAE (Variational AutoEncoder) : qwen_image_vae.safetensors. Ce composant décode les images latentes en images visibles. Téléchargez-le depuis Hugging Face et placez-le dans ComfyUI/models/vae/.

En option mais fortement recommandé, le LoRA Lightning : Qwen-Image-Lightning-8steps-V2.0.safetensors. Ce fichier permet d'accélérer la génération en passant de 50 étapes à seulement 8, tout en maintenant une qualité très proche de l'original. Disponible sur Hugging Face, il va dans ComfyUI/models/loras/.

📌

Sources de téléchargement et vérification

Tous les fichiers officiels de Qwen-Image pour ComfyUI sont disponibles sur deux plateformes principales. Hugging Face héberge la version internationale, accessible partout dans le monde. ModelScope propose une alternative plus rapide pour les utilisateurs en Asie, particulièrement en Chine où l'accès à Hugging Face peut être limité.

Les deux sources proposent exactement les mêmes fichiers. Choisissez simplement celle qui offre les meilleures vitesses de téléchargement depuis votre localisation. Si un téléchargement échoue ou semble corrompu, vous pouvez vérifier l'intégrité du fichier en comparant son hash SHA256 avec celui indiqué sur la page du modèle. La plupart des navigateurs modernes et gestionnaires de téléchargement proposent cette fonctionnalité.

Organisation des fichiers

L'organisation des fichiers dans ComfyUI suit une logique claire. Chaque type de fichier a son dossier dédié. Voici l'arborescence complète que vous devriez avoir pour Qwen-Image (Remplacez qwen_image_fp8_e4m3fn.safetensors par la version que vous avez choisis) :

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   ├── qwen_image_fp8_e4m3fn.safetensors
│   ├── clip/
│   │   └── qwen_2.5_vl_7b_fp8_scaled.safetensors
│   ├── vae/
│   │   └── qwen_image_vae.safetensors
│   ├── loras/
│   │   ├── Qwen-Image-Lightning-8steps-V2.0.safetensors

Si un fichier n'est pas au bon endroit, ComfyUI ne le trouvera pas et le workflow ne se chargera pas correctement. Les messages d'erreur peuvent être obscurs, alors autant partir sur de bonnes bases.

Une fois tous vos fichiers téléchargés et organisés correctement, vous êtes prêt à charger votre premier workflow et générer vos premières images avec Qwen-Image.

Génération d’images avec Qwen-Image

Maintenant que tous vos fichiers sont en place, passons à la pratique. Vous allez pouvoir charger votre premier workflow et générer votre première image avec Qwen-Image. C'est l'étape où tout prend sens et où vous découvrez réellement les capacités du modèle.

Charger le workflow standard

ComfyUI propose les workflows Qwen-Image directement dans ses templates officiels.

Si votre installation est à jour, vous les trouverez dans l'interface en faisant Parcourir les Modèles. Cherchez "Qwen-Image Text-to-Image" et chargez-le d'un simple clic. (Si vous ne voyez pas ce template, c'est probablement que votre version de ComfyUI n'est pas assez récente.)

Qwen-Image Text-to-Image dans la galerie de modèle ComfyUI

Vous pouvez également télécharger le workflow directement depuis le site ComfyUI. Une fois le fichier JSON téléchargé, il suffit de le glisser-déposer dans l'interface de ComfyUI pour le charger instantanément. C'est aussi simple que ça.

Une fois le workflow chargé, vous verrez apparaître une série de nœuds connectés entre eux. Ne vous laissez pas impressionner par le nombre de boîtes : chaque nœud a un rôle précis et l'ensemble forme un pipeline logique de génération d'image.

Détails du workflow

Prenons quelques instants pour décortiquer ce workflow et comprendre le rôle de chaque élément. Cette compréhension vous sera utile plus tard quand vous voudrez personnaliser vos générations ou résoudre des problèmes.

A. Chargement des modèles

Le node Charger Modèle de Diffusion doit charge le fichier du modèle principal qui va générer l’image. Par défaut, le workflow est configuré pour utiliser qwen_image_fp8_e4m3fn.safetensors. Au besoin, cliquez sur le nom unet pour choisir la version que vous avez téléchargée.

Le node Charger CLIP doit charger l'encodeur de texte qwen_2.5_vl_7b_fp8_scaled.safetensors. C'est lui qui transforme votre prompt en instructions que le modèle de diffusion peut comprendre.

Le node Charger VAE doit charger qwen_image_vae.safetensors. Le VAE décode les représentations latentes produites par le modèle de diffusion en images visibles. Sans lui, vous n'auriez que des données brutes incompréhensibles.

B. Taille de l’image

Le nœud EmptySD3LatentImage définit les dimensions de votre image. Contrairement aux modèles Stable Diffusion classiques, Qwen-Image travaille avec une architecture SD3 qui offre une grande flexibilité sur les résolutions. Vous pouvez donc ajuster la largeur et la hauteur selon vos besoins.

C. Prompt

Le premier node CLIP Text Encoder est utilisé pour le prompt positif. Indiquez-y la description de votre image

Le second CLIP Text Encoder est un pour le prompt négatif. Il permet d’indiquer certains éléments indésirables.

D. Génération

Le node KSampler est le cœur du processus de génération. Il orchestre le processus de diffusion qui transforme progressivement du bruit en image cohérente. C'est ici que vous contrôlez le nombre d'étapes (steps), l'échelle de guidance (cfg), le sampler utilisé et le scheduler qui gère la progression.

Le nœud ModelSamplingAuraFlow est un élément technique. Il configure les paramètres d'échantillonnage spécifiques à l'architecture de Qwen-Image. Ce nœud ajuste la manière dont le modèle gère le processus de diffusion pour optimiser la qualité de génération. Dans la plupart des cas, vous n'aurez pas besoin de modifier ses paramètres.

Le nœud VAE Decode convertit l'image latente en image visible.

Enfin, et Enregister l’image finalise le processus et permet de sauvegarder le résultat sur votre disque.

Configuration de base

Avant de lancer votre première génération, ajustons quelques paramètres essentiels pour obtenir de bons résultats dès le départ.

Dans le node EmptySD3LatentImage, vous définissez les dimensions de votre image. Qwen-Image gère très bien les formats variés, mais certaines résolutions donnent de meilleurs résultats.

Pour commencer, essayez 1344×1344 pixels pour une image carrée, ou 2560×1440 pour un format paysage 16:9. Ces résolutions exploitent bien les capacités du modèle. Vous pouvez aussi tester 1920×1080 (Full HD) ou 2048×2048 pour des besoins spécifiques.

🖼️

Quelles dimensions utiliser ?

Voici quelques dimensions standard que vous pouvez utiliser avec Qwen-Image :

16:9 : 1664 x 928

4:3 : 1472 x 1104

3:2 : 1584 x 1056

1:1 : 1328 x 1328

9:16 : 928 x 1664

3:4 : 1104 x 1472

2:3 : 1056 x 1584

Dans le node KSampler, plusieurs paramètres méritent votre attention.

Le nombre de steps (étapes) contrôle la finesse du processus de génération. Pour la version standard, 40 steps offrent un excellent équilibre qualité/vitesse. Vous pouvez descendre à 20-30 steps pour aller plus vite avec une qualité encore très correcte, ou monter à 50 steps si vous cherchez le maximum de détails.
Le CFG (Classifier-Free Guidance) détermine à quel point le modèle suit strictement votre prompt. Une valeur de 1.0 à 3.0 fonctionne bien dans la plupart des cas.
Pour le sampler, "euler" ou "dpmpp_2m" sont d'excellents choix pour débuter. Ils offrent une bonne qualité avec des temps de génération raisonnables.
Le scheduler "simple" convient parfaitement pour commencer. Vous expérimenterez d'autres combinaisons plus tard quand vous serez plus à l'aise.
Le seed est un nombre qui contrôle l'aléatoire de la génération. Avec le même seed et les mêmes paramètres, vous obtiendrez toujours la même image. C'est pratique pour reproduire un résultat ou comparer l'effet de différents paramètres. Laissez-le sur “randomize” pour explorer des variations et passez sur “fixed” pour des tests comparatifs.

Première génération

Le moment est venu de générer votre première image. Dans le node CLIP Text Encoder (celui du prompt positif), entrez une description simple mais précise. Essayons quelque chose qui met en valeur les forces de Qwen-Image :

A cinematic image still with the title "CREATIVE DIFFUSION" in fancy sans-serif typography, centered on a view of Los Angeles at dawn.

Ce prompt teste la capacité du modèle à générer du texte lisible tout en créant une composition visuelle cohérente. N'hésitez pas à adapter selon vos envies, mais gardez une structure claire : décrivez le sujet principal, le style, les couleurs et l'ambiance.

Laissons le prompt négatif vide pour l’instant.

👍

Besoin d’aide pour prompter Qwen ?

Consultez notre Guide du Prompt Qwen-Image pour apprendre à bien décrire vos images et devenir un maitre-prompteur Qwen.

Une fois vos prompts entrés, cliquez sur le bouton Executer en haut à droite de l'interface, ou utilisez le raccourci Ctrl+Enter (ou Cmd+Enter sur Mac). ComfyUI commence alors à exécuter le workflow node par node.

Vous verrez une barre de progression s'afficher, indiquant l'avancement de la génération. Sur un GPU avec 12 Go de VRAM (comme une RTX 3090), attendez-vous à environ 70-90 secondes pour la première génération, puis 50-70 secondes pour les suivantes. La première passe est toujours plus lente car le modèle doit se charger en mémoire. Sur un GPU plus puissant avec 24 Go (RTX 4090), les temps descendent à 40-60 secondes en première génération, puis 30-40 secondes par la suite.

Félicitations, vous venez de générer votre première image avec Qwen-Image ! Maintenant que vous maîtrisez le workflow de base, nous allons découvrir comment accélérer drastiquement vos générations.

Génération plus rapide

Nous avions indiqué dans les fichiers à télécharger un fichier supplémentaire, le LoRA Ligthning. Ce fichier repose sur une distillation de Qwen-Image qui permet de réduire le nombre d’étapes (et donc le temps) pour générer une image.

→ Consultez notre tutoriel

⚡

ComfyUI : Qwen-Image Lightning pour utiliser cette méthode de génération rapide.

Qwen-Image sur GPU modeste

Vous avez un GPU avec 8 à 10 Go de VRAM et vous pensiez que Qwen-Image était hors de portée ? Détrompez-vous. La version Nunchaku rend ce modèle accessible même sur des configurations plus modestes, sans sacrifier vraiment la qualité visuelle. C'est une solution élégante qui prouve qu'on peut démocratiser l'accès à des modèles puissants.

Nunchaku en Bref

Qwen-Image Nunchaku repose sur une technique appelée quantification. Pour faire simple, il s'agit de compresser les poids du modèle en utilisant une précision numérique réduite. Au lieu de stocker chaque paramètre sur 16 bits (comme dans la version FP16) ou 8 bits (version FP8), la quantification 4-bit encode les informations sur seulement 4 bits. C'est quatre fois moins d'espace que la version FP16, deux fois moins que la FP8.

Cette compression spectaculaire a un impact direct sur la VRAM requise. Là où la version FP8 standard demande 12 à 16 Go, Nunchaku tourne confortablement avec 5 à 6 Go de VRAM. C'est une réduction considérable qui ouvre la porte aux propriétaires de RTX 3060 (12 Go), RTX 4060 (8 Go), ou même certaines cartes plus anciennes encore performantes.

La question qui vous vient naturellement à l'esprit : qu'est-ce qu'on perd en qualité ? Étonnamment peu. Les tests montrent que Nunchaku maintient environ 98% de la qualité visuelle de la version complète. Pour la plupart des usages, la différence est imperceptible. Vous générerez des images avec du texte tout aussi net, des compositions tout aussi cohérentes, des couleurs tout aussi fidèles. Le léger écart se remarque surtout dans les détails les plus fins de scènes très complexes, ou dans certains dégradés subtils.

📌

Si vous souhaitez approfondir les aspects techniques de Nunchaku, son fonctionnement interne et les benchmarks détaillés, consultez la présentation détaillée de Qwen-Image Nunchaku qui couvre tous ces points en profondeur.

Le compromis principal se situe sur la vitesse. La quantification 4-bit demande davantage de calculs pour décompresser les poids durant la génération. Résultat : les temps de génération augmentent d'environ 30 à 50% par rapport à la version FP8.

Mais la bonne nouvelle c’est que Nunchaku est compatible avec le LoRA Lightning. Vous pouvez donc combiner les deux approches pour retrouver des temps de génération plus proches de la version standard. Lightning + Nunchaku, c'est donc la configuration idéale pour les GPU modestes qui veulent un bon équilibre vitesse/qualité.

Installation du plugin Nunchaku

Pour utiliser la version Nunchaku, vous devez d'abord installer le plugin ComfyUI-Nunchaku. C'est un jeu d'enfant avec le ComfyUI Manager : Ouvrez ComfyUI et cliquez sur le bouton "Manager" (généralement en bas à droite de l'interface). Dans la fenêtre qui s'ouvre, cherchez "Nunchaku" dans la barre de recherche.

Vous devriez voir apparaître "ComfyUI-Nunchaku" dans les résultats. Cliquez sur "Install" et laissez le Manager faire son travail. L'installation télécharge le plugin et ses dépendances. Une fois terminé, redémarrez ComfyUI pour que les nouveaux nodes soient disponibles.

Une fois le plugin installé, vous aurez besoin d’installer le Nunchaku Backend : les dépendances techniques nécessaires au chargement du modèle quantifié - principalement les Nunchaku wheels.

https://raw.githubusercontent.com/nunchaku-tech/ComfyUI-nunchaku/refs/heads/main/example_workflows/install_wheel.json

Pour ce faire, charger le workflow install_wheel.json pour effectuer les manipulations suivantes :

Sélectionnez le mode “update node” et exécutez le workflow pour mettre à jour la liste des versions.

Sélectionnez none comme version pour laisser le système déterminer automatiquement la version à installer, définissez le mode sur “installer” et exécutez le workflow

Relancez à nouveau ComfyUI pour que le backend soit correctement pris en compte.

❓

Quel wheel Nunchaku choisir ?

Le workflow automatise le choix de la version en détectant votre environnement et en installant un wheel approprié, mais en cas de problème, vous pouvez choisir manuellement un wheel correspondant à votre environnement.

Il faut en effet choisir la version du fichier wheel de Nunchaku correspondant à votre version de Python, de PyTorch, de CUDA et à votre système d'exploitation.

Par exemple, le nom du fichier wheel contient des informations telles que : nunchaku-0.3.1+torch2.7-cp311-cp311-linux_x86_64.whl, où « cp311 » correspond à Python 3.11, « torch2.7 » à PyTorch 2.7 et « linux_x86_64 » à un système d'exploitation Linux 64 bits.

Vérifiez votre version actuelle de Python en exécutant la commande python --version.

Vérifiez votre version de PyTorch et la compatibilité CUDA pour sélectionner une wheel compatible avec ces versions.

Pour les GPU Blackwell (série RTX 50), utilisez PyTorch ≥ 2.7 et CUDA ≥ 12.8 avec des modèles FP4 pour une compatibilité optimale.

Pour vérifier que tout s'est bien passé, allez dans le menu "Add Node" (clic droit dans l'espace de travail). Naviguez dans la hiérarchie et cherchez une catégorie "Nunchaku" ou "loaders". Vous devriez y trouver le node "Unet Loader (Nunchaku)". Si c'est le cas, l'installation est réussie et vous êtes prêt à l'utiliser.

Configuration et utilisation

Une fois le plugin installé, il vous reste à télécharger le modèle Nunchaku quantifié.

Vous le trouverez sur Hugging Face dans différentes versions de quantification. La version Q4_0 (quantification 4-bit) est recommandée pour un bon équilibre VRAM/qualité. Téléchargez le fichier et placez-le dans ComfyUI/models/diffusion_models/, aux côtés de vos autres modèles Qwen-Image.

→ Consultez notre article pour savoir si une autre version Nunchaku vous coinviendrai mieux

Chargez ensuite le Workflow Nunchaku json depuis le github de comfyUI Nunchaku : Ce workflow ressemble beaucoup au workflow standard, avec une différence clé : le node qui charge le modèle. Au lieu du node "Load Diffusion Model" classique, vous utilisez le node "Unet Loader (Nunchaku)". Ce node spécialisé sait comment charger et décompresser les modèles quantifiés.

Dans le node "Unet Loader (Nunchaku)", sélectionnez votre fichier de modèle quantifié. Les autres nodes restent identiques : Load CLIP, Load VAE, EmptySD3LatentImage, CLIP Text Encoder, KSampler, VAE Decode et Save Image. Vous pouvez reprendre le même workflow que précédemment en remplaçant simplement le node de chargement du modèle.

Les paramètres du KSampler fonctionnent exactement de la même manière qu'avec la version FP8. Commencez avec 20 steps, CFG à 1.0-2.5, sampler "euler" et scheduler "simple". Ces valeurs offrent un excellent point de départ. Vous pouvez ensuite affiner selon vos besoins et votre patience.

Pour aller plus vite, vous pouvez également activez le LoRA Lightning comme nous l’expliquions plus tôt : Ajoutez un node "LoraLoaderModelOnly", chargez Qwen-Image-Lightning-8steps-V2.0.safetensors, et réduisez les steps à 8 dans le KSampler. Cette combinaison Nunchaku + Lightning vous permet de générer des images de qualité très correcte même avec un GPU de 8 Go, en des temps raisonnables (40-60 secondes par génération).

→ Voir le guide

⚡

ComfyUI : Qwen-Image Lightning pour plus de détails.

Astuces et optimisations

Vous maîtrisez maintenant les workflows de base de Qwen-Image. Il est temps d'aller plus loin avec des techniques qui vous permettront d'optimiser vos générations, d'améliorer vos résultats et d'intégrer Qwen-Image dans des pipelines de production plus élaborés.

Optimisation des performances

Génération multiples

La batch generation est votre meilleure amie quand vous explorez différentes variations d'un même concept.

Au lieu de générer une image, d'attendre le résultat, puis de relancer manuellement avec un nouveau seed, configurez le node EmptySD3LatentImage pour générer plusieurs images d'un coup.

4 images générées en une fois avec la génération en lot.

Dans le paramètre taille_du_lot, augmentez la valeur à 4 ou 8 selon votre VRAM disponible. ComfyUI générera alors plusieurs variations simultanément avec des seeds différents. Vous gagnez un temps considérable en évitant les temps de chargement répétés du modèle, et vous pouvez comparer directement plusieurs résultats pour choisir le meilleur.

Sampler & Scheduler

Le choix du sampler et du scheduler a un impact significatif sur le résultat final, mais aussi sur la vitesse :

Euler + Normal : Cette combinaison est la plus souvent recommandée pour sa stabilité et sa rapidité lors de la génération d’images, en particulier pour des workflows typiques ou l’édition simple.

DDIM + ddim-uniform : DDIM est reconnu pour générer des images de haute qualité, avec une bonne fidélité au prompt.

Il fonctionne bien pour des résultats photoréalistes ou lorsque l’on recherche une meilleure adaptation au prompt. Il est conseillé de le tester avec une valeur CFG plus haute (jusqu’à 4 ou 5) pour un prompt strict, mais attention aux artefacts si vous montez trop.

Sampler res_multistep : Recommandé pour accélérer la génération sur les versions distillées ou le LoRA lightning, particulièrement sur les workflows 8 steps qui visent la rapidité tout en gardant une qualité correcte pour des images typées ou stylisées.

Scheduler Simple : Souvent utilisé pour garder la génération efficace, avec peu de bruit et une bonne qualité générale, adapté à l’édition rapide.

Scheduler ddim-uniform, karras, exponential, sgm_uniform : Chacun apporte des caractéristiques différentes. Par exemple, “exponential” donne des arrière-plans plus lisses mais avec une perte de détails, tandis que “karras” vise la régularité des étapes et une réduction du bruit après quelques steps.

Les caractéristiques de différents schedulers et samplers les rendent aussi plus ou moins adaptés selon le type d’images :

Rendu Texte (typo, poster, visuel complexe) : Choisissez “euler + simple” ou “ddim + ddim-uniform” pour générer des images avec textes nets et lisibles, utile en design graphique ou branding.

Image stylisée, anime ou artistique : Les samplers comme Euler ou res_multistep conviennent bien car ils permettent une adaptation rapide à la diversité des styles d’art (anime, impressionnisme, minimalisme).

Photorealisme, rendu précis : DDIM avec ddim-uniform et une CFG plus élevée (4-5) reste conseillé pour des images réalistes, portraits ou scènes détaillées.

Gestion de la VRAM

La gestion de la mémoire peut faire la différence entre un workflow fluide et des erreurs frustrantes. Avant de lancer une session de génération intensive, fermez tous les autres logiciels gourmands en ressources : navigateurs avec de nombreux onglets, éditeurs vidéo, autres applications IA.

Si vous êtes en limite de VRAM, réduisez légèrement la résolution de génération plutôt que de risquer un crash : passer de 2560×1440 à 1920×1080 libère plusieurs Go et reste largement suffisant pour la plupart des usages.

Mise à jour

Un dernier conseil de performance : gardez ComfyUI à jour. Les développeurs optimisent régulièrement le code pour améliorer la vitesse de génération et la gestion de la mémoire. Un simple git pull dans le dossier ComfyUI peut vous faire gagner beaucoup de temps sans effort.

Qualité et post-traitement

Même si Qwen-Image génère déjà des images de haute qualité, quelques techniques de post-traitement peuvent pousser vos créations encore plus loin.

Upscaling

L'upscaling est particulièrement utile pour améliorer le rendu du texte et des détails fins.

Générez d'abord votre image en résolution native (par exemple 1344×1344), puis utilisez un upscaler comme Ultimate SD Upscale dans ComfyUI ou une application externe pour doubler ou quadrupler la résolution.

Sur ComfyUI, les modèles d'upscaling comme RealESRGAN ou ESRGAN fonctionnent très bien avec les sorties de Qwen-Image. Le texte devient encore plus net, les contours plus précis, et vous obtenez une image prête pour l'impression grand format. Cet upscaling ajoute du temps de traitement, mais le gain de qualité en vaut souvent la peine pour vos rendus finaux.

→ Télécharger le workflow d’upscaling (cliquez-déposez l’image dans ComfyUI)

Correction à la main

La correction manuelle reste parfois nécessaire, surtout pour des détails très spécifiques.

Si une lettre est légèrement imparfaite ou qu'un élément graphique nécessite un petit ajustement, n'hésitez pas à ouvrir l'image dans Photoshop, GIMP ou un autre éditeur.

Qwen-Image vous fournit une base solide à 95-98% correcte, et quelques minutes de retouche manuelle peuvent transformer une très bonne image en image parfaite. C'est particulièrement vrai pour les créations destinées à un usage commercial où la perfection est attendue.

Workflows hybrides

C’est une des possibilités fascinantes offerte par ComfyUI : vous pouvez combiner Qwen-Image avec d'autres modèles dans le même workflow.

Par exemple, générez d'abord une scène de fond avec Stable Diffusion XL ou Flux, puis utilisez Qwen-Image uniquement pour ajouter du texte précis par-dessus via un workflow d'inpainting.

Ou inversement : créez une composition typographique avec Qwen-Image, puis intégrez des éléments générés par d'autres modèles pour enrichir le visuel. ComfyUI excelle dans ce type d'approche modulaire où chaque modèle fait ce qu'il fait le mieux.

Qwen-Image, Open-source et local

Si vous avez suivi ce guide, vous disposez maintenant d'un outil de génération d'images qui rivalise avec les meilleures solutions commerciales, mais qui tourne entièrement sur votre machine.

Qwen-Image est un modèle libre et gratuit qui atteint un niveau de qualité qui rend les abonnements mensuels à des générateurs comme Midjourney optionnels plutôt qu'indispensables. Le rendu de texte, en particulier, dépasse ce que la plupart des modèles propriétaires proposaient encore récemment. C'est la preuve tangible que l'open-source n'est pas synonyme de compromis sur la qualité.

Alors oui, il faut investir dans un GPU décent si vous n'en avez pas déjà un. Mais une RTX 3090 d'occasion à 800-1000 euros se rentabilise en moins d'un an comparé à un abonnement Midjourney. Et ensuite, vous générez autant d'images que vous voulez, quand vous voulez, sans regarder un compteur diminuer. Pour les créateurs de contenu, les designers, les équipes marketing qui produisent des dizaines de visuels par semaine, le calcul est vite fait.

Et les avantages du local vont bien au-delà de l'aspect financier. La confidentialité est totale : vos créations, vos prompts, vos explorations créatives restent sur votre machine. Personne ne collecte de données sur vos usages, personne n'analyse vos générations pour entraîner de futurs modèles.

Pour les professionnels qui travaillent sur des projets sensibles ou confidentiels, c'est un atout considérable. Le contrôle est également absolu : pas de filtres de contenu arbitraires, pas de limitations artificielles, pas de changements de politique d'utilisation qui bouleversent votre workflow du jour au lendemain.

L'écosystème autour de Qwen-Image est encore jeune, mais il évolue rapidement. De nouveaux LoRAs sont publiés régulièrement, la communauté développe des workflows spécialisés pour différents cas d'usage, et les intégrations avec d'autres outils se multiplient. Les prochains mois verront probablement l'arrivée de versions encore plus optimisées, de nouveaux ControlNets spécifiques, et peut-être même de versions multimodales qui combineront génération d'images et d'autres capacités.

N'hésitez pas à expérimenter et à pousser les limites de ce que vous avez appris dans ce guide. Testez des prompts inhabituels, combinez plusieurs techniques, créez vos propres workflows hybrides. C'est en explorant que vous découvrirez les possibilités les plus intéressantes. Documentez vos découvertes, partagez vos workflows avec la communauté, contribuez à cet écosystème naissant. L'open-source fonctionne parce que des utilisateurs comme vous partagent leurs connaissances et leurs innovations.

Ce guide vous a donné les fondations pour maîtriser la génération d'images avec Qwen-Image. Mais ce n'est que le début. Dans un prochain tutoriel, nous explorerons Qwen-Image-Edit, la version spécialisée dans l'édition et la modification d'images existantes. Vous découvrirez comment transformer vos créations, ajouter du texte sur des photos, corriger des éléments spécifiques, et combiner génération et édition dans des workflows encore plus puissants.

En attendant, lancez ComfyUI, chargez votre workflow favori, et créez. Les outils sont entre vos mains. À vous de jouer.

Ressources et communauté

Vous avez maintenant les bases pour travailler avec Qwen-Image, mais l'apprentissage ne s'arrête jamais. Voici les ressources essentielles pour continuer à progresser et rester à jour avec les dernières évolutions.

Documentation officielle

GitHub Qwen-Image : https://github.com/QwenLM/Qwen-Image Repository officiel du projet avec le code source, les notes de version, et les issues pour signaler des bugs

Hugging Face Model Card : https://huggingface.co/Qwen/Qwen-Image Fiche technique complète du modèle avec benchmarks, exemples et détails d'entraînement

ComfyUI Qwen-Image : https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI Version optimisée pour ComfyUI avec tous les fichiers nécessaires

Documentation ComfyUI : https://docs.comfy.org Documentation officielle de ComfyUI avec tutoriels et références des nodes

Tutoriel officiel Qwen-Image : https://docs.comfy.org/tutorials/image/qwen/qwen-image Guide officiel ComfyUI pour Qwen-Image avec workflows et explications détaillées

Communauté et support

Discord GenIArt Le serveur de GenIArt est LA Communauté francophone dédiée à l'IA générative où on parle de nombreux modèles et outils, dont ComfyUI et Qwen-Image.

Reddit La communauté r/comfyui est active et partage régulièrement des workflows, tutoriels,… Si vous parlez anglais, c’est aussi le bon endroit pour trouver de l’aide et des réponses à vos question. /r/StableDiffusion est un groupe plus large sur la génération d'images par IA. Vous.y trouverez des discussions sur les nouveaux modèles, des comparaisons et techniques avancées.

YouTube - AI & Pixels : https://www.youtube.com/@aiandpixels La chaine AI & Pixels partage beaucoup d’infos et d’astuces, dont plusieurs vidéos sur ComfyUI et Qwen-Image, avec workflows et cas d'usage pratiques.

Veille et évolutions

Qwen Research : Annonces officielles des nouvelles versions et fonctionnalités des diffèrentes modèles Qwen.

ComfyUI Blog : Mise à jour, nouvelles focntionalités et info diverse sur ComfyUI.

Twitter/X : En plus de notre compte, pensez à suivre @Alibaba_Qwen et @ComfyUI

L'écosystème Qwen-Image évolue rapidement. En restant connecté à ces ressources, vous serez parmi les premiers à découvrir les nouvelles possibilités et à intégrer les meilleures pratiques dans votre workflow.

Qwen-Image avec ComfyUI

Qwen-Image en bref

Forces et Faiblesses

Ce dont vous avez besoin

Configuration matérielle

Quelle version pour quel matériel ?

ComfyUI

Téléchargement des modèles Qwen-Image

Versions disponibles

Les fichiers essentiels

Sources de téléchargement et vérification

Organisation des fichiers

Génération d’images avec Qwen-Image

Charger le workflow standard

Détails du workflow

A. Chargement des modèles

B. Taille de l’image

C. Prompt

D. Génération

Configuration de base

Première génération

Génération plus rapide

Qwen-Image sur GPU modeste

Nunchaku en Bref

Installation du plugin Nunchaku

Configuration et utilisation

Astuces et optimisations

Optimisation des performances

Qualité et post-traitement

Workflows hybrides

Qwen-Image, Open-source et local

Ressources et communauté

Documentation officielle

Communauté et support

Veille et évolutions

Marre de tourner en rond ?

Articles liés

ComfyUI accueille les modèles Qwen

Sortie de Qwen Image Edit

Qwen-Image avec ComfyUI

Qwen-Image en bref

Forces et Faiblesses

Ce dont vous avez besoin

Configuration matérielle

Quelle version pour quel matériel ?

ComfyUI

Téléchargement des modèles Qwen-Image

Versions disponibles

Les fichiers essentiels

Sources de téléchargement et vérification

Organisation des fichiers

Génération d’images avec Qwen-Image

Charger le workflow standard

Détails du workflow

A. Chargement des modèles

B. Taille de l’image

C. Prompt

D. Génération

Configuration de base

Première génération

Génération plus rapide

Qwen-Image sur GPU modeste

Nunchaku en Bref

Installation du plugin Nunchaku

Configuration et utilisation

Astuces et optimisations

Optimisation des performances

Qualité et post-traitement

Workflows hybrides

Qwen-Image, Open-source et local

Ressources et communauté

Documentation officielle

Communauté et support

Veille et évolutions

Marre de tourner en rond ?

Articles liés

ComfyUI accueille les modèles Qwen

Sortie de Qwen Image Edit

✉️ Creative Diffusion