Qwen-Image

Tout ce qu'il faut savoir sur le modèle de génération d'images open-source d'Alibaba

Created Time
Aug 17, 2025
modele IMG
modele IMG
La gamme d’intelligence artificialle de Qwen-Image, développée par Alibaba, propose plusieurs modèle de génération et édition d’images avancés.
S'appuyant sur l'architecture MMDiT (Multimodal Diffusion Transformer), cette suite technologique permet une synergie inédite entre la compréhension profonde du langage et la création visuelle de haute précision. Qu'il s'agisse de générer des visuels publicitaires au rendu textuel impeccable ou de décomposer des images complexes en calques RGBA éditables, Qwen-Image offre une flexibilité qui comble le fossé entre les générateurs d'images classiques et les outils de design professionnel.
 
notion image
Dernière mise à jour : 31/12/2025
 
 

Qu'est-ce que Qwen-Image ?

Qwen-Image est un modèle de fondation multimodal de pointe, doté de 20 milliards de paramètres, conçu spécifiquement pour exceller dans la génération d'images à partir de texte et l'édition précise. Son architecture repose sur un Transformateur de Diffusion Multimodal (MMDiT), marquant une rupture avec les architectures U-Net traditionnelles en permettant une intégration plus profonde et bidirectionnelle entre les données textuelles et visuelles.
notion image
Le modèle excelle dans quatre domaines principaux :
Rendu de texte avancé – Qwen-Image peut incorporer des paragraphes entiers, des formules mathématiques et des détails typographiques complexes avec une fidélité impressionnante, supportant aussi bien les alphabets occidentaux que les caractères logographiques (chinois, japonais, coréen).
Édition d'images intelligente – Au-delà de la génération pure, le modèle offre des fonctionnalités d'édition sophistiquées : modification de texte existant, transfert de style, insertion/suppression d'objets, et manipulation contrôlée des poses humaines.
Polyvalence stylistique – De la photographie réaliste aux peintures impressionnistes, en passant par les styles manga ou les designs minimalistes, Qwen-Image s'adapte à une vaste gamme d'esthétiques créatives.
Compréhension multilingue – Entraîné pour gérer parfaitement le chinois et l'anglais, il préserve avec précision la typographie et la mise en page quelle que soit la langue utilisée.
Développé selon une approche d'apprentissage progressif ("curriculum learning"), le modèle a été formé en passant de tâches simples (images sans texte) vers des scénarios complexes (prompts de plusieurs paragraphes), renforçant ainsi sa capacité à traiter des instructions textuelles sophistiquées.
 

Qwen Image Edit : L'évolution logique

Lancé le 18 août 2025, Qwen Image Edit étend les capacités de Qwen-Image vers l'édition d'images spécialisée. Construit sur la base solide du modèle de 20 milliards de paramètres, il introduit une architecture de double encodage révolutionnaire.
La vraie innovation de Qwen Image Edit réside dans son système de traitement dual qui analyse les images à travers deux flux parallèles :
Premier flux sémantique : Un modèle vision-langage Qwen2.5-VL extrait les caractéristiques sémantiques de haut niveau, permettant au système de "comprendre" le sens de l'image et les relations entre objets.
Second flux reconstructif : Un Variational Autoencoder (VAE) spécialement affiné capture les détails de bas niveau, garantissant que les zones non modifiées restent parfaitement préservées.
Cette approche permet deux modes d'édition complémentaires :
  • Édition sémantique : Transformations larges (changements de style, rotations d'objets, créations d'emojis)
  • Édition d'apparence : Modifications chirurgicales (ajout/suppression d'éléments, retouches précises)
notion image

Qwen-Image-Layered : La révolution des calques

Lancé le 19 décembre 2025, Qwen-Image-Layered marque une rupture technologique en transformant les images plates en compositions structurées et éditables. Basé sur le modèle de 20 milliards de paramètres, il introduit le concept de "décomposition RGBA" pour offrir une flexibilité native identique à celle des logiciels de PAO comme Photoshop.
Contrairement aux outils de segmentation classiques, Qwen-Image-Layered utilise un système de décomposition par masquage multimodal (VLD-MMDiT) capable d'analyser la structure interne de l'image :
  • Encodage de profondeur (Layer3D RoPE) : Le modèle utilise un système de positionnement rotatif 3D (RoPE) pour comprendre la hiérarchie des couches. Il identifie mathématiquement quel objet est devant un autre, évitant les erreurs de superposition lors de l'édition.
  • Inversion de composition RGBA-VAE : Un encodeur-décodeur unifié traite simultanément la couleur (RGB) et la transparence (Alpha). Cela permet au modèle de "dé-fusionner" les pixels pour créer des calques complets, incluant la reconstruction intelligente (inpainting) des zones qui étaient cachées derrière les objets.
Cette architecture déverrouille des capacités uniques :
  • Décomposition flexible : Division automatique d'une photo en 3 à 8 calques (objets, texte, fond) selon la complexité de la scène.
  • Éditabilité intrinsèque : Chaque calque peut être redimensionné, déplacé ou recoloré indépendamment, sans jamais altérer ou déformer les autres éléments de la composition.
notion image

Qui est derrière Qwen-Image ?

Qwen-Image est développé par Tongyi Lab, l'équipe d’IA d'Alibaba, une division de recherche spécialisée dans les modèles de fondation et l'intelligence artificielle multimodale. Cette équipe est reconnue pour sa capacité à produire des modèles de langage de grande envergure (LLM) qui rivalisent, et surpassent souvent, les modèles propriétaires les plus avancés du marché, tels que ceux d'OpenAI ou de Google..
Alibaba Cloud, à travers sa plateforme technologique, s'impose comme un acteur majeur de l'IA générative en Asie. L'entreprise investit massivement dans la recherche en IA depuis plusieurs années, avec un focus particulier sur les modèles multilingues adaptés aux besoins des marchés asiatiques tout en restant compétitifs à l'international.
La stratégie d'Alibaba repose sur un engagement fort envers l'écosystème open-source, en publiant les poids des modèles sous licence Apache 2.0, favorisant ainsi une innovation communautaire rapide. Cette approche traduit sa volonté de se placer comme une référence en IA tout en démocratisant l'accès à des technologies d'IA avancées. Pour cela, ils ont publié non seulement les poids du modèle mais aussi l'intégralité du code source et de sa documentation technique.
notion image

Comment utiliser Qwen-Image ?

L'utilisation de la gamme Qwen-Image a été conçue pour être aussi flexible que puissante, s'adaptant aussi bien aux environnements de développement locaux qu'aux infrastructures cloud à grande échelle.

Qwen en Ligne

Interface web officielle

Le moyen le plus simple d'accéder à Qwen-Image est via l'interface officielle sur chat.qwen.ai :
  1. Rendez-vous sur chat.qwen.ai
  1. Activez la Génération d’image
  1. Saisissez votre prompt en langage naturel
  1. Lancez la génération
Accessible gratuitement et sans inscription, l'interface est particulièrement conviviale pour les non-spécialistes, permettant de formuler simplement des requêtes comme "Dessine une affiche avec du texte en français" pour obtenir des résultats professionnels.
De la même manière, vous pouvez tester Qwen Image Edit directement sur le chat en choisissant Edition d’image et en décrivant les modifications souhaitées.
 
 
 
 

Autres sites et plateformes

notion image
Qwen étant Open Source, il a rapidement été intégré à différentes plateformes de génération d’images comme Getimg AI ou DZine qui permettent de l’utiliser au seins de leurs suite créative.
 

Qwen-Image sur votre ordinateur

Il est également possible de télécharger Qwen-Image et de l’installer sur son ordinateur pour une exécution en local.
Le modèle est notamment compatible avec l’interface de ComfyUI. Il permet des workflows personnalisés, avec un contrôle fin sur le prompt, le seed, la résolution, etc.
Qwen-Image est également optimisé pour tourner sur matériel léger grâce à la quantification FP8.
notion image

Prompter Qwen-Image

notion image
Qwen-Image comprend les prompts grâce à son modèle de langage intégré, qui traduit vos mots en instructions visuelles détaillées pour le transformateur de diffusion.
Pour générer de belles images avec Qwen-Image, commencez par structurer vos prompts autour de trois piliers : le sujet, la scène et le style. Ajoutez ensuite des détails sur le cadrage, la perspective, l’éclairage ou l’ambiance pour affiner vos créations, tout en restant concis et clair pour que le modèle interprète correctement votre demande.

Les différentes versions de Qwen-Image

La famille Qwen-Image se structure en trois piliers spécialisés, chacun répondant à une étape précise du flux créatif.

Qwen-Image : Le modèle de fondation

notion image
La version initiale est sortie le 4 Aout 2025, axée sur la génération "Text-to-Image" de haute qualité.
Sa force réside dans sa compréhension sémantique bilingue et sa capacité à créer des compositions complexes à partir de zéro, servant de socle aux versions suivantes.
Le 31 Décembre 2025, l’équipe Qwen AI a partagé une nouvelle version Qwen-Image 2512 qui améliore la qualité générale du modèle avec notamment une meilleur qualitée des visages et de la peau humaine (plus de réalisme), plus de détails dans les paysages et élèments naturels et un rendu du texte plus précis.

Qwen-Image-Edit : La manipulation avancée

notion image
Après une première version sortie le 17 Aout 2025, ce modèle a évolué à travers deux itérations majeures pour perfectionner l'édition guidée par le texte :
  • Version 2509 : A introduit le support de l'édition multi-images (fusion de sujets comme "personne + scène") et le support natif de ControlNet (profondeur, contours, squelettes).
  • Version 2511 : Une mise à jour majeure lancée en décembre 2025. Elle réduit considérablement la "dérive d'image" (modifications non souhaitées), améliore radicalement la cohérence des personnages dans les portraits et intègre des capacités de raisonnement géométrique pour générer des lignes de construction ou des annotations.

Qwen-Image-Layered : L'édition par couches

notion image
Lancée le 19 décembre 2025, cette version marque une rupture technologique en décomposant une image raster plate en plusieurs couches RGBA (couleur + transparence) indépendantes. Elle permet de manipuler chaque élément (objet, texte, fond) sans affecter le reste de l'image, comme dans un fichier Photoshop professionnel.
 

Images générées avec Qwen

notion image
https://x.com/Jr200Okada/status/1955972129348051370/photo/1
notion image
https://x.com/Alibaba_Qwen/status/1955656822532329626
https://x.com/nicekate8888/status/1956729720525164800/photo/4
https://x.com/nicekate8888/status/1956729731690459632/photo/2
https://x.com/AIojisan1952/status/1956413389640696122/photo/1
notion image
https://x.com/ComfyUI/status/1954920816300408938/photo/3
notion image
https://x.com/PrunaAI/status/1954860502594543967/photo/1
https://x.com/Emanon_14/status/1956699703552143675/photo/4
https://x.com/yoko_y__/status/1956715718021619935/photo/2
notion image
 
notion image
https://x.com/MisstyFlux/status/1952768134777090481/photo/2
notion image
https://x.com/gosrum/status/1955496547548008714/photo/2
https://x.com/ComfyUI/status/1954920816300408938/photo/1
https://x.com/nicekate8888/status/1956729724098728426/photo/4
notion image

Exemples d’édition avec Qwen Image Edit

Remplace le mot "Sunday" sur ce t-shirt par "Dimanche" en gardant la typographie et sans changer le reste de l'image.
notion image
notion image

Qwen-Image en détails

Points forts

Maîtrise du texte dans l'image : Qwen-Image excelle particulièrement dans le rendu de texte en IA générative. Capable de gérer des paragraphes entiers, des formules mathématiques et des détails typographiques complexes, il affiche une précision remarquable dans ce domaine. Cette capacité en fait un outil particulièrement adapté pour créer des affiches, des présentations ou tout contenu nécessitant l'intégration de texte.
Excellence multilingue : Le modèle se distingue particulièrement dans sa gestion native du chinois et de l'anglais. Selon Artificial Analysis, "Qwen-Image demonstrates particularly strong text rendering capabilities", ce qui le positionne parmi les modèles les plus performants sur le marché pour les contenus multilingues.
Édition intelligente : Au-delà de la simple génération, Qwen-Image propose des fonctionnalités d'édition sophistiquées. Il peut modifier le texte déjà présent dans une image, effectuer des transferts de style, ou manipuler des éléments spécifiques tout en préservant la cohérence visuelle globale.
Performances de haut niveau : Qwen-Image se positionne parmi les meilleurs modèles open-source actuels. Selon le classement Artificial Analysis Image Arena, il surpasse HiDream-I1-Dev et affiche une qualité comparable à des modèles propriétaires comme Imagen 3 et FLUX.1, confirmant sa place dans le top des modèles disponibles.
Polyvalence créative : Le modèle s'adapte remarquablement à diverses esthétiques, du photoréalisme aux styles artistiques variés, offrant aux créateurs une flexibilité exceptionnelle pour leurs projets.
notion image
Qwen Image Edit est également remarquable :
Édition de précision chirurgicale : Qwen Image Edit peut effectuer des modifications ultra-précises comme "enlever un brin de cheveux" selon les mots du chercheur Junyang Lin, tout en préservant parfaitement les zones environnantes.
Éditions itératives : Capacité unique d'effectuer des corrections successives sur une même image, permettant un affinement progressif jusqu'au résultat parfait.
Préservation contextuelle : L'architecture de double encodage garantit que seules les zones ciblées sont modifiées, maintenant la cohérence visuelle globale.

L'innovation Qwen-Image-Layered

Le modèle Layered utilise un VLD-MMDiT pour prédire intelligemment les zones occlues (inpainting automatique du fond derrière les objets). Le Layer3D RoPE ajoute une dimension de profondeur mathématique permettant au modèle de comprendre la hiérarchie des couches.

Capacités de l'édition par couches

  • Décomposition récursive : Une couche peut elle-même être décomposée en sous-couches pour un raffinement infini.
  • Opérations élémentaires fidèles : Déplacement libre, redimensionnement sans distorsion et recoloration isolée d'un seul élément.
  • Exportation professionnelle : Les résultats peuvent être exportés directement aux formats PSD (Photoshop), PPTX (PowerPoint) ou ZIP.

Performances et contraintes techniques

Qwen-Image-Layered surpasse les méthodes de segmentation classiques (comme SAM) en générant des canaux alpha beaucoup plus nets. Sur le benchmark Crello, il atteint un score de Alpha soft IoU de 0,757, contre environ 0,52 pour les méthodes basées sur la segmentation + inpainting. Cependant, cette puissance exige des ressources importantes : le processus de décomposition peut durer environ 1,5 minute et nécessiter jusqu'à 65 Go de VRAM pour les résolutions les plus élevées.

Architecture & Détails techniques

Architecture MMDiT moderne

Qwen-Image repose sur une architecture MMDiT (Multimodal Diffusion Transformer) de 20 milliards de paramètres, une approche qui intègre nativement texte et image dans un seul transformeur. Cette architecture se distingue des approches classiques par sa capacité à maintenir la cohérence sémantique lors des opérations d'édition.
Le processus se déroule en trois étapes :
  1. Encodage : Un encodeur vision-langue (Qwen2.5-VL) extrait la signification du texte
  1. Génération : Le module MMDiT produit un vecteur latent d'image
  1. Décodage : Un décodeur VAE reconstruit l'image finale

Apprentissage progressif (Curriculum Learning)

La formation de Qwen-Image suit une stratégie d'apprentissage progressive particulièrement sophistiquée :
  • Phase 1 : Images sans texte ou textes simples
  • Phase 2 : Prompts de complexité croissante
  • Phase 3 : Scénarios complexes avec paragraphes longs
Cette approche renforce progressivement la capacité du modèle à intégrer du texte de manière naturelle et cohérente.

Formation multi-tâches

Le modèle est formé simultanément sur trois tâches complémentaires :
  • Text-to-Image : Génération d'images à partir de texte
  • Text+Image-to-Image : Modification guidée par texte
  • Image-to-Image : Reconstruction et édition

Pipeline de données massif

L'entraînement s'appuie sur un pipeline sophistiqué incluant :
  • Collecte de données à grande échelle
  • Filtrage et annotation automatisés
  • Synthèse d'images avec intégration de texte
  • Équilibrage des corpus multilingues

Extension vers l'édition spécialisée

Qwen Image Edit hérite de l'architecture MMDiT de base mais l'enrichit avec :
  • Encodage dual : Traitement parallèle sémantique et reconstructif
  • Préservation sélective : Algorithmes avancés pour protéger les zones non éditées
  • Édition itérative : Capacité d'effectuer des corrections successives
  • Compréhension contextuelle : Analyse fine des relations spatiales et sémantiques

Capacités d'édition avancées :

  • Modification de texte bilingue (anglais/chinois) avec préservation typographique
  • Édition chirurgicale d'objets individuels
  • Transferts de style localisés
  • Corrections itératives par zones délimitées

Performances de Qwen-Image

Qwen-Image démontre des performances solides sur les benchmarks de référence, se positionnant comme un des leaders des modèles open-source :
Benchmarks de texte complexe : Résultats remarquables sur LongText-Bench, ChineseWord et TextCraft, dépassant plusieurs concurrents dans le rendu de texte multilingue.
Classement général : Reconnu parmi les meilleurs modèles open-source par Artificial Analysis, surpassant des modèles établis comme HiDream-I1-Dev.
Qualité globale : Performances comparables à des modèles propriétaires premium comme Imagen 3 et FLUX.1 Kontext [pro], tout en restant entièrement libre et open-source.
Évaluation communautaire : Le modèle utilise AI Arena, une plateforme d'évaluation basée sur le système Elo, permettant une comparaison transparente et dynamique avec les autres modèles du marché.
notion image

Disponibilité et Licences

Modèle open-source complet : Qwen-Image est publié sous licence Apache 2.0, autorisant une utilisation libre y compris commerciale sans redevances.
Formats disponibles :
  • Versions de précision entière et quantisées
  • Formats safetensors pour une utilisation sécurisée
  • Adaptateurs LoRA pour l'affinement stylistique
Support technique : Documentation complète, tutoriels et exemples d'intégration disponibles, avec une communauté active sur GitHub et les forums spécialisés.

Nos Articles à propos de Qwen-Image