Qwen-Image : Génération d’images IA

Created Time

Aug 17, 2025

modele IMG

La gamme d’intelligence artificialle de Qwen-Image, développée par Alibaba, propose plusieurs modèle de génération et édition d’images avancés.

S'appuyant sur l'architecture MMDiT (Multimodal Diffusion Transformer), cette suite technologique permet une synergie inédite entre la compréhension profonde du langage et la création visuelle de haute précision. Qu'il s'agisse de générer des visuels publicitaires au rendu textuel impeccable ou de décomposer des images complexes en calques RGBA éditables, Qwen-Image offre une flexibilité qui comble le fossé entre les générateurs d'images classiques et les outils de design professionnel.

→ Essayer Qwen Image

Dernière mise à jour : 31/12/2025

⭐

Qwen Image

Qu'est-ce que Qwen-Image ?Qwen Image Edit : L'évolution logique Qwen-Image-Layered : La révolution des calques Qui est derrière Qwen-Image ?Comment utiliser Qwen-Image ?Qwen en Ligne Interface web officielle Autres sites et plateformes Qwen-Image sur votre ordinateur Prompter Qwen-Image Les différentes versions de Qwen-Image Qwen-Image : Le modèle de fondation Qwen-Image-Edit : La manipulation avancée Qwen-Image-Layered : L'édition par couches Images générées avec Qwen Exemples d’édition avec Qwen Image Edit Qwen-Image en détails Points forts L'innovation Qwen-Image-Layered Capacités de l'édition par couches Performances et contraintes techniques Architecture & Détails techniques Architecture MMDiT moderne Apprentissage progressif (Curriculum Learning)Formation multi-tâches Pipeline de données massif Extension vers l'édition spécialisée Capacités d'édition avancées :Performances de Qwen-Image Disponibilité et Licences Nos Articles à propos de Qwen-Image

🗞️

L’Actualités Qwen Image

Mise à jour 2512 de Qwen-Image

31/12/25 - Alibaba finit l’année en beauté avec une nouvelle version plus réaliste de Qwen-Image.

→ En savoir plus

Mise à jour 2511 de Qwen-Image-Edit

26/12/25 - L’équipe Qwen améliore encore et toujours sont modèle d’édition d’images

→ En savoir plus

Sortie de Qwen-Image-Layered

20/12/25 - Alibaba sort un modèle capable de générer des images composées en couches indépendantes.

→ Voir l’article

Qu'est-ce que Qwen-Image ?

Qwen-Image est un modèle de fondation multimodal de pointe, doté de 20 milliards de paramètres, conçu spécifiquement pour exceller dans la génération d'images à partir de texte et l'édition précise. Son architecture repose sur un Transformateur de Diffusion Multimodal (MMDiT), marquant une rupture avec les architectures U-Net traditionnelles en permettant une intégration plus profonde et bidirectionnelle entre les données textuelles et visuelles.

Le modèle excelle dans quatre domaines principaux :

Rendu de texte avancé – Qwen-Image peut incorporer des paragraphes entiers, des formules mathématiques et des détails typographiques complexes avec une fidélité impressionnante, supportant aussi bien les alphabets occidentaux que les caractères logographiques (chinois, japonais, coréen).

Édition d'images intelligente – Au-delà de la génération pure, le modèle offre des fonctionnalités d'édition sophistiquées : modification de texte existant, transfert de style, insertion/suppression d'objets, et manipulation contrôlée des poses humaines.

Polyvalence stylistique – De la photographie réaliste aux peintures impressionnistes, en passant par les styles manga ou les designs minimalistes, Qwen-Image s'adapte à une vaste gamme d'esthétiques créatives.

Compréhension multilingue – Entraîné pour gérer parfaitement le chinois et l'anglais, il préserve avec précision la typographie et la mise en page quelle que soit la langue utilisée.

Développé selon une approche d'apprentissage progressif ("curriculum learning"), le modèle a été formé en passant de tâches simples (images sans texte) vers des scénarios complexes (prompts de plusieurs paragraphes), renforçant ainsi sa capacité à traiter des instructions textuelles sophistiquées.

Qwen Image Edit : L'évolution logique

Lancé le 18 août 2025, Qwen Image Edit étend les capacités de Qwen-Image vers l'édition d'images spécialisée. Construit sur la base solide du modèle de 20 milliards de paramètres, il introduit une architecture de double encodage révolutionnaire.

La vraie innovation de Qwen Image Edit réside dans son système de traitement dual qui analyse les images à travers deux flux parallèles :

Premier flux sémantique : Un modèle vision-langage Qwen2.5-VL extrait les caractéristiques sémantiques de haut niveau, permettant au système de "comprendre" le sens de l'image et les relations entre objets.

Second flux reconstructif : Un Variational Autoencoder (VAE) spécialement affiné capture les détails de bas niveau, garantissant que les zones non modifiées restent parfaitement préservées.

Cette approche permet deux modes d'édition complémentaires :

Édition sémantique : Transformations larges (changements de style, rotations d'objets, créations d'emojis)

Édition d'apparence : Modifications chirurgicales (ajout/suppression d'éléments, retouches précises)

Qwen-Image-Layered : La révolution des calques

Lancé le 19 décembre 2025, Qwen-Image-Layered marque une rupture technologique en transformant les images plates en compositions structurées et éditables. Basé sur le modèle de 20 milliards de paramètres, il introduit le concept de "décomposition RGBA" pour offrir une flexibilité native identique à celle des logiciels de PAO comme Photoshop.

Contrairement aux outils de segmentation classiques, Qwen-Image-Layered utilise un système de décomposition par masquage multimodal (VLD-MMDiT) capable d'analyser la structure interne de l'image :

Encodage de profondeur (Layer3D RoPE) : Le modèle utilise un système de positionnement rotatif 3D (RoPE) pour comprendre la hiérarchie des couches. Il identifie mathématiquement quel objet est devant un autre, évitant les erreurs de superposition lors de l'édition.

Inversion de composition RGBA-VAE : Un encodeur-décodeur unifié traite simultanément la couleur (RGB) et la transparence (Alpha). Cela permet au modèle de "dé-fusionner" les pixels pour créer des calques complets, incluant la reconstruction intelligente (inpainting) des zones qui étaient cachées derrière les objets.

Cette architecture déverrouille des capacités uniques :

Décomposition flexible : Division automatique d'une photo en 3 à 8 calques (objets, texte, fond) selon la complexité de la scène.

Éditabilité intrinsèque : Chaque calque peut être redimensionné, déplacé ou recoloré indépendamment, sans jamais altérer ou déformer les autres éléments de la composition.

Qui est derrière Qwen-Image ?

Qwen-Image est développé par Tongyi Lab, l'équipe d’IA d'Alibaba, une division de recherche spécialisée dans les modèles de fondation et l'intelligence artificielle multimodale. Cette équipe est reconnue pour sa capacité à produire des modèles de langage de grande envergure (LLM) qui rivalisent, et surpassent souvent, les modèles propriétaires les plus avancés du marché, tels que ceux d'OpenAI ou de Google..

Alibaba Cloud, à travers sa plateforme technologique, s'impose comme un acteur majeur de l'IA générative en Asie. L'entreprise investit massivement dans la recherche en IA depuis plusieurs années, avec un focus particulier sur les modèles multilingues adaptés aux besoins des marchés asiatiques tout en restant compétitifs à l'international.

La stratégie d'Alibaba repose sur un engagement fort envers l'écosystème open-source, en publiant les poids des modèles sous licence Apache 2.0, favorisant ainsi une innovation communautaire rapide. Cette approche traduit sa volonté de se placer comme une référence en IA tout en démocratisant l'accès à des technologies d'IA avancées. Pour cela, ils ont publié non seulement les poids du modèle mais aussi l'intégralité du code source et de sa documentation technique.

Comment utiliser Qwen-Image ?

L'utilisation de la gamme Qwen-Image a été conçue pour être aussi flexible que puissante, s'adaptant aussi bien aux environnements de développement locaux qu'aux infrastructures cloud à grande échelle.

Qwen en Ligne

Interface web officielle

Le moyen le plus simple d'accéder à Qwen-Image est via l'interface officielle sur chat.qwen.ai :

Rendez-vous sur chat.qwen.ai

Activez la Génération d’image

Saisissez votre prompt en langage naturel

Lancez la génération

Accessible gratuitement et sans inscription, l'interface est particulièrement conviviale pour les non-spécialistes, permettant de formuler simplement des requêtes comme "Dessine une affiche avec du texte en français" pour obtenir des résultats professionnels.

De la même manière, vous pouvez tester Qwen Image Edit directement sur le chat en choisissant Edition d’image et en décrivant les modifications souhaitées.

Autres sites et plateformes

Qwen étant Open Source, il a rapidement été intégré à différentes plateformes de génération d’images comme Getimg AI ou DZine qui permettent de l’utiliser au seins de leurs suite créative.

→ Voir tous les générateur Qwen en ligne

Qwen-Image sur votre ordinateur

Il est également possible de télécharger Qwen-Image et de l’installer sur son ordinateur pour une exécution en local.

Le modèle est notamment compatible avec l’interface de ComfyUI. Il permet des workflows personnalisés, avec un contrôle fin sur le prompt, le seed, la résolution, etc.

Qwen-Image est également optimisé pour tourner sur matériel léger grâce à la quantification FP8.

→ Apprenez à utiliser Qwen-Image avec ComfyUI

Prompter Qwen-Image

Qwen-Image comprend les prompts grâce à son modèle de langage intégré, qui traduit vos mots en instructions visuelles détaillées pour le transformateur de diffusion.

Pour générer de belles images avec Qwen-Image, commencez par structurer vos prompts autour de trois piliers : le sujet, la scène et le style. Ajoutez ensuite des détails sur le cadrage, la perspective, l’éclairage ou l’ambiance pour affiner vos créations, tout en restant concis et clair pour que le modèle interprète correctement votre demande.

→ Consultez notre guide du prompt Qwen-Image

Les différentes versions de Qwen-Image

La famille Qwen-Image se structure en trois piliers spécialisés, chacun répondant à une étape précise du flux créatif.

Qwen-Image : Le modèle de fondation

La version initiale est sortie le 4 Aout 2025, axée sur la génération "Text-to-Image" de haute qualité.

Sa force réside dans sa compréhension sémantique bilingue et sa capacité à créer des compositions complexes à partir de zéro, servant de socle aux versions suivantes.

Le 31 Décembre 2025, l’équipe Qwen AI a partagé une nouvelle version Qwen-Image 2512 qui améliore la qualité générale du modèle avec notamment une meilleur qualitée des visages et de la peau humaine (plus de réalisme), plus de détails dans les paysages et élèments naturels et un rendu du texte plus précis.

Qwen-Image-Edit : La manipulation avancée

Après une première version sortie le 17 Aout 2025, ce modèle a évolué à travers deux itérations majeures pour perfectionner l'édition guidée par le texte :

Version 2509 : A introduit le support de l'édition multi-images (fusion de sujets comme "personne + scène") et le support natif de ControlNet (profondeur, contours, squelettes).

Version 2511 : Une mise à jour majeure lancée en décembre 2025. Elle réduit considérablement la "dérive d'image" (modifications non souhaitées), améliore radicalement la cohérence des personnages dans les portraits et intègre des capacités de raisonnement géométrique pour générer des lignes de construction ou des annotations.

Qwen-Image-Layered : L'édition par couches

Lancée le 19 décembre 2025, cette version marque une rupture technologique en décomposant une image raster plate en plusieurs couches RGBA (couleur + transparence) indépendantes. Elle permet de manipuler chaque élément (objet, texte, fond) sans affecter le reste de l'image, comme dans un fichier Photoshop professionnel.

Images générées avec Qwen

https://x.com/Jr200Okada/status/1955972129348051370/photo/1

https://x.com/Alibaba_Qwen/status/1955656822532329626

https://x.com/nicekate8888/status/1956729720525164800/photo/4

https://x.com/nicekate8888/status/1956729731690459632/photo/2

https://x.com/AIojisan1952/status/1956413389640696122/photo/1

https://x.com/ComfyUI/status/1954920816300408938/photo/3

https://x.com/PrunaAI/status/1954860502594543967/photo/1

https://x.com/Emanon_14/status/1956699703552143675/photo/4

https://x.com/yoko_y__/status/1956715718021619935/photo/2

https://x.com/MisstyFlux/status/1952768134777090481/photo/2

https://x.com/gosrum/status/1955496547548008714/photo/2

https://x.com/ComfyUI/status/1954920816300408938/photo/1

https://x.com/nicekate8888/status/1956729724098728426/photo/4

Exemples d’édition avec Qwen Image Edit

Remplace le mot "Sunday" sur ce t-shirt par "Dimanche" en gardant la typographie et sans changer le reste de l'image.

Qwen-Image en détails

Points forts

Maîtrise du texte dans l'image : Qwen-Image excelle particulièrement dans le rendu de texte en IA générative. Capable de gérer des paragraphes entiers, des formules mathématiques et des détails typographiques complexes, il affiche une précision remarquable dans ce domaine. Cette capacité en fait un outil particulièrement adapté pour créer des affiches, des présentations ou tout contenu nécessitant l'intégration de texte.

Excellence multilingue : Le modèle se distingue particulièrement dans sa gestion native du chinois et de l'anglais. Selon Artificial Analysis, "Qwen-Image demonstrates particularly strong text rendering capabilities", ce qui le positionne parmi les modèles les plus performants sur le marché pour les contenus multilingues.

Édition intelligente : Au-delà de la simple génération, Qwen-Image propose des fonctionnalités d'édition sophistiquées. Il peut modifier le texte déjà présent dans une image, effectuer des transferts de style, ou manipuler des éléments spécifiques tout en préservant la cohérence visuelle globale.

Performances de haut niveau : Qwen-Image se positionne parmi les meilleurs modèles open-source actuels. Selon le classement Artificial Analysis Image Arena, il surpasse HiDream-I1-Dev et affiche une qualité comparable à des modèles propriétaires comme Imagen 3 et FLUX.1, confirmant sa place dans le top des modèles disponibles.

Polyvalence créative : Le modèle s'adapte remarquablement à diverses esthétiques, du photoréalisme aux styles artistiques variés, offrant aux créateurs une flexibilité exceptionnelle pour leurs projets.

Qwen Image Edit est également remarquable :

Édition de précision chirurgicale : Qwen Image Edit peut effectuer des modifications ultra-précises comme "enlever un brin de cheveux" selon les mots du chercheur Junyang Lin, tout en préservant parfaitement les zones environnantes.

Éditions itératives : Capacité unique d'effectuer des corrections successives sur une même image, permettant un affinement progressif jusqu'au résultat parfait.

Préservation contextuelle : L'architecture de double encodage garantit que seules les zones ciblées sont modifiées, maintenant la cohérence visuelle globale.

L'innovation Qwen-Image-Layered

Le modèle Layered utilise un VLD-MMDiT pour prédire intelligemment les zones occlues (inpainting automatique du fond derrière les objets). Le Layer3D RoPE ajoute une dimension de profondeur mathématique permettant au modèle de comprendre la hiérarchie des couches.

Capacités de l'édition par couches

Décomposition récursive : Une couche peut elle-même être décomposée en sous-couches pour un raffinement infini.

Opérations élémentaires fidèles : Déplacement libre, redimensionnement sans distorsion et recoloration isolée d'un seul élément.

Exportation professionnelle : Les résultats peuvent être exportés directement aux formats PSD (Photoshop), PPTX (PowerPoint) ou ZIP.

Performances et contraintes techniques

Qwen-Image-Layered surpasse les méthodes de segmentation classiques (comme SAM) en générant des canaux alpha beaucoup plus nets. Sur le benchmark Crello, il atteint un score de Alpha soft IoU de 0,757, contre environ 0,52 pour les méthodes basées sur la segmentation + inpainting. Cependant, cette puissance exige des ressources importantes : le processus de décomposition peut durer environ 1,5 minute et nécessiter jusqu'à 65 Go de VRAM pour les résolutions les plus élevées.

Architecture & Détails techniques

Architecture MMDiT moderne

Qwen-Image repose sur une architecture MMDiT (Multimodal Diffusion Transformer) de 20 milliards de paramètres, une approche qui intègre nativement texte et image dans un seul transformeur. Cette architecture se distingue des approches classiques par sa capacité à maintenir la cohérence sémantique lors des opérations d'édition.

Le processus se déroule en trois étapes :

Encodage : Un encodeur vision-langue (Qwen2.5-VL) extrait la signification du texte

Génération : Le module MMDiT produit un vecteur latent d'image

Décodage : Un décodeur VAE reconstruit l'image finale

Apprentissage progressif (Curriculum Learning)

La formation de Qwen-Image suit une stratégie d'apprentissage progressive particulièrement sophistiquée :

Phase 1 : Images sans texte ou textes simples

Phase 2 : Prompts de complexité croissante

Phase 3 : Scénarios complexes avec paragraphes longs

Cette approche renforce progressivement la capacité du modèle à intégrer du texte de manière naturelle et cohérente.

Formation multi-tâches

Le modèle est formé simultanément sur trois tâches complémentaires :

Text-to-Image : Génération d'images à partir de texte

Text+Image-to-Image : Modification guidée par texte

Image-to-Image : Reconstruction et édition

Pipeline de données massif

L'entraînement s'appuie sur un pipeline sophistiqué incluant :

Collecte de données à grande échelle

Filtrage et annotation automatisés

Synthèse d'images avec intégration de texte

Équilibrage des corpus multilingues

Extension vers l'édition spécialisée

Qwen Image Edit hérite de l'architecture MMDiT de base mais l'enrichit avec :

Encodage dual : Traitement parallèle sémantique et reconstructif

Préservation sélective : Algorithmes avancés pour protéger les zones non éditées

Édition itérative : Capacité d'effectuer des corrections successives

Compréhension contextuelle : Analyse fine des relations spatiales et sémantiques

Capacités d'édition avancées :

Modification de texte bilingue (anglais/chinois) avec préservation typographique

Édition chirurgicale d'objets individuels

Transferts de style localisés

Corrections itératives par zones délimitées

Performances de Qwen-Image

Qwen-Image démontre des performances solides sur les benchmarks de référence, se positionnant comme un des leaders des modèles open-source :

Benchmarks de texte complexe : Résultats remarquables sur LongText-Bench, ChineseWord et TextCraft, dépassant plusieurs concurrents dans le rendu de texte multilingue.

Classement général : Reconnu parmi les meilleurs modèles open-source par Artificial Analysis, surpassant des modèles établis comme HiDream-I1-Dev.

Qualité globale : Performances comparables à des modèles propriétaires premium comme Imagen 3 et FLUX.1 Kontext [pro], tout en restant entièrement libre et open-source.

Évaluation communautaire : Le modèle utilise AI Arena, une plateforme d'évaluation basée sur le système Elo, permettant une comparaison transparente et dynamique avec les autres modèles du marché.

Disponibilité et Licences

Modèle open-source complet : Qwen-Image est publié sous licence Apache 2.0, autorisant une utilisation libre y compris commerciale sans redevances.

Formats disponibles :

Versions de précision entière et quantisées

Formats safetensors pour une utilisation sécurisée

Adaptateurs LoRA pour l'affinement stylistique

Support technique : Documentation complète, tutoriels et exemples d'intégration disponibles, avec une communauté active sur GitHub et les forums spécialisés.

Qwen-Image