
Le 4 août 2025, Alibaba Cloud a lancé officiellement Qwen-Image, un nouveau modèle de génération et d'édition d’images qui fait déjà parler de lui dans le petit monde de l’IA générative.
À la fois puissant, polyvalent et open-weight, ce modèle ambitionne de concurrencer les poids lourds du secteur comme Midjourney, Flux ou GPT-Image. Ce nouveau venu mise également sur une spécialité qui fait défaut à beaucoup de ses concurrents : l'intégration native de texte dans les images.
Qwen Image
Un modèle IA taillé pour l'image ET le texte
La grande force de Qwen-Image, c'est sa capacité à intégrer du texte lisible directement dans les images générées. Pas de hiéroglyphes illisibles ou de caractères déformés comme on voit encore trop souvent ailleurs.
Le modèle excelle particulièrement avec les langues complexes comme le chinois, mais se débrouille tout aussi bien avec l'alphabet latin.
Cette prouesse technique s'appuie sur une architecture MMDiT (Multimodal Diffusion Transformer) qui combine les modèles de diffusion avec les transformateurs. Résultat : le texte n'est plus plaqué sur l'image, il s'intègre naturellement dans la composition avec un respect des détails typographiques impressionnant.


Des performances qui font du bruit
La communauté IA ne cache pas son intérêt pour ce nouveau venu. Sur Reddit et Hugging Face, les premières démos montrent un modèle très cohérent dans ses compositions. Certains utilisateurs notent que le rendu est moins stylisé que Midjourney, mais bien plus contrôlable et lisible, ce qui le rend intéressant pour les usages professionnels (contenu réseau, visuels marketing, slides, etc.).
Les premiers benchmarks sont également positif : sur GenEval, il décroche un score de 0.91, dépassant des modèles établis comme Seedream 3.0 et GPT Image 1. Sur DPG, il affiche 88.32 points contre 85.15 pour GPT Image 1 et 83.84 pour FLUX.1.
Son autre atout ? Il est open-weight sous licence Apache 2.0. Ce n'est pas tout à fait "open source" dans le sens où on ne peut pas toujours voir ou modifier l'intégralité du code d'entraînement, mais c'est largement suffisant pour l'utiliser librement, l'adapter ou l'intégrer dans des outils personnels ou pro.

Un accueil enthousiaste
L'engouement pour le projet est palpable sur GitHub où le projet cumule déjà des milliers d'étoiles.
La communauté Reddit se montre particulièrement impressionnée par la cohérence maintenue même sur des prompts complexes. L'équipe Qwen reconnaît d'ailleurs le succès : "En raison du trafic important, si vous souhaitez tester notre démo en ligne, nous recommandons aussi de visiter DashScope, WaveSpeed et LibLib".
Les premiers retours d'utilisateurs soulignent effectivement la qualité du rendu textuel, même si certains testeurs notent que "l'adhésion au texte et aux prompts n'est pas sensiblement meilleure que Midjourney".
Ce que Qwen-Image sait faire (et bien)
- Génération d’images en tous styles : photoréalisme, anime, croquis, style impressionniste...
- Rendu de texte naturel dans les images (excellente gestion des typos, espacements, intégration visuelle)
- Édition avancée d'image : suppression ou ajout d’objets, changement de style, pose, fond...
- Compréhension visuelle : segmentation, détection d’objets, estimation de profondeur...
- Support multilingue : +100 langues gérées, avec un focus sur le chinois et l’anglais




Comment tester Qwen ?
Directement sur Qwen Chat
L'équipe d'Alibaba propose aussi sa propre interface via Qwen Chat. C’est le moyen le plus simple et le plus direct de tester Swen-Image sans rien avoir à installer ni de compte à créer :
- Rendez-vous sur chat.qwen.ai
- Choisissez Génération d’image
- Entrez votre prompt et faites Enter
- Patientez quelques instant pour voir votre image apparaitre.
En local avec ComfyUI
Pour les utilisateurs plus avancés : il est possible de télécharger les fichiers du modèle et de l’utiliser avec ComfyUI.
Cela permet des workflows personnalisés, avec un contrôle fin sur le prompt, le seed, la résolution, etc. Qwen-Image est optimisé pour tourner sur matériel léger grâce à la quantification FP8.

Un nouveau modèle qui compte
Qwen-Image n’est pas un gadget de plus. C’est un modèle sérieux, complet, et surtout accessible, qui pose de nouvelles bases pour la génération d’images avec du texte lisible et des éditions complexes. Il ne remplace pas forcément Midjourney ou Flux, mais peut au minimum les complèter utilement, avec un positionnement plus "pro" ou éditorial.
Bref, si vous créez des visuels, si vous cherchez un modèle libre, ou si vous voulez juste jouer avec une IA moderne qui en a dans le ventre… Qwen-Image vaut le coup d’œil.


Ecrit par