
Les équipes d'Alibaba viennent de publier Qwen-Image 2512, une mise à jour de leur modèle de génération d'images text-to-image. Quatre mois après la sortie de la version initiale en août dernier, cette nouvelle itération s'attaque aux défauts qui trahissaient trop facilement l'origine artificielle des images générées.
Qwen-Image 2512
Trois axes d'amélioration
La mise à jour de décembre se concentre sur trois domaines où la version précédente montrait ses limites.
Premier chantier : le rendu des visages humains, qui bénéficie d'une refonte complète. Les détails faciaux gagnent en richesse, l'environnement contextuel devient plus cohérent, et surtout, cette impression de "plastique" caractéristique des générations IA s'estompe considérablement. Les cheveux, par exemple, ne sont plus cette masse indistincte qui brouillait les anciennes versions : chaque mèche se distingue maintenant avec précision.

Côté paysages et textures naturelles, le modèle fait également un bond en avant. La végétation, les reflets sur l'eau, la fourrure des animaux, tous ces éléments gagnent en finesse de détails. Là où la version d'août peinait à différencier les nuances de couleurs dans le feuillage ou à rendre les embruns d'une cascade, la version 2512 capture ces subtilités avec une fidélité remarquable.

Enfin, troisième amélioration notable : le rendu du texte dans les images. Ce point était déjà un point fort du modèle original, mais cette nouvelle version pousse encore plus loin. La disposition typographique devient plus cohérente, les compositions multimodales (texte + image) gagnent en précision, et le modèle se montre capable de générer des infographies complexes ou même des présentations complètes avec une mise en page professionnelle.
Le top de l’open-source
Alibaba revendique des résultats impressionnants pour son modèle, s'appuyant sur plus de 10 000 évaluations en aveugle menées sur AI Arena, leur propre plateforme de tests. Selon ces benchmarks internes, Qwen-Image 2512 décroche la première place parmi les modèles open source et se classe quatrième toutes catégories confondues, devançant plusieurs solutions propriétaires.

Les chiffres avancés placent le modèle devant d'autres références comme HunyuanImage-3.0 ou Z-image. Ces résultats restent néanmoins à confirmer via des évaluations indépendantes sur d'autres plateformes de comparaison pour avoir une vision plus objective des performances réelles du modèle face à la concurrence.
Comment l'utiliser ?
Le modèle est disponible dès maintenant sur Hugging Face et peut être testé directement via l'interface de Qwen Chat. Une version communautaire quantisée GGUF a également déjà été partagée.

Pour les développeurs qui souhaitent l'intégrer dans leurs projets, l'installation se fait via la bibliothèque Diffusers. Quelques lignes de code suffisent pour charger le pipeline et commencer à générer des images en spécifiant les dimensions souhaitées, avec plusieurs ratios d'aspect prédéfinis (1:1, 16:9, 4:3, etc.).
Télécharger Qwen-Image 2512 permet aussi de l’utiliser directement à la place de l’ancienne version dans des workflow ComfyUI.
Des plateformes partenaires comme fal ou replicate l’ont d’ores et déjà ajouté à leur offre de modèle en API. Et vous pouvez être certains qu’il sera prochainement intégré à la plupart des générateurs d’image Qwen en ligne.
Une famille qui s'étoffe
Cette sortie s'inscrit dans une trajectoire de développement soutenue. Depuis le lancement du projet en mai 2025, l'équipe Qwen a multiplié les releases : la version initiale en août, puis Qwen-Image-Edit quelques jours plus tard pour l'édition d'images, et plus récemment Qwen-Image-Layered en décembre, qui permet de décomposer une image en calques RGBA modifiables indépendamment.
Qwen-Image 2512 vient donc renforcer une gamme déjà bien fournie, avec un positionnement clair : offrir une alternative open source performante pour la génération d'images, sans compromis sur la qualité.
Ecrit par

