
Alibaba vient de publier la version 2511 de Qwen-Image-Edit, et cette mise à jour mérite vraiment qu'on s'y attarde. Si vous avez déjà testé les versions précédentes, vous savez que le modèle était déjà solide pour l'édition d'images. Mais cette nouvelle itération franchit un cap important, notamment sur la consistance des personnages et l'édition multi-personnes.
Qwen-Image-Edit 2511
Ce qui change vraiment
La grande star de cette mise à jour, c'est sans conteste l'amélioration de la consistance des personnages. Vous pouvez maintenant prendre un portrait et le transformer dans différents contextes en gardant vraiment l'identité de la personne. On ne parle pas juste de traits grossièrement similaires, mais d'une vraie préservation des caractéristiques faciales, même quand on demande des transformations créatives.

L'autre amélioration majeure concerne l'édition multi-personnes. La version 2509 gérait déjà bien les portraits individuels, mais assembler plusieurs personnes dans une même composition restait délicat. Avec la 2511, le modèle peut fusionner deux images de personnes différentes dans un plan de groupe cohérent, avec une gestion correcte de l'éclairage et des proportions entre les sujets. C'est particulièrement utile pour les créateurs de contenu qui ont besoin de composer des visuels de groupe sans avoir tous les participants physiquement présents.

Intégration des LoRA communautaires
Depuis la sortie initiale de Qwen-Image-Edit, la communauté a développé pas mal de LoRA pour étendre les capacités du modèle. L'équipe d'Alibaba a fait un choix malin : intégrer directement les LoRA les plus populaires dans le modèle de base. Résultat, vous n'avez plus besoin de jongler avec des fichiers externes pour accéder à certaines fonctionnalités avancées.
Deux exemples concrets : le contrôle de l'éclairage fonctionne maintenant nativement, sans avoir à charger quoi que ce soit. Vous pouvez modifier l'ambiance lumineuse d'une scène directement via votre prompt. Même chose pour la génération de nouveaux points de vue sur un objet, une fonctionnalité qui nécessitait auparavant un LoRA dédié pour obtenir les meilleurs résultats.

Cette intégration simplifie considérablement le workflow, surtout pour ceux qui ne veulent pas passer leur temps à tester différentes combinaisons de LoRA et de paramètres.
Autres améliorations
La version 2511 apporte aussi quelques améliorations ciblées :
- Côté applications professionnelles, le modèle gère mieux les variations de produits en série et le remplacement de matériaux, ce qui simplifie la création de catalogues ou de présentations clients.
- Le raisonnement géométrique a également progressé : le modèle peut maintenant générer des lignes de construction et des annotations techniques, utiles pour la documentation ou les schémas explicatifs.
- Enfin, la dérive d'image lors d'éditions successives (drift) est mieux contrôlée, permettant un travail itératif plus stable.
Utilisation pratique
Côté technique, rien de bouleversant : le modèle fonctionne toujours avec la bibliothèque Diffusers. Il faut installer la dernière version depuis GitHub, et le code reste similaire aux versions précédentes.
Les paramètres recommandés sont de 40 étapes d'inférence avec un true_cfg_scale à 4.0. C'est un bon compromis entre qualité et temps de génération. Le modèle supporte toujours l'édition d'une ou plusieurs images simultanément selon votre besoin.
Niveau matériel, comptez une carte graphique récente avec suffisamment de VRAM. Des versions quantifiées en FP8 sont disponibles si vous avez des contraintes mémoire, et la communauté a aussi créé des variantes optimisées qui réduisent le nombre d'étapes d'inférence.
Disponibilité et licence
Le modèle est disponible sur Hugging Face et Modescope, toujours sous licence Apache 2.0. Vous pouvez l'utiliser librement pour des projets personnels ou commerciaux sans restriction particulière.
Un espace de démo est également accessible si vous voulez tester les capacités avant de l'installer localement. C'est pratique pour se faire une idée concrète des améliorations par rapport à la version précédente.
ComfyUI propose aussi des workflow adaptés à cette nouvelle version dans sa galerie de templates. Ils peuvent notamment être utilisé directement sur Comfy Cloud.

Cette mise à jour de Qwen-Image-Edit ne révolutionne pas le domaine, mais elle apporte des améliorations solides là où ça compte vraiment. La consistance des personnages et l'édition multi-personnes fonctionnent nettement mieux, l'intégration des LoRA simplifie l'utilisation, et les ajouts pour les applications industrielles montrent qu'Alibaba écoute les besoins des utilisateurs professionnels.
Si vous utilisez déjà Qwen-Image-Edit dans vos workflows, cette version vaut clairement le coup d'œil. Et si vous hésitiez à vous y mettre à cause des limitations sur la consistance des personnages, c'est peut-être le bon moment pour essayer.
Ecrit par



