SDXL Turbo - La génération ultra-rapide de Stability AI

Tags

Do not index

mydate

Flag

Publish

Après l’annonce de Stable Video Diffusion la semaine dernière, Stability AI fait de nouveau le buzz avec un nouveau modèle de génération d’image en temps réel : SDXL Turbo.

Ce nouveau modèle permet de la génération d’image en temps réel (ou presque) en utilisant une nouvelle technique appelée Adversarial Diffusion Distillation (ADD).

La technique permet en effet une génération en une seule étape (step) là où les modèles comme SDXL 1.0 en ont besoin de plusieurs dizaine. Le résultat est un immense gain de performance qui diminue les besoins en puissances de calcul et le temps nécessaire pour créer une image - sans sacrifier pour autant à la qualité de l’image.

⚡

SDXL Turbo en bref

SDXL Turbo atteint des performances de pointe grâce à la technologie de distillation ADD qui permet de générer des images en une seule étape avec une qualité sans précédent, en réduisant le nombre d'étapes nécessaires de 50 à une seule.

La création du modèle repose s'appuie sur une combinaison d'apprentissage contradictoire et de distillation de scores détaillées dans ce document partagé par les chercheurs de Stability AI.

Le modèle est disponible sur Hugging Face sous une licence de recherche qui permet une utilisation personnelle et non commerciale.

SDXL Turbo et sa capacité de génération en temps réel peuvent également être testés sur Clipdrop, la plateforme d'édition d'images de Stability AI.

Exemples d’images générées avec SDXL Turbo

Lors de tests de comparaison avec d'autres modèles de diffusion de pointe, les évaluateurs humains ont systématiquement classé les sorties d'images de SDXL Turbo comme étant de meilleure qualité tout en nécessitant beaucoup moins d'étapes d'inférence.

Grâce à la technique ADD, SDXL Turbo combine donc les forces des modèles de diffusion réputés pour leur qualité et celles des GANs connus pour leur vitesse.

En termes pratiques, la vitesse de SDXL Turbo est remarquable. Sur un GPU A100, le modèle peut générer une image 512x512 en un peu plus de 200 millisecondes, un délai qui comprend l'encodage, le débruitage et le décodage rapides.

A ce stade, SDXL Turbo connait cependant quelques limites importantes :

Résolution fixe : L'une des principales limitations est la résolution fixe des images générées. Actuellement, SDXL Turbo ne peut produire que des images à une résolution de 512×512 pixels.

Rendu du texte : Le modèle a du mal à rendre un texte lisible et n’atteint pas le niveau de SDXL ou d’autres modèles dans ce domaine.

Rendu des visages : La génération correcte des visages et des personnes reste également très imparfaite.

Photoréalisme : D’une manière générale, SDXL Turbo n’atteint pas un rendu photoréaliste parfait.

Auto-codage : Le composant d'auto-codage de SDXL Turbo est Lossy, ce qui signifie que certaines informations sont perdues au cours du processus d'encodage et de décodage des images. Cet aspect peut affecter la fidélité et le détail des images générées, en particulier lorsque des nuances subtiles sont essentielles à la composition globale de l’image.

Malgrè ces limitations, SDXL Turbo est incroyablement prometteur, en particulier en ce qui concerne ses performances. Même si certains trouveront que la résolution plus faible représente un recul par rapport aux autres modèles, l’arrivée de ce modèle reste une nouvelle excitante qui ouvre de nouveaux cas d'utilisation.

En tous cas, cela vaut vraiment la peine d’essayer SDXL Turbo qui est déjà disponible pour ComfyUi et peut être utilisé comme n’importe quel checkpoints dans d’autres interfaces comme Automatic1111 ou Fooocus (en modifiant les paramètres pour avoir une image en 512x512, avec 1 step et un cfg de 1).