Stable Diffusion 3

La Nouvelle Génération d’IA de Stability AI

Stable Diffusion 3 est la la nouvelle génération d’IA text-to-image de Stability AI - l’entreprise qui a révolutionné la création visuelle en partageant le premier modèle Open Source de génération d’image par Intelligence Artificielle.
L’annonce de cette troisième version a été suivie quelques jours plus tard de la diffusion des résultats de recherches qui ont permis sa création. Le modèle n’est cependant pas encore disponible - mais vous pouvez rejoindre la liste d’attente pour obtenir un accès à la version d’essais.
notion image
🗞️
Stable Diffusion 3.0 est en phase de Beta privée - 16/03/2024
notion image
Bien que le modèle ne soit pas encore disponible à grande échelle, stability AI a ouvert une liste d'attente pour un premier aperçu en beta privée.
Les premières invitations ont été envoyées et quelques utilisateurs privilégiés ont donc accès à une version de test half-cooked encore imparfaite mais déjà impressionnante. De nouvelles invitations et un accès plus large à cette version de test devraient arriver rapidement.
Comme pour SDXL et d’autres modèles précédents, cette phase de tests est essentielle pour recueillir les informations nécessaire pour améliorer le modèle avant de le partager publiquement.
 

Qu’est ce que Stable Diffusion 3 ?

Stable Diffusion 3 est la nouvelle génération de modèles d'IA texte-image publiée par Stability AI.
Il ne s'agit pas d'un modèle unique mais d'une famille de modèles de 800M à 8B de paramètres. Pour vous donner une idée, la taille du plus petit modèle est juste un peu en dessous de celle Stable Diffusion 1.5 (1B), alors que le plus grand modèle est un peu plus grand que le modèle Stable Diffusion XL (6,6B pour la base + le refiner).
Cette conception en famille de modèles de tailles variables suit la tendance initiée par la plupart des grand modèles de langage (IA générative de texte) : Google, Meta et Mistral ont tous publié des modèles de base de différentes tailles, adaptés pour différents cas d'utilisation.
A priori, Stable Diffusion 3 permettra une utilisation commerciale, mais ce ne sera pas gratuit. En toute logique, Stability AI va en effet le publier avec licence et des conditions comparable à celles de SDXL Turbo et Stable Cascade : une version gratuite et libre d’utilisation pour l’usage personel et la recherche d’un coté et de l’autre un abonnement payant pour les entreprises et les usages commerciaux.

Le nouveau Stable Diffusion

L’année 2023 a marqué une étape importante pour l'intelligence artificielle open-source avec Stable Diffusion comme meilleur exemple d'IA entièrement ouverte. Nous avons assisté à des progrès significatifs avec SDXL, ainsi qu'à un nombre incalculable d'ajustements et de modifications pour créer des images et des vidéos d'un réalisme saisissant.
L’évolution vers Stable Diffusion 3 promet de nombreuses améliorations - bien que beaucoup restent encore peu détaillées à ce jours - et représente probablement la plus importante mise à jour jamais vue pour Stable Diffusion. Cette nouvelle version vise à améliorer les performances sur des GPU plus petits tout en revendiquant des capacités augmentées, incluant la gestion d'images, de vidéos, et de 3D.
Stable Diffusion 3 est entrainé avec de 800 millions à 8 milliards de paramètres, offrant une gamme variée de modèles pour répondre aux besoins créatifs en fonction de la capacité des GPU. Elle combine une architecture de transformateur de diffusion et de correspondance de flux, une avancée technique significative. Cette mise à jour met également l'accent sur des pratiques d'IA sûres et responsables pour prévenir les mauvais usages.
L’arrivée de Stable Diffusion 3, avec ses nombreuses améliorations comme le traitement du texte et sa capacité à gérer des entrées multimodales, pourrait marquer l'une des sorties les plus significatives de l'année 2024, surpassant éventuellement Gemini (Google) et Sora (OpenAI). Stability AI promet en effet une intégration des capacités de vidéo et de 3D dans un seul modèle, une première dans le domaine.

Améliorations et points forts

Sur 𝕏, plusieurs membre de l’équipe de Stability partagent des images images générées via Stable Diffusion 3 qui montrent une amélioration de la qualité, notamment dans la finesse des détails. L’intelligence artificielle arrive même à écrire des phrases complètes, une tâche habituellement ardue pour les modèles de génération d’images.
https://twitter.com/EMostaque/status/1762528378136019182
https://twitter.com/andrekerygma/status/1762652265926525215
https://twitter.com/Lykon4072/status/1761445362831606102
👀
Consultez le hashtag #SD3 sur 𝕏 pour voir les dernières images (et actualités) partagées par Stability AI

Textes précis

notion image
Une des principales faiblesses des versions précédentes était la génération de textes. Stable Diffusion 1.5 était très mauvais dans ce domaine. SDXL est un peu meilleur mais a encore du mal à écrire plus qu’un mot - et comment régulièrement des fautes.
Plus récemment, Stable Cascade, un autre modèle créé par Stability AI, a montré des améliorations intéressante. Mais ca reste encore très aléatoire. Et les phrases longues sont tout simplement impossible à obtenir.
 
Mais cela va changer avec Stable Diffusion 3 qui s'enorgueillit d'une orthographe et d'une cohérence du texte améliorées. Il sera nettemet plus fiable pour des tâches comme l'écriture de légendes et la création de logos.
Les exemples partagés par Stability AI et son équipe reprennent de nombreuse images avec un ou plusieurs textes aux rendus excellent - y compris pour des textes plus longs que de simples mots !
notion image

Meilleur respect des instructions

Prompt : Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat
Prompt : Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat
Une des faiblesse de SDXL et Stable Cascade est qu'ils ne suivent pas les instructions et les prompts complexes aussi bien que DALL·E 3.
L'une des innovations de DALL·E 3 était l'utilisation de légendes d'images très précises lors de l'entraînement du modèle, de manière à lui apprendre à bien suivre les prompts complexes. Il semble aujourd’hui que Stability AI se soit inspiré de cette méthode pour améliorer Stable Diffusion.
Stable Diffusion 3 devrait donc être au moins aussi bon que DALLE 3 dans le suivi des instructions.

Vitesse et facilité de déploiement

L’un des objectifs de Stability AI est de rendre l’IA générative accessible en partageant des modèles qui peuvent être utilisé sur des ordinateur de particuliers.
D’après les premiers essais, vous pourrez faire tourner localement la plus grande version Stable Diffusion 3 à l’aide d'une carte vidéo avec 24 Go de RAM. Ce pré-requis sera probablement réduit après la sortie, lorsque la communautés commencera à tester et mettre au point toutes sortes d'optimisations sur les PC grand public.
Le benchmark initial est de 34 secondes pour une image en 1024×1024 sur la carte vidéo RTX 4090 (50 étapes). Ici aussi, nous pouvons logiquement nous attendre à grande marge de progression dans les semaines qui suivront la sortie de Stable Diffusion 3.
notion image

Génération 3D et vidéo

Prompt: Photo of an 90's desktop computer on a work desk, on the computer screen it says "welcome". On the wall in the background we see beautiful graffiti with the text "SD3" very large on the wall.
Prompt: Photo of an 90's desktop computer on a work desk, on the computer screen it says "welcome". On the wall in the background we see beautiful graffiti with the text "SD3" very large on the wall.
Bien que le modèle soit encore en cours de développement, Stability AI explore l'utilisation de stable Diffusion 3 pour générer des images 3D et même des vidéos. Ce qui ouvrira sans aucun doutes des possibilités intéressantes pour de futures applications.

Sécurité

Suivant l’évolution du secteur de l’IA générative et les bonnes pratiques qui se mettent en place, il est très probable que Stable Diffusion 3 sera prévu pour ne générer que des images SFW (Safe for Work) comme c’est déjà le cas pour Stable Cascade.
De plus, Stability AI a mis en place un système qui permet aux artistes qui ne souhaitent pas que leur travail figure dans le modèle de s'en retirer. Stable Diffusion 3 devrait donc être moins susceptible d'être utilisé à mauvais escient et pour enfreindre les droits d’auteurs - mais cela risque de réduire la variété des styles disponibles.
 
Cookie Monster testifying before the International Court of Justice in The Hague
Cookie Monster testifying before the International Court of Justice in The Hague

Changements et nouveautés

Nouvelle architecture

Stable Diffusion 3.0 utilise une architecture basée sur des Diffusion Transformers. C’est un changement notable par rapport à Stable Diffusion 1 et 2 qui utilisaient une architecture basée sur U-Net utilisé dans Stable Diffusion 1 et 2.
L’un des interêts de cette technique empruntée aux modèles de languages, c’est qu’elle permet une amélioration prévisible des performances au fur et à mesure de l’augmentation de la taille du modèle. Cette nouvelle approche participe également à l’amélioration de la qualité des images, des performances et de la compréhension du texte.
notion image
De plus, la nouvelle architecture se veut mutimodale en séparant les poids pour les représentations d'images et de langage tout en assurant un lien de cohèrence entre les deux.
Une autre des évolutions de SD3 réside dans son utilisation d'un échantillonnage par de flux rectifié (RF). Cette innovation permet des chemins d'inférence plus directs et réduit le nombre d'étapes nécessaires pour générer des images, tout en maintenant ou améliorant la performance.

Trois encodeurs de textes

Stable Diffusion 1 utilisait un seul encodeur de texte (CLIP).
Stable Diffusion XL a ensuite innové en utilisant deux encodeurs (CLIP et OpenCLIP).
Stable Diffusion 3 va encore plus loin et utilisera jusqu’à trois encodeurs : CLIP L/14 (OpenAI), OpenCLIP bigG/14 et T5-v1.1-XXL. Le troisième (T5) est cependant assez gros et pourra a priori être supprimé sans perte de qualité pour les génération qui ne comprennent pas de texte.

Actualités et articles sur Stable Diffusion 3.0