Stable Diffusion 3

La Nouvelle Génération d’IA de Stability AI

Stable Diffusion 3 est la nouvelle génération d’IA text-to-image de Stability AI - l’entreprise qui a révolutionné la création visuelle en partageant le premier modèle Open Source de génération d’image par Intelligence Artificielle.
L’annonce de cette troisième version a été suivie quelques jours plus tard de la diffusion des résultats de recherches qui ont permis sa création.
Le modèle a été partagé publiquement dans une version allégée nommée SD3 Medium. Une version plus puissante peut également être utilisée avec l’ API de Stability AI.
notion image
🗞️
Stable Diffusion 3.0 Medium est disponible - 12/06/2024
notion image
Le modèle est désormais disponible au téléchargement sur HuggingFace et peut être utilisé librement pour un usage non-commercial.
Une licence Community permettant l’usage commercial est disponible gratuitement pour les créateur et entreprise qui génère moins d’1 million de dollars de revenus annuels.

Qu’est ce que Stable Diffusion 3 ?

Stable Diffusion 3 est la nouvelle génération de modèles d'IA texte-image publiée par Stability AI.
Il ne s'agit pas d'un modèle unique mais d'une famille de modèles de 800M à 8B de paramètres. Pour vous donner une idée, la taille du plus petit modèle est juste un peu en dessous de celle Stable Diffusion 1.5 (1B), alors que le plus grand modèle est un peu plus grand que le modèle Stable Diffusion XL (6,6B pour la base + le refiner).
Cette conception en famille de modèles de tailles variables suit la tendance initiée par la plupart des grand modèles de langage (IA générative de texte) : Google, Meta et Mistral ont tous publié des modèles de base de différentes tailles, adaptés pour différents cas d'utilisation.

Le nouveau Stable Diffusion ?

L’année 2023 a marqué une étape importante pour l'intelligence artificielle open-source avec Stable Diffusion comme meilleur exemple d'IA entièrement ouverte. Nous avons assisté à des progrès significatifs avec SDXL, ainsi qu'à un nombre incalculable d'ajustements et de modifications pour créer des images et des vidéos d'un réalisme saisissant.
L’évolution vers Stable Diffusion 3 offre de nombreuses améliorations et représente probablement la plus importante mise à jour jamais vue pour Stable Diffusion. Cette nouvelle version vise à améliorer les performances sur des GPU plus petits tout en revendiquant des capacités augmentées, incluant la gestion d'images, de vidéos, et de 3D.
Stable Diffusion 3 est entrainé avec de 800 millions à 8 milliards de paramètres, offrant une gamme variée de modèles pour répondre aux besoins créatifs en fonction de la capacité des GPU. Elles combinent une architecture de transformateur de diffusion et de correspondance de flux, une avancée technique significative. Cette mise à jour met également l'accent sur des pratiques d'IA sûres et responsables pour prévenir les mauvais usages.
L’arrivée de Stable Diffusion 3, avec ses nombreuses améliorations comme le traitement du texte et sa capacité à gérer des entrées multimodales, pourrait marquer l'une des sorties les plus significatives de l'année 2024, surpassant éventuellement Gemini (Google) et Sora (OpenAI). Stability AI promet en effet une intégration des capacités de vidéo et de 3D dans un seul modèle, une première dans le domaine.

Améliorations et points forts

Sur 𝕏, plusieurs membre de l’équipe de Stability ont partagés des images images générées via Stable Diffusion 3 qui montrent une amélioration de la qualité, notamment dans la finesse des détails. L’intelligence artificielle arrive même à écrire des phrases complètes, une tâche habituellement ardue pour les modèles de génération d’images.
https://twitter.com/EMostaque/status/1762528378136019182
https://twitter.com/andrekerygma/status/1762652265926525215
https://twitter.com/Lykon4072/status/1761445362831606102

Textes précis

notion image
Une des principales faiblesses des versions précédentes était la génération de textes. Stable Diffusion 1.5 était très mauvais dans ce domaine. SDXL est un peu meilleur mais a encore du mal à écrire plus qu’un mot - et comment régulièrement des fautes.
Plus récemment, Stable Cascade, un autre modèle créé par Stability AI, a montré des améliorations intéressante. Mais ca reste encore très aléatoire. Et les phrases longues sont tout simplement impossible à obtenir.
 
Mais cela va changer avec Stable Diffusion 3 qui s'enorgueillit d'une orthographe et d'une cohérence du texte améliorées. Il sera nettemet plus fiable pour des tâches comme l'écriture de légendes et la création de logos.
Les exemples partagés par Stability AI et son équipe reprennent de nombreuse images avec un ou plusieurs textes aux rendus excellent - y compris pour des textes plus longs que de simples mots !
notion image

Meilleur respect des instructions

Prompt : Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat
Prompt : Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat
Une des faiblesse de SDXL et Stable Cascade est qu'ils ne suivent pas les instructions et les prompts complexes aussi bien que DALL·E 3.
L'une des innovations de DALL·E 3 était l'utilisation de légendes d'images très précises lors de l'entraînement du modèle, de manière à lui apprendre à bien suivre les prompts complexes. Il semble aujourd’hui que Stability AI se soit inspiré de cette méthode pour améliorer Stable Diffusion.
Stable Diffusion 3 devrait donc être au moins aussi bon que DALLE 3 dans le suivi des instructions.

Vitesse et facilité de déploiement

L’un des objectifs de Stability AI est de rendre l’IA générative accessible en partageant des modèles qui peuvent être utilisé sur des ordinateur de particuliers.
D’après les premiers essais, vous pourrez faire tourner localement la plus grande version Stable Diffusion 3 à l’aide d'une carte vidéo avec 24 Go de RAM. Ce pré-requis sera probablement réduit après la sortie, lorsque la communautés commencera à tester et mettre au point toutes sortes d'optimisations sur les PC grand public.
Le benchmark initial est de 34 secondes pour une image en 1024×1024 sur la carte vidéo RTX 4090 (50 étapes). Ici aussi, nous pouvons logiquement nous attendre à grande marge de progression dans les semaines qui suivront la sortie de Stable Diffusion 3.
notion image

Génération 3D et vidéo

Prompt: Photo of an 90's desktop computer on a work desk, on the computer screen it says "welcome". On the wall in the background we see beautiful graffiti with the text "SD3" very large on the wall.
Prompt: Photo of an 90's desktop computer on a work desk, on the computer screen it says "welcome". On the wall in the background we see beautiful graffiti with the text "SD3" very large on the wall.
Bien que le modèle soit encore en cours de développement, Stability AI explore l'utilisation de stable Diffusion 3 pour générer des images 3D et même des vidéos. Ce qui ouvrira sans aucun doutes des possibilités intéressantes pour de futures applications.

Sécurité

Suivant l’évolution du secteur de l’IA générative et les bonnes pratiques qui se mettent en place, il est très probable que Stable Diffusion 3 sera prévu pour ne générer que des images SFW (Safe for Work) comme c’est déjà le cas pour Stable Cascade.
De plus, Stability AI a mis en place un système qui permet aux artistes qui ne souhaitent pas que leur travail figure dans le modèle de s'en retirer. Stable Diffusion 3 devrait donc être moins susceptible d'être utilisé à mauvais escient et pour enfreindre les droits d’auteurs - mais cela risque de réduire la variété des styles disponibles.
 
Cookie Monster testifying before the International Court of Justice in The Hague
Cookie Monster testifying before the International Court of Justice in The Hague

Changements et nouveautés

Nouvelle architecture

Stable Diffusion 3.0 utilise une architecture basée sur des Diffusion Transformers. C’est un changement notable par rapport à Stable Diffusion 1 et 2 qui utilisaient une architecture basée sur U-Net utilisé dans Stable Diffusion 1 et 2.
L’un des interêts de cette technique empruntée aux modèles de languages, c’est qu’elle permet une amélioration prévisible des performances au fur et à mesure de l’augmentation de la taille du modèle. Cette nouvelle approche participe également à l’amélioration de la qualité des images, des performances et de la compréhension du texte.
notion image
De plus, la nouvelle architecture se veut mutimodale en séparant les poids pour les représentations d'images et de langage tout en assurant un lien de cohèrence entre les deux.
Une autre des évolutions de SD3 réside dans son utilisation d'un échantillonnage par de flux rectifié (RF). Cette innovation permet des chemins d'inférence plus directs et réduit le nombre d'étapes nécessaires pour générer des images, tout en maintenant ou améliorant la performance.

Trois encodeurs de textes

Stable Diffusion 1 utilisait un seul encodeur de texte (CLIP).
Stable Diffusion XL a ensuite innové en utilisant deux encodeurs (CLIP et OpenCLIP).
Stable Diffusion 3 va encore plus loin et utilisera jusqu’à trois encodeurs : CLIP L/14 (OpenAI), OpenCLIP bigG/14 et T5-v1.1-XXL. Le troisième (T5) est cependant assez gros et pourra a priori être supprimé sans perte de qualité pour les génération qui ne comprennent pas de texte.

Les Licences Stability AI

Même si (certains) modèles Stable Diffusion 3 sont partagé librement et disponible au téléchargement, leur utilisation commerciale n’est pas forcément gratuite.
Stability AI, partage en effet le modèle avec 3 Licence différentes : Non-Commercial (Gratuit) destinée à la recherche et aux développement, Community (Gratuit) pour les créateur et l’utilisation commerciale par des entreprise gagnant moins d’un million de $ par an et Entreprise (Payant) pour les enreprise qui gagne plus d’1 million de $ par an.
notion image

Actualités et articles sur Stable Diffusion 3.0