Stable Diffusion 3 : Stability AI partage ses recherches

Do not index

Flag

Publish

feather:link

mydate

Tags

Après avoir annoncé l’arrivée prochaine d’un nouveau Stable Diffusion la semaine dernière, Stability AI vient de partager les documents de recherches qui dévoilent le fonctionnement du modèle et ses capacités.

Selon les résultats partagés, Stable Diffusion 3 (SD3) marque une nouvelle avancée technologique qui se distingue nettement de ses concurrents, tels que DALL·E 3, Midjourney v6 et Ideogram v1, en termes d'adhérence aux directives et de qualité typographique lors des évaluations humaines.

📌

L’info en super bref

Stability AI a partagé les résultats de recherche qui détaillent les technologies derrière Stable Diffusion 3.

La nouvelle architecture Multimodal Diffusion Transformer (MMDiT) utilise des ensembles de poids séparés pour les représentations d'images et de langage.

Stable Diffusion 3 surpasse les autres IA de génération d'images de pointe en matière de typographie et d'adhérence aux prompts.

Nouvelle Architecture

Au cœur de SD3 se trouve l'architecture Multimodal Diffusion Transformer (MMDiT), qui sépare les poids pour les représentations d'images et de langage, affinant ainsi la compréhension du texte et les capacités d'orthographe.

Cela permet au modèle de surpasser les systèmes établis dans la génération de visuels fidèles et alignés sur le texte, notamment grâce à son processus d'apprentissage amélioré. Cela ui donne également une capacité multimodale avec un potentiel d’intégration pour d’autres type de données comme la vidéo.

Une autre des évolutions de SD3 réside dans son utilisation d'une formulation de flux rectifié (RF). Cette innovation permet des chemins d'inférence plus directs et réduit le nombre d'étapes nécessaires pour générer des images, tout en maintenant ou améliorant la performance.

De plus, SD3 présente une flexibilité remarquable en termes d'encodeurs de texte, offrant la possibilité de réduire les exigences de mémoire sans sacrifices majeurs sur la qualité des images générées.

SD3, premier de classe

Les tests comparatifs, incluant une variété de modèles Open Source et propriétaires, révèlent que SD3 se positionne en tête dans plusieurs domaines clés, y compris l'esthétique visuelle, le suivi des prompts et la génération de texte.

En termes d'infrastructure matérielle, même le modèle le plus large de SD3, avec 8 milliards de paramètres, est gérable sur des équipements grand public, démontrant ainsi une avancée significative dans la démocratisation de la technologie de pointe en génération d'images.

Ce progrès notoires soulignent l'engagement continu de Stability AI vers l'amélioration et l'accessibilité des technologies de génération de contenu AI, promettant ainsi une révolution dans la manière dont nous créons et interagissons avec les médias numériques.

Pour plus de détails sur cette percée et ses implications futures, la communauté est invitée à consulter le document de recherche complet et à rejoindre les discussions sur le Discord de Stability AI.

🔗

Liens et sources