Sortie de Stable Diffusion 3.5

Do not index

Flag

Publish

feather:link

mydate

Un retour inattendu

Le lancement de Stable Diffusion 3.5 par Stability est une vraie surprise.

Dans un paysage dominé par l'ascension fulgurante de Flux et après la déception de Stable Diffusion 3, peu anticipaient une telle annonce.

En effet, la version 3.0, sortie en juin dernier, n'avait pas convaincu. Sa qualité en deçà des attentes et ses licences d’utilisations restrictive avaient poussé de nombreux créateurs vers d'autres solutions.

Cette situation, combinée aux rumeurs sur les difficultés financières de Stability AI, laissait présager un déclin progressif de la série Stable Diffusion, tandis que Flux s'imposait comme l'héritier spirituel de SDXL auprès de la communauté.

Mais Stability AI tente un véritable retour, avec une proposition qui semble avoir tiré les leçons du passé : des modèles plus performants et une licence plus permissive.

Stable Diffusion 3.5

Les trois variantes du modèle

Comme Flux et la plupart des modèles modernes, Stable Diffusion 3.5 est publié en plusieurs variantes, adaptées à différents usages.

Stable Diffusion 3.5 Large (disponible immédiatement) : Un modèle de 8 milliards de paramètres capable de générer des images en résolution 1 mégapixel. Cette version phare se distingue par sa qualité et sa fidélité aux prompts.

Stable Diffusion 3.5 Large Turbo (disponible immédiatement) : Une version optimisée du modèle Large qui génère des images en seulement 4 étapes, privilégiant la vitesse sans compromettre la qualité.

Stable Diffusion 3.5 Medium (disponible le 29 octobre) : Une version plus légère avec 2,5 milliards de paramètres qui sera plus adaptée aux configurations grand public. Il supportera des résolutions de 0,25 à 2 mégapixels.

Points forts de SD 3.5

Cette version apporte des améliorations significatives sur plusieurs aspects clés :

La fidélité aux prompts :

Un meilleur respect des descriptions textuelles
De nouvelles capacités de contrôle via le "highlighting" dans les prompts pour orienter précisément les générations
La prise en charge de hashtags thématiques (#boho, #fashion...) pour spécifier des styles précis

La qualité des générations :

Un réalisme accru des images générées
Une amélioration notable du rendu des textes dans les images
Une génération multi-styles couvrant la 3D, la photographie, la peinture et le dessin au trait

Accessibilité et performances :

Des performances optimisées sur du matériel grand public, particulièrement pour les versions Medium et Large Turbo
Une représentation inclusive et diversifiée sans nécessité de prompts complexes
Une compatibilité avec les principaux outils du marché

Une personnalisation renforcée

La personnalisation constitue l'axe central du développement de cette nouvelle version. L'intégration de la Query-Key Normalization dans les blocs transformers améliore la stabilité du processus d'entraînement et simplifie les opérations de fine-tuning. Cette approche technique ouvre la voie à de multiples adaptations et développements futurs.

Ce choix architectural s'accompagne toutefois de certains compromis. Le modèle produit délibérément une plus grande variété de résultats pour un même prompt selon le seed utilisé. Cette caractéristique, loin d'être un défaut, préserve une base de connaissances plus large et une plus grande diversité stylistique dans les modèles de base.

Les utilisateurs doivent néanmoins tenir compte de deux particularités :

Les prompts imprécis peuvent générer des résultats plus incertains

La qualité esthétique peut varier selon les générations

Accessibilité et licence

L’ensemble des modèles, y compris la version Large, sont partagés sous la licence communautaire Stability AI qui autorise :

Un usage gratuit pour les particuliers et la recherche

Un usage commercial gratuit pour les entreprises générant moins d'1M$ de revenus annuels

La propriété totale des images générées

Les deux premiers modèles peuvent ainsi être téléchargés sur Hugging Face :

SD-3.5 Large

SD-3.5 Large Turbo

Utiliser Stable Diffusion 3.5

Dès sa sortie, Stable Diffusion 3.5 a été rendu disponibles sur diverses plateformes :

Utiliser SD3.5 via l’API Stability AI

Utiliser SD3.5 sur le site de Replicate

Utiliser SD3.5 dans ComfyUI

Cette version 3.5 marque un tournant stratégique pour Stability AI. L'entreprise, après l'échec relatif de SD3, revient avec une approche qui privilégie l'accessibilité et la personnalisation.

L'impact réel de ces nouveaux modèles dépendra largement de leur adoption par la communauté.

La licence plus permissive et l'architecture modulaire pourraient séduire les développeurs, tandis que les artistes et créatifs attendront de voir la qualité effective des générations au quotidien.

Dans un écosystème où Flux domine actuellement les discussions, Stable Diffusion 3.5 devra démontrer sa pertinence au-delà des promesses techniques.

Le secteur de l'IA générative continue ainsi sa mutation rapide.

Chaque sortie majeure redéfinit les standards et les attentes, obligeant les créateurs à constamment réévaluer leurs outils. Cette dynamique, si elle peut paraître éprouvante pour les utilisateurs, stimule l'innovation et la diversité des approches dans le domaine.

SD 3.5 - La surprise de Stability AI

Un retour inattendu