SD 3.5 - La surprise de Stability AI

Stability AI sort la nouvelle version 3.5 de Stable Diffusion

SD 3.5 - La surprise de Stability AI
Tags
Do not index
Do not index
Stability AI vient d’annoncer Stable Diffusion 3.5, une nouvelle génération de modèles de création d'images qui marque une évolution significative par rapport à la version 3.0 sortie en juin dernier.

Un retour inattendu

Le lancement de Stable Diffusion 3.5 par Stability est une vraie surprise.
Dans un paysage dominé par l'ascension fulgurante de Flux et après la déception de Stable Diffusion 3, peu anticipaient une telle annonce.
En effet, la version 3.0, sortie en juin dernier, n'avait pas convaincu. Sa qualité en deçà des attentes et ses licences d’utilisations restrictive avaient poussé de nombreux créateurs vers d'autres solutions.
Cette situation, combinée aux rumeurs sur les difficultés financières de Stability AI, laissait présager un déclin progressif de la série Stable Diffusion, tandis que Flux s'imposait comme l'héritier spirituel de SDXL auprès de la communauté.
Mais Stability AI tente un véritable retour, avec une proposition qui semble avoir tiré les leçons du passé : des modèles plus performants et une licence plus permissive.
notion image
notion image
notion image

Stable Diffusion 3.5

Les trois variantes du modèle

Comme Flux et la plupart des modèles modernes, Stable Diffusion 3.5 est publié en plusieurs variantes, adaptées à différents usages.
  • Stable Diffusion 3.5 Large (disponible immédiatement) : Un modèle de 8 milliards de paramètres capable de générer des images en résolution 1 mégapixel. Cette version phare se distingue par sa qualité et sa fidélité aux prompts.
  • Stable Diffusion 3.5 Large Turbo (disponible immédiatement) : Une version optimisée du modèle Large qui génère des images en seulement 4 étapes, privilégiant la vitesse sans compromettre la qualité.
  • Stable Diffusion 3.5 Medium (disponible le 29 octobre) : Une version plus légère avec 2,5 milliards de paramètres qui sera plus adaptée aux configurations grand public. Il supportera des résolutions de 0,25 à 2 mégapixels.

Points forts de SD 3.5

Cette version apporte des améliorations significatives sur plusieurs aspects clés :
  • La fidélité aux prompts :
    • Un meilleur respect des descriptions textuelles
    • De nouvelles capacités de contrôle via le "highlighting" dans les prompts pour orienter précisément les générations
    • La prise en charge de hashtags thématiques (#boho, #fashion...) pour spécifier des styles précis
  • La qualité des générations :
    • Un réalisme accru des images générées
    • Une amélioration notable du rendu des textes dans les images
    • Une génération multi-styles couvrant la 3D, la photographie, la peinture et le dessin au trait
  • Accessibilité et performances :
    • Des performances optimisées sur du matériel grand public, particulièrement pour les versions Medium et Large Turbo
    • Une représentation inclusive et diversifiée sans nécessité de prompts complexes
    • Une compatibilité avec les principaux outils du marché

Une personnalisation renforcée

La personnalisation constitue l'axe central du développement de cette nouvelle version. L'intégration de la Query-Key Normalization dans les blocs transformers améliore la stabilité du processus d'entraînement et simplifie les opérations de fine-tuning. Cette approche technique ouvre la voie à de multiples adaptations et développements futurs.
Ce choix architectural s'accompagne toutefois de certains compromis. Le modèle produit délibérément une plus grande variété de résultats pour un même prompt selon le seed utilisé. Cette caractéristique, loin d'être un défaut, préserve une base de connaissances plus large et une plus grande diversité stylistique dans les modèles de base.
Les utilisateurs doivent néanmoins tenir compte de deux particularités :
  • Les prompts imprécis peuvent générer des résultats plus incertains
  • La qualité esthétique peut varier selon les générations
notion image
notion image
notion image

Accessibilité et licence

L’ensemble des modèles, y compris la version Large, sont partagés sous la licence communautaire Stability AI qui autorise :
  • Un usage gratuit pour les particuliers et la recherche
  • Un usage commercial gratuit pour les entreprises générant moins d'1M$ de revenus annuels
  • La propriété totale des images générées
Les deux premiers modèles peuvent ainsi être téléchargés sur Hugging Face :

Utiliser Stable Diffusion 3.5

Dès sa sortie, Stable Diffusion 3.5 a été rendu disponibles sur diverses plateformes :
notion image
Cette version 3.5 marque un tournant stratégique pour Stability AI. L'entreprise, après l'échec relatif de SD3, revient avec une approche qui privilégie l'accessibilité et la personnalisation.
L'impact réel de ces nouveaux modèles dépendra largement de leur adoption par la communauté.
La licence plus permissive et l'architecture modulaire pourraient séduire les développeurs, tandis que les artistes et créatifs attendront de voir la qualité effective des générations au quotidien.
Dans un écosystème où Flux domine actuellement les discussions, Stable Diffusion 3.5 devra démontrer sa pertinence au-delà des promesses techniques.
Le secteur de l'IA générative continue ainsi sa mutation rapide.
Chaque sortie majeure redéfinit les standards et les attentes, obligeant les créateurs à constamment réévaluer leurs outils. Cette dynamique, si elle peut paraître éprouvante pour les utilisateurs, stimule l'innovation et la diversité des approches dans le domaine.

Payer une seule fois pour un accès à vie à la génération d’image avec Stable Diffusion et Diffus

🔥 Lifetime Deal à -60% 🔥

Profiter de l'offre

Ecrit par