Stable Diffusion : le guide du débutant

Do not index

Flag

Publish

feather:link

mydate

Qu'est-ce que Stable Diffusion ?

Stable Diffusion est une collection de modèle d'intelligence artificielle (IA) créés et partagés par Stability AI. Ces modèles sont utilisé pour générer des images - le plus souvent en utilisant le text-to-image : vous lui donnez un texte de description (appelé prompt en anglais) et le modèle le transforme en image. Mais les modèles Stable Diffusion peuvent également être utilisé pour modifier, compléter ou recréer une images.

🎨

Exemples d’utilisation

Voici quelques examples d’images créées avec Stable Diffusion en text-to-image :

Pirate ship in a storm, pirates of the caribbean, movie still.

Head and shoulder portrait of a beautiful woman wearing a red dress in the desert

A cute girl eating a hotdog, Disney pixar 3D animation.

futuristic car racing in Tokyo, Fast and Furious cyberpunk poster

Testez Stable Diffusion et générez des images similaire depuis notre démonstration en ligne.

Les modèles Stable Diffusion

Les modèles de Base

Il existe 3 modèles principaux, également appelés Modèle de base :

Stable Diffusion XL (SDXL)

Lancé en juillet 2023 et optimisés pour créer des images réalistes dans une résolution d’environ 1024x1024 pixel, c’est un modèle puissant et flexibles. C’est aussi le plus populaire actuellement et celui que nous reccomandons aux débutants.

Stable Diffusion 1.5 (SD1.5)

Ce modèle a été complètement partagé en open source en août 2022 par Stability AI et est optimisé pour des images en 512x512. Il reste populaire en raison de sa vitesse et de sa faible utilisation de la mémoire, mais aussi en raison de l'abondance de modèles fine-tunés créés par la communauté qui utilisent SD1.5 comme base.

Stable Diffusion 2.1 (SD2.1)

Publié par Stability AI en décembre 2022, ce modèle n’a jamais eu autant de popularité que les autres. Optimisés pour des images en 768x768, il est réputé plus difficile à prendre en main sans réels avantages par rapports à SD1.5.

Les modèles Turbo

En Novembre 2023, Stability AI a également partagé deux version modifiées et optimisées pour la génération d’images en temps réel ou presque :

SDXL Turbo est, comme son nom l’indique, une version optimisée de SDXL qui génère des images comparable à son parent en moins d’une seconde.

SD Turbo est un modèle optimisé avec la meme technique, mais à partir de SD2.1

Ces deux modèles sont partagés avec une licence non-commeciale et peuvent également être utilisé librement pour la recherche ou une utilisation personnelle.

Les autres modèles

Les modèles affinés ou fine-tunés sont formés à partir de modèles de base (Turbo ou non).

Ils sont ré-entrainés avec des données supplémentaires pour générer des images dans un styles ou avec des personnages et objets particuliers.

La plupart des modèles personnalisés sont formés à partir se SD1.5 et SDXL - Mais il commence aussi a y avoir des modèles personnalisés créés à partir des version Turbo.

L'imagination est la seule limite en ce qui concerne les modèles personnalisés. Ils peuvent être créés pour reproduire un style précis (Disney, Anime japonais, Photo vintage,…), des personnes (Une star, un personnage de série, vous-même,…) ou tout autre chose (un style vestimentaire, une ambiance de lumière, une paire de baskets de marque,…).

Stable Diffusion permet également de fusionner des modèles personnalisé pour pour créer de nouveaux modèles qui mélangent les styles de deux ou plusieurs modèles. Cela offre un énorme potentiel créatif.

Enfin, il existe également des modèles alternatifs qui sont entrainés avec des techniques similaires à celles utilisées pour créer les modèles de base de Stable Diffusion. Playground 2.5, par exemple, est un modèle créé par le site Playground AI et partagé en Open Source.

👉

Pour en savoir, consultez également notre présentation détaillées des modèles Stable Diffusion.

Quel modèle utiliser ?

Si vous débutez avec Stable Diffusion, il nous semble plus sage de se concentrez sur un modèle de base comme SDXL. Il permet déjà d’apprendre beaucoup, de faire des expériences et découvrir les capacités de Stable Diffusion. Avec un peu d’entrainement sur ce modèles, vous pourrez créer des images de plus en plus intéressantes et impressionnantes. Et vous pourrez ensuite tester des modèles supplémentaires et mieux voir ce qu’ils peuvent vous apporter.

Comment utiliser Stable Diffusion ?

Par où commencer ?

Avec un générateur en ligne

Pour les débutants absolus et les curieux, il est recommandé d'utiliser un générateur en ligne gratuit.

ClipoDrop propose par exemple un générateur simple à prendre en main avec lequel vous pouvez générer vos première images en un rien de temps, sans inscription ni installation.

Si vous connaissez déjà Midjourney et avez l’habitude d’utiliser l’IA de génération d’image sur Discord, vous voudrez surement rejoindre le serveur de la Stable Foundation qui permet d’utiliser SDXL de manière similaire.

Enfin Civitai dispose également d’un générateur d’image gratuit que vous pouvez utiliser gratuitement.

🔥

Guides d’utilisations :

Créer des images avec SDXL sur ClipDrop

Générer des images sur Discord avec SDXL

Créer des images avec Stable Diffusion sur Civitai

Avec une interface graphique avancée

Les générateurs en ligne sont super pratiques et simples à utiliser mais leur inconvénient est que leurs fonctionnalités sont assez limitées.

Lorsque vous voulez faire un peu plus que la génération simple à partir d’une phrase, vous voudrez utiliser une interface graphique plus avancée (GUI) qui permet de profiter de toutes les fonctionnalités de Stable Diffusion.

Pour cela, le choix le plus populaire est probablement Automatic1111 qui est une de plus anciennes et plus complètes interfaces disponibles.

Pour les débutants qui souhaitant surtout générer des images et apprendre les bases de Stable Diffusion, nous recommandons cependant une interface plus simple mais déjà très puissante : Fooocus.

L’un comme l’autre peuvent être installés sur votre ordinateur ou utiliser via des solutions en ligne.

👉

Nos guide d’installation et d’utilisation

Installez Fooocus sur PC ou Mac

Installez Automatic1111 sur Windows ou Mac

Utilisez Automatic1111 en ligne avec Diffus ou Google Colab

Comment écrire de bons prompts ?

Générateurs de prompts

En utilisant un générateur de prompt, vous pouvez apprendre des mots-clés importants et comment la description d’une image, le prompt, se construit.

Il est essentiel pour les débutants d'apprendre un ensemble de mots-clés puissants et leurs effets attendus. C'est comme apprendre des vocabulaires pour une nouvelle langue. (C’est ce qu’on appelle parfois le prompt engineering)

Collections de Prompts

Un autre moyen simple et rapide pour générer des images de haute qualité consiste à réutiliser ou s’inspirer des prompts existants. En plus de nos propres prompts inspirants, sachez qu’il existes plusieurs sites comme Playground AI ou Civitai qui proposent des collections d’images et leurs prompts. Choisissez-y une image que vous aimez et regardez son prompt pour vous inspirer.

L'inconvénient de cette technique et que vous ne comprenez peut-être pas pourquoi ces prompts créent des images de haute qualité. Il faudra essayer les prompts et jouer avec pour voir comment les images changent quand vous modifier le texte.

De plus, il est parfois difficile de trouver un prompt de haute qualité dans une telle botte de foin. Les collections ne sont pas toujours très bien triée et il est difficile de savoir si l’image présentée tient vraiment de la qualité du prompt ou si c’est un coup de chance.

Dans tous les cas, traitez ces prompt comme un point de départ. Modifiez-les selon vos besoins, faites des tests et essayer d’apprendre ce qui marche (ou ne marche pas) pour vous et ce que vous souhaitez créer.

Créer de bons prompts

Il y a deux règles de bases (1) Être précis et spécifique et (2) utiliser des mots-clés puissants

1. Soyez précis et spécifique dans votre demande

Bien que l'intelligence artificielle progresse à grands pas, Stable Diffusion ni aucun autre modèle ne peut dans votre esprit. Vous devez décrire votre image avec autant de détails que possible pour transmettre votre idée à l’IA.

Par exemple, si vous souhaitez générer une image d'un cheval au galop, au lieu d'utiliser la demande

horse running

Vous devriez utiliser quelque chose comme :

horse running in the wild under the moon light, white fur, perfect composition

Regardez la différence de résultat entre les deux images (à gauche la demande simple à droite la demande détaillée)

2. Utilisez des mots-clés puissants dans votre demande

Certains mots-clés sont tout simplement plus puissants et auront plus d’effets que d'autres. Des exemples sont

Nom de célébrité (par exemple Emma Watson)

Nom d'artiste (par exemple van Gogh)

Genre (par exemple peinture, manga, photographie)

Les utiliser avec soin va orienter la génération d’image dans la direction que vous souhaitez.

Voici deux exemples de prompts reprenant l’idée du cheval blanc galopant sous la lune en y ajoutant des mots clefs et expressions pour orienter différemment le résultat :

cinematic film still horse running in the wild under the moon light, white fur . shallow depth of field, vignette, highly detailed, high budget, bokeh, cinemascope, moody, epic, gorgeous, film grain, grainy

anime artwork cinematic film still horse running in the wild under the moon light, white fur . anime style, key visual, vibrant, studio anime, highly detailed

👉

Vous pouvez en apprendre plus sur la construction de prompts détaillées et puissantes dans notre tutoriel sur la construction de prompts.

Que signifient les différents paramètres ?

Si les Interface avancées permettent de modifier de nombreux paramètres, la plupart des générateurs en ligne n’en propose qu’un nombre limité. Voici les plus importants (que vous pouvez le plus souvent modifier)

CFG Scale : Plus cette valeur d’échelle est haute, plus l’image va être conforme au prompt (au détriment de son originalité). La valeur typique est 7. Augmentez si vous souhaitez que l'image corresponde plus strictement à votre prompt.

📌

Apprenez-en plus sur l’utilisation et le fonctionnement de ce paramètre en lisant notre guide du CFG Scale

Sampling steps : le nombre d’étape d’échantillonnages (on dit aussi débruitage) par lesquelles passe l’image générées. Avec les modèles de bases, utilisez au moins 20 étapes. Augmentez si l'image est floue ou manque de détails. Avec un modèle Turbo, par contre, vous utilisez rarement plus de 4 étapes.

Image Size : la taille de l'image de sortie. La taille standard est de 1024 x 1024 pixels pour SDXL et 512 x 512 pour SD1.5. Changer le format carré en rectangle qu’il soit vertical (portrait) ou horizontal (paysage) peut avoir un grand impact sur l'image. Par exemple, utilisez une taille en portrait si vous souhaitez générer une image avec un corps entier.

📌

L’utilisation de formats recommandés dans cet article permet d’obtenir de meilleur résultats avec Stable Diffusion XL.

Seed value : -1 génère une image aléatoire. Spécifiez une valeur unique que vous pourrez ensuite réutiliser pour obtenir la même image (ou une image très similaire) en conservant les autres paramètres.

Combien d'images faut-il générer ?

Vous devriez toujours générer plusieurs images lorsque vous testez un prompt.

Générez 2-4 images à la fois lorsque vous effectuez de gros changements sur votre prompt - cela vous permettra de voir plus rapidement les résultats et d’évaluer si vos changements sont utiles.

Passez ensuite à 4-8 à la fois pour tester de petits changements afin d'augmenter les chances de voir quelque chose d'utilisable.

Notez bien que certains prompts ne fonctionneront comme voulu qu’une fois sur deux, donc ne jetez pas tout de suite une idée de prompt parceque la première image est ratée.

Qu’est ce que le image-to-image ?

L’Image-to-image (ou img2img pour faire court) crée une nouvelle image à partir d’une image et d’un prompt. Vous pouvez donc guider la génération d'image non seulement avec du texte, mais aussi avec une image.

Vous pouvez même voir le texte-to-image comme un cas particulier de l'image-à-image : c'est simplement l'image-to-image avec une image d'entrée complètement aléatoire (un nuage de pixels qui ne représentent rien).

L’img2img est une technique souvent sous-estimée. Elle permet pourtant de facilement et rapidement obtenir de bons résultats.

Le guide du débutant