Préparer le dataset pour entrainer un LoRA Flux, Qwen-Image ou Z-Image

Do not index

Flag

Publish

feather:link

mydate

L'art de préparer votre dataset

Les LoRAs offrent une approche astucieuse et efficace pour personnaliser les modèles de génération d'images sans avoir à les ré-entraîner entièrement.

Cette technique permet en effet d'adapter un modèle de base à des concepts, des personnes ou des styles spécifiques, tout en gardant une empreinte légère en termes de calcul et de stockage.

L'entraînement d'un LoRA est en outre relativement facile et peut même se faire en ligne pour différents modèles comme Flux.1[dev], Flux.2 [klein], Qwen-Image, ou Z-Image-Turbo.

Mais la clé d'un LoRA efficace réside dans la qualité de son dataset d'entraînement. En effet, les images que vous choisissez et préparez vont directement influencer les performances et la polyvalence de votre LoRA.

Dans cet article, nous allons voir ensemble comment constituer un dataset optimal. Nous aborderons des aspects essentiels tels que la quantité d'images nécessaire, l'importance de la diversité et de la qualité ainsi que la création de captions, ces descriptions d'image qui permettent à l'IA de mieux comprendre ce que vous souhaitez lui apprendre.

💡

A propos des modèles

Les principes fondamentaux présentés ici s'appliquent à tous les modèles de diffusion modernes.

Cependant, chaque modèle a ses spécificités. Nous essauerons donc de fournir également des recommandations adaptées pour Flux.1[dev], Flux.2 [klein], Qwen-Image et Z-Image-Turbo tout au long de l'article.

Les règles de sélection des images

La première étape pour créer votre dataset est de sélectionner les images qui vont servir de données d'entraînement. Voici les quatre règles d'or qui s'appliquent à tous les modèles.

Les règles d'or pour sélectionner vos images

La quantité idéale : Ni trop, ni trop peu

La première règle à respecter pour sélectionner vos images d’entrainement est d’en avoir la quantité idéale (suffisamment mais pas trop).

Il faut en effet avoir assez d’image pour que le modèle puisse apprendre votre concept dans sa globalité et sa diversité. Un grand nombre d’images permettra ainsi au modèle d’avoir une meilleure précision.

Mais en avoir de trop risque de surcharger le LoRA d’information (et d’augmenter le temps d’entrainement) - Et si elles ne sont pas toutes de bonnes qualité, le résultat sera encore moins bon.

Il faut en général compter entre 10 et 20 images pour un LoRA de personnes ou de personnages - et éventuellement un peu plus pour des poses ou des styles.

Modèle	Quantité recommandée	Notes spécifiques
Flux.1[dev]	10-20 images	Idéal pour personnages et personnes
Flux.2 [klein]	15-20 images	Peut nécessiter plus d'images pour édition multi-références
Qwen-Image	10-20 images (base) 20-40 images (Edit)	Commencer petit pour la version Edit, augmenter si nécessaire
Z-Image-Turbo	20-30 images (caractères)70-80 images (photoréalisme extrême)	Plus d'images pour textures de peau réalistes

Certains utilisateurs ont pu créer un LoRA de personne avec seulement 5-9 images mais je pense qu’il vaut généralement mieux en utiliser plus pour obtenir un résultat polyvalent.

La diversité : La clé d'un LoRA polyvalent

La seconde règle qui vient compléter la première, c’est de miser sur la diversité des contextes.

La variété est en effet la clé pour un modèle polyvalent.

Voici trois conseils pour diversifier votre set d'images :

Changez de décor : Montrez votre sujet dans différents environnements. Un portrait en intérieur, en extérieur, en ville, dans la nature... Votre LoRA apprendra à s'adapter à tous les contextes.

Jouez avec les poses : Si vous travaillez sur des personnages ou des objets, variez les angles et les positions. De face, de profil, en mouvement... Cela aidera votre LoRA à comprendre la structure en 3D de ce qu'il doit représenter.

Expérimentez avec la lumière : Un même sujet peut paraître très différent selon l'éclairage. Incluez des images prises en plein soleil, à l'ombre, en lumière artificielle... Votre LoRA apprendra ainsi à gérer les ombres, les reflets, et les ambiances lumineuses.

Pour un LoRA d’une personne ou personnage, vous devriez avoir une bonne moitié de portraits pour qu’il puisse bien appréhender les traits et détails du visages. Compléter avec 1/4 d’image en plan large où le le visage est de face et 1/4 d’image variées avec des profils et d’autres angles de vue.

Pour un LoRA de style ou de genre, la diversité viendra plutôt ses sujets : conservez un style homogène (celui que vous voulez obtenir avec votre LoRA) dans vos images en veillant à ce qu’elle représente des personnages, objets et scène différentes et variées.

La précision : Évitez la confusion

Notre troisième règle est d'utiliser des images qui illustrent précisément ce que vous souhaitez obtenir. N'utilisez pas des images qui peuvent créer de la confusion en mélangeant votre concept avec un autre.

Pour un personnage, essayez de n'avoir que des photos dont il est le sujet principal et où son visage est le seul visage visible.

Pour des objets ou créatures, assurez-vous que votre objet est bien le sujet principal de l'image et est clairement reconnaissable.

Cette règle est particulièrement importante pour Qwen-Image et Z-Image-Turbo qui sont sensibles aux éléments parasites dans le dataset.

La qualité : l'excellence plutôt que la quantité

Le dernier critère est le plus important dans le choix de vos images : la qualité.

Les règles précédentes ne doivent pas vous faire oublier que la qualité de vos images sources est primordiale au succès de votre LoRA.

Vos images ne doivent pas forcément être en haute définition (des images en 512x512 donnent plus souvent d’aussi bons résultat que des images plus grandes) mais elles doivent être de qualité.

Modèle	Résolution recommandée	Notes
Flux.1[dev]	512x512 minimum	Pas forcément en haute définition
Flux.2 [klein]	768-1024 pixels	Correspond à la résolution d'entraînement
Qwen-Image	1024x1024 ou plus	Haute résolution pour le rendu de texte
Z-Image-Turbo	1024x1024	Pour maximiser la qualité photoréaliste

10 images de très hautes qualité donneront toujours de meilleurs résultats que 30 images médiocres.

A moins que cela ne fasse partie du style que vous souhaitez obtenir avec votre LoRA, évter absolument les images floues, endommagées ou mal finies.

Dites vous qu’une seule image de basse qualité peut influencer négativement les résultats de l’entrainement. D’une manière générale, il vaut mieux une image de moins qu’une image de mauvaise qualité de plus.

Z-Image-Turbo est d’ailleurs particulièrement sensible à la qualité des images sources. Les images granuleuses ou de faible résolution produiront des générations granuleuses. Privilégiez des photos nettes avec de bonnes textures naturelles.

En suivant ces 4 règles (quantité, diversité, pas de confusion et qualité) vous donnerez à votre LoRA les moyens de générer des images variées et réalistes.

Exemple

Pour mon LoRA Groquik, j’ai rassemblé 20 images du personnages trouvées sur Internet. Certaines des images ont été recardées pour garder le focus sur Groquik et éviter les longs textes publicitaires.

Le qualité des images n’est pas exceptionelle mais elle reste correct - j’ai évité les jpg flou et les gif hyper pixelisés.

⚙

Noms et formats des fichiers

Même si ce n’est pas une règle absolues et si certains outils reconnaissent d’autres formats, il est recommandés d’utiliser des images au format PNG ou JPGEG avec un nom unique suivis d’un numéro.

Cette convention de nommage est également pratique pour associer les descriptions aux images comme expliqué ci-dessous.

La descriptions des images

Cette étape n’est pas forcément obligatoire mais elle peut grandement améliorer la qualité de votre LoRA.

Pourquoi écrire des descriptions ?

Également appelées captions, ces descriptions sont un peu comme des prompts inversés : à l’entrainement, elles vont servir à décrire l’image au modèle et l’aider à identifier ce qui, dans l’image, correspond à votre concept (et par conséquent ce qui n’en fait pas partie).

Pour chacune de vos images, rédigez une légende (en anglais) qui décrit ce qui est présent à l’image et ne fait pas partie de ce que doit apprendre le LoRA.

Par exemple, pour un LoRA d’une personne qui porte toujours la barbe et des lunettes, celles-ci doivent être absentes des descriptions. Par contre, s'il porte parfois des lunettes et parfois non, il vaut mieux les indiquer en description. Le LoRA sera alors capable de générer des portraits avec ou sans lunette selon qu'elles soient présentes ou non dans le prompt.

Les captions vous permettent aussi de choisir un ou plusieurs trigger words. Ce sont le ou les mots clefs qui pourront être utilisés dans le prompt pour indiquer le concept ou le personnage du LoRA.

Comment écrire les descriptions ?

Décrire en anglais une vingtaine d’images peut vite s’avérer fastidieux - surtout si on essaye d’écrire des description longue et complètes qui reprennent tous les détails de l’image.

🇫🇷

Comme souvent, l’anglais est la langue recommandée pour écrire vos captions. Si vous ne maîtrisez pas pa la langue de Shakespeare, une bonne solution est de rédiger en français puis d’utiliser un outil de traduction automatique comme Deepl.

Une bonne solution pour se simplifier le travail est d’utiliser des outils IA qui vont analyser et décrire les images (C’est ce qu’on appelle parfois l’Image to Prompt). Plusieurs outils comme sont disponibles en ligne mais je vous recommande particulièrement JoyCaption qui est disponible gratuitement sur HuggingFace.

Pensez cependant à vérifier les descriptions et à la corriger. D’abord parce qu'il arrive que l’IA hallucine et décrivent des choses qui ne sont pas vraiment dans l’image. Ensuite parce que, comme nous l’expliquons plus haut, il faut également retirer de vos descriptions les éléments qui font partie de ce que vous souhaitez apprendre à votre LoRA.

En plus de la description de l’image, il est également utile de commencer vos descriptions par un mot clef qui va servir à identifier le personnage ou le concept de votre LoRA et fonctionnera comme trigger word.

Un format efficace pour vos description est de faire suivre ce mot clef par une description détaillée de l’image comme celle obtenue avec JoyCaption.

Spécificités par modèle :

Qwen-Image : Les descripton sont particulièrement importantes pour gérer des prompts multilingues (chinois/anglais). Privilégiez des descriptions détaillées.

Z-Image-Turbo : Vous pouvez utiliser une même descripton par défaut pour tout le dataset ou des descriptons individuelles. Les captions détaillées améliorent grandement l'apprentissage, surtout pour les datasets variés.

Flux.2 [klein] : Les descriptions longues sont recommandées pour la flexibilité en mode édition.

Faut-il vraiment utiliser des descriptions ?

L’utilisation de description n’est pas absolument nécessaire et il reste possible d’entrainer un LoRA qui fonctionne sans utiliser la moindre description. Certains créateur obtiennent également de très bons résultats en utilisant qu’un mot clef trigger word en description de toutes les images.

Des test réalisés et partagés par mnemic sur Civitai indiquent cependant que la combinaison mot clef + description longue permettent d’obtenir des LoRAS qui combinent efficacité et flexibilité. Ils demanderont parfois des prompts plus longs pour être bien activés, mais il se révèlent souvent capable de plus de variations (style, habit des personnes,…).

Exemple

Pour le LoRA Groquik, j’ai utilisé JoyCaption pour obtenir une description longue des mes images.

J’ai ensuite retravaillé ces descriptions pour supprimer les elements de descriptions du personnages (gros ventre, couleur, antenne/oreille,…) et ajouter le mot clef “A groquik character”. Le résultat final ressemble alors à la description suivante :

A Groquick character. The image is a digital cartoon drawing of a Groquick. The character has a smooth, continuous appearance. It stands upright on two large, round feet. The character is wearing a white, flat-topped hat with a red band around the middle. It is smiling. One hand is raised in a waving gesture, with the fingers slightly spread apart. The background of the image is plain white, which makes the character stand out vividly. The drawing style is clean and bold, typical of classic cartoon animation, with solid, bright colors and simple, exaggerated lines that emphasize the character's round, smooth shape. There are no additional objects or elements in the background, ensuring the character remains the focal point of the image.

⚙

Associer image et description

Avec la plupart des outils permettant d’entrainer des LoRA, l’ajout de description se fait en créant, pour chaque image, un fichier .txt du même nom qui contient sa description.

Adaptations spécifiques par modèle

Bien que les principes fondamentaux restent identiques, chaque modèle a ses particularités qui nécessitent quelques adaptations.

Flux.1[dev]

Dataset : 10-20 images, qualité > quantité

Résolution : 512x512 fonctionne bien, pas besoin de haute résolution

Description : Combinaison trigger word + description longue recommandée

Flux.2 [klein] (4B/9B)

💡

Conseil Flux.2 [klein]

Privilégiez les variantes Base pour l'entraînement LoRA. Elles conservent le signal d'entraînement complet et offrent plus de flexibilité. Les versions distillées sont optimisées pour l'inférence rapide mais moins adaptées au fine-tuning.

Dataset : 15-20 images, incluez des variations pour l'édition

Résolution : 768-1024 pixels

Description : Combinaison trigger word + description longue recommandée

Particularité : Modèle unifié génération/édition - incluez des images multi-références si vous voulez utiliser ces fonctions

Variantes :

Base (4B/9B) : Non distillé, optimal pour l'entraînement LoRA, 50 étapes d'inférence
Distilled (4B/9B) : 4 étapes rapides, mais moins adapté au fine-tuning

Qwen-Image

💡

Conseil Qwen-Image

L’Architecture MMDiT :rend le modèle plus sensible à la qualité du dataset que les modèles Flux. Faites donc particulièrement attention à la qualité des images.

Pour l'édition, incluez des variations d'angles pour la cohérence géométrique.

Dataset :

Base : 10-20 images minimum, 20-50 optimal
Edit (2509/2511) : Peut utiliser 1-3 images de référence par exemple

Résolution : 1024x1024 ou plus (important pour le texte)

Description : Très importantes, descriptions détaillées recommandées. Retirer les éléments du concept à apprendre

Particularité Edit : Dataset de triplets possible (cible + contrôles + design) pour l'édition multi-images

Z-Image-Turbo

💡

Conseil Z-Image-TurboQualité des sources :

Privilégiez des photos photoréalistes nettes avec bonnes textures : le modèle est très sensible à la qualité source. Ne faites donc pas de compromis sur la qualité des images.

Dataset :

Caractères basiques : 20-30 images
Photoréalisme extrême : 70-80 images pour textures de peau parfaites

Résolution : 1024x1024 recommandé, 512 acceptable pour VRAM limité

Description : Combinaison trigger word + description longue recommandée

Qualité d'image : CRUCIALE - modèle très sensible à la qualité source

Particularité : Modèle distillé - nécessite un training adapter obligatoire

Lancez-vous dans l'aventure LoRA !

En fin de compte, la création d'un dataset de qualité pour votre LoRA reste un exercice d'équilibre qui demande créativité et savoir faire. Vous avez néanmoins maintenant les clés pour sélectionner et préparer vos images efficacement :

Principes universels.

Visez la quantité idéale : entre 15 et 20 images pour un bon équilibre.

Misez sur la diversité pour obtenir un LoRA polyvalent.

Privilégiez la qualité des images plutôt que la quantité.

Assurez-vous que vos images illustrent précisément votre concept.

Utilisez des descriptions (captions) pertinentes pour affiner l'apprentissage.

Adaptez votre approche :

Flux.1[dev] : Le choix stable et éprouvé, parfait pour débuter

Flux.2 [klein] : Pour l'édition rapide et les workflows interactifs

Qwen-Image : Si vous avez besoin de texte complexe ou multilingue

Z-Image-Turbo : Pour le photoréalisme extrême (avec l'adapter !)

Comme pour la rédaction de prompt et la génération d’image, la pratique est essentielle pour maîtriser l’art de l’entrainement de LoRA. N'hésitez donc pas à expérimenter avec différentes approches et à ajuster votre méthode en fonction des résultats obtenus. Chaque LoRA que vous créerez vous permettra d'affiner votre technique.

Maintenant que vous avez toutes les informations nécessaires, il ne vous reste plus qu'à vous lancer dans la préparation de votre dataset. Que vous souhaitiez créer un LoRA de personnage, de style artistique ou de concept, ces principes vous guideront vers la création d'un modèle performant et flexible.

N'hésitez pas à partager vos expériences et vos créations sur les communautés comme Civitai, HuggingFace ou les réseaux comme X ou Reddit. Vos retours et vos réussites pourront inspirer d'autres créateurs et contribuer à l'évolution de cette technologie passionnante.

Choisir les images d'entraînement d’un LoRA

L'art de préparer votre dataset

Les règles de sélection des images