
Dernière mise à jour : 08/08/2025
Qu’est-ce que le format GGUF ?
Le format GGUF est une nouvelle solution de formatage binaire pour les modèles d'intelligence artificielle, spécialement conçu pour accélérer le chargement, offrir de la flexibilité et regrouper toutes les informations d’un modèle dans un fichier unique. Ce format, introduit en août 2023, est une évolution des formats GGML et GGJT. Il est particulièrement adapté aux modèles utilisant llama.cpp, dont le modèle de génération d’image Flux.
Pourquoi GGUF ?
Le format GGUF a été créé pour répondre aux besoins croissants de simplification et d'efficacité dans l'usage des modèles d'IA. L’idée est de rendre le processus de chargement des modèles plus rapide et de faciliter leur utilisation sur différentes plateformes, notamment celles qui disposent de ressources limitées. Le tout en évitant les complications liées à l'utilisation de multiples fichiers.
Quels sont ses avantages ?
- Chargement rapide : La structure interne de GGUF optimise le temps de chargement des modèles, ce qui est essentiel pour des applications interactives nécessitant des réponses rapides.
- Flexibilité : Contrairement aux formats précédents, GGUF utilise une structure de paires clé-valeur pour stocker des hyperparamètres et d’autres informations. Cela permet d’ajouter de nouvelles données au format sans compromettre la compatibilité avec les modèles existants.
- Déploiement simplifié : Avec GGUF, tout est encapsulé dans un seul fichier, y compris la configuration du modèle et le vocabulaire du tokenizer. Cela facilite la distribution et réduit les risques d’erreurs de fichiers manquants ou mal organisés.
- Compatibilité : Le format GGUF est compatible avec différentes bibliothèques, notamment llama.cpp, ce qui permet une intégration fluide des modèles FLUX.1 dans des environnements variés.
Flux + GGUF = 🚀
La communauté open source constitué autours de Flux a pu adopter GGUF pour les modèles Flux [dev] et [schnell] afin d’offrir un chargement et une inférence efficaces, en particulier sur des systèmes aux ressources limitées comme les ordinateurs personnels sans GPU.
Support de la quantification
GGUF permet l’utilisation de différentes versions quantifiées du modèle, offrant un compromis entre taille du modèle, vitesse d’inférence et qualité des résultats.
- F16 : Qualité maximale, idéale pour les applications où la précision est prioritaire.
- Q8_0 : Bonne qualité avec une optimisation modérée, adaptée aux contraintes de ressources.
- Q4_0 à Q5_0 : Versions optimisées pour la vitesse, idéales pour les applications interactives ou les appareils avec des contraintes strictes.

Inférence efficace
Grâce à l’optimisation de la mémoire et de la vitesse, GGUF permet à Flux de s'exécuter même sur du matériel grand public, sans nécessiter de GPU surpuissant.
Utiliser Flux GGUF
Vous pouvez télécharger les versions quantifiées GGUF des modèles FLUX.1 à partir des dépôts Hugging Face suivants :
FLUX.1-dev-gguf
Il s'agit d'une conversion GGUF directe du modèle black-forest-labs/FLUX.1-dev.
FLUX.1-schnell-gguf
Il s'agit d'une conversion GGUF directe du modèle black-forest-labs/FLUX.1-schnell.
FLUX.1-Kontext-dev-GGUF
La conversion GGUF du modèle contextuelle Flux.1 Kontext [dev], capable de comprendre et modifier les images existantes et d’interpreter les instructions textuelles.
FLUX.1-Krea-dev-GGUF
Conversion GGUF par QuantStack du modèle FLUX.1 Krea Dev - un version optimisée pour le réalisme et l’ésthétique de FLUX.1 Dev par Krea AI.
Ces fichiers peuvent être utilisés avec le node personnalisés ComfyUI-GGUF (voir ci-dessous) ou d’autres interfaces comme Forge. Placez les fichiers du modèle dans le répertoire de modèles comme avec un autre checkpoint.
Consultez notre article pour apprendre Comment utilisez Flux avec Forge
En utilisant les versions quantifiées GGUF des modèles Flux, vous pouvez les exécuter efficacement sur des systèmes aux ressources de calcul limitées, tels que le matériel grand public sans GPU surpuissant.
ComfyUI-GGUF
Pour utiliser les modèles Flux GGUF (ou d’autres modèles GGUF) avec ComfyUI, vous devrez installer le node ComfyUI-GGUF. Ce node ajoute la prise en charge de la quantification GGUF, permettant des performances efficaces sur les GPU d'entrée de gamme.
Installation du node
- Cliquez sur le bouton Manager dans le menu principal
- Sélectionnez le bouton Custom Nodes Manager
- Cherchez ComfyUI-GGUF via la barre de recherche
- Cliquez sur Install
Après l’installation, relancez ComfyUI.
GGUF Unet Loader
ComfyUI-GGUF permet de charger un modèle GGUF loader.
- Fonction : Charge les modèles stockés au format GGUF.
- Personnalisation : Vous pouvez placer vos fichiers de modèles .gguf dans le dossier
ComfyUI/models/unet
et les utiliser directement dans vos flux de travail.
- Exemple : Remplacez le nœud standard "Load Diffusion Model" par le nœud "GGUF Loader" dans vos flux de travail existants pour tirer parti de la quantification GGUF.

CLIP Device : L’option "Force/Set CLIP Device" ne fait pas partie de ce pack de node. Évitez de l'installer si vous n'avez qu'un seul GPU, et ne le définissez pas sur
cuda:0
pour éviter les erreurs de mémoire insuffisante (OOM).GGUF est donc un format de fichier révolutionnaire qui simplifie l'utilisation des modèles d'IA, notamment Flux, en offrant des options de quantification, une compatibilité élargie, et une facilité de déploiement. Pour les développeurs cherchant à déployer des modèles d'IA de manière rapide et efficace, en particulier dans des environnements aux ressources limitées, GGUF se révèle être une solution clé.
Ecrit par