Flux GGUF, qu’est ce que c’est ?

Do not index

Flag

Publish

feather:link

mydate

Qu’est-ce que le format GGUF ?

Le format GGUF est une solution de formatage binaire pour les modèles d'intelligence artificielle, spécialement conçu pour accélérer le chargement, offrir de la flexibilité et regrouper toutes les informations d’un modèle dans un fichier unique. Ce format, introduit en août 2023, est une évolution des formats GGML et GGJT. Il est particulièrement adapté aux modèles utilisant llama.cpp ou similaire, dont les modèle de génération d’image Flux.1 et Flux.2

Pourquoi GGUF ?

Le format GGUF a été créé pour répondre aux besoins croissants de simplification et d'efficacité dans l'usage des modèles d'IA. L’idée est de rendre le processus de chargement des modèles plus rapide et de faciliter leur utilisation sur différentes plateformes, notamment celles qui disposent de ressources limitées. Le tout en évitant les complications liées à l'utilisation de multiples fichiers.

Quels sont ses avantages ?

Chargement rapide : La structure interne de GGUF optimise le temps de chargement des modèles, ce qui est essentiel pour des applications interactives nécessitant des réponses rapides.

Flexibilité : Contrairement aux formats précédents, GGUF utilise une structure de paires clé-valeur pour stocker des hyperparamètres et d’autres informations. Cela permet d’ajouter de nouvelles données au format sans compromettre la compatibilité avec les modèles existants.

Déploiement simplifié : Avec GGUF, tout est encapsulé dans un seul fichier, y compris la configuration du modèle et le vocabulaire du tokenizer. Cela facilite la distribution et réduit les risques d’erreurs de fichiers manquants ou mal organisés.

Compatibilité : Le format GGUF est compatible avec différentes bibliothèques, notamment llama.cpp, ce qui permet une intégration fluide des modèles FLUX.1 dans des environnements variés.

Flux + GGUF = 🚀

La communauté open source constituée autours des modèles Flux a pu adopter GGUF pour les modèles Flux.1 [dev], Flux.1 [schnell] et Flux.2 [dev] afin d’offrir un chargement et une inférence efficaces, en particulier sur des systèmes aux ressources limitées comme les ordinateurs personnels sans GPU.

Support de la quantification

GGUF permet l’utilisation de différentes versions quantifiées du modèle, offrant un compromis entre taille du modèle, vitesse d’inférence et qualité des résultats.

F16 : Qualité maximale, idéale pour les applications où la précision est prioritaire.

Q8_0 : Bonne qualité avec une optimisation modérée, adaptée aux contraintes de ressources.

Q4_0 à Q5_0 : Versions optimisées pour la vitesse, idéales pour les applications interactives ou les appareils avec des contraintes strictes.

Inférence efficace

Grâce à l’optimisation de la mémoire et de la vitesse, GGUF permet à Flux de s'exécuter même sur du matériel grand public, sans nécessiter de GPU surpuissant.

Utiliser Flux GGUF

Vous pouvez télécharger les versions quantifiées GGUF des modèles FLUX.1 et FLUX.2 à partir des dépôts Hugging Face suivants :

FLUX.2-dev-gguf

Il s'agit d'une conversion GGUF directe du modèle black-forest-labs/FLUX.2-dev.

FLUX.1-dev-gguf Il s'agit d'une conversion GGUF directe du modèle black-forest-labs/FLUX.1-dev.

FLUX.1-schnell-gguf Il s'agit d'une conversion GGUF directe du modèle black-forest-labs/FLUX.1-schnell.

FLUX.1-Kontext-dev-GGUF La conversion GGUF du modèle contextuelle Flux.1 Kontext [dev], capable de comprendre et modifier les images existantes et d’interpreter les instructions textuelles.

FLUX.1-Krea-dev-GGUF Conversion GGUF par QuantStack du modèle FLUX.1 Krea Dev - un version optimisée pour le réalisme et l’ésthétique de FLUX.1 Dev par Krea AI.

Ces fichiers peuvent être utilisés avec le node personnalisés ComfyUI-GGUF (voir ci-dessous) ou d’autres interfaces comme Forge. Placez les fichiers du modèle dans le répertoire de modèles comme avec un autre checkpoint.

👉

Consultez notre article pour apprendre Comment utilisez Flux.1 avec Forge

En utilisant les versions quantifiées GGUF des modèles Flux, vous pouvez les exécuter efficacement sur des systèmes aux ressources de calcul limitées, tels que le matériel grand public sans GPU surpuissant.

ComfyUI-GGUF

Pour utiliser les modèles Flux GGUF (ou d’autres modèles GGUF) avec ComfyUI, vous devrez installer le node ComfyUI-GGUF. Ce node ajoute la prise en charge de la quantification GGUF, permettant des performances efficaces sur les GPU d'entrée de gamme.

Installation du node

Cliquez sur le bouton Manager dans le menu principal

Sélectionnez le bouton Custom Nodes Manager

Cherchez ComfyUI-GGUF via la barre de recherche

Cliquez sur Install

Après l’installation, relancez ComfyUI.

GGUF Unet Loader

ComfyUI-GGUF permet de charger un modèle GGUF loader.

Fonction : Charge les modèles stockés au format GGUF.

Personnalisation : Vous pouvez placer vos fichiers de modèles .gguf dans le dossier ComfyUI/models/unet et les utiliser directement dans vos flux de travail.

Exemple : Remplacez le nœud standard "Load Diffusion Model" par le nœud "GGUF Loader" dans vos flux de travail existants pour tirer parti de la quantification GGUF.

☝

CLIP Device : L’option "Force/Set CLIP Device" ne fait pas partie de ce pack de node. Évitez de l'installer si vous n'avez qu'un seul GPU, et ne le définissez pas sur cuda:0 pour éviter les erreurs de mémoire insuffisante (OOM).

GGUF est donc un format de fichier révolutionnaire qui simplifie l'utilisation des modèles d'IA, notamment Flux, en offrant des options de quantification, une compatibilité élargie, et une facilité de déploiement. Pour les développeurs cherchant à déployer des modèles d'IA de manière rapide et efficace, en particulier dans des environnements aux ressources limitées, GGUF se révèle être une solution clé.

Qu’est ce que Flux GGUF ?