HiDream

HiDream

Created Time
modele IMG
modele IMG
HiDream est une famille innovante de modèles de génération d'images open-source de nouvelle génération développée par HiDream.ai, une équipe spécialisée dans la création de modèles de génération visuelle à haute fidélité.
HiDream permet de produire des visuels photoréalistes ou artistiques à partir de simples descriptions textuelles, en français ou en anglais, avec une capacité remarquable à comprendre les prompts complexes et à respecter fidèlement les consignes.
notion image
 

Qu'est-ce que HiDream ?

HiDream représente une nouvelle génération de modèles de génération d'images par intelligence artificielle, conçus pour rivaliser avec les meilleurs modèles propriétaires tout en conservant une philosophie open-source.
Ce qui rend HiDream remarquable, c'est sa capacité à comprendre et interpréter avec une finesse exceptionnelle les nuances de vos demandes créatives. Que vous souhaitiez créer un portrait hyperréaliste, une illustration fantastique ou une composition artistique avant-gardiste, HiDream sait adapter son style et sa technique pour répondre précisément à votre vision.
La famille HiDream se décline actuellement en deux gammes principales : HiDream-I pour la génération d'images à partir de texte, et HiDream-E pour l'édition d'images existantes. Chaque gamme propose plusieurs versions optimisées selon vos besoins : qualité maximale, équilibre performance/vitesse, ou génération rapide.
L'architecture avancée de HiDream excelle particulièrement dans le rendu des textures, l'harmonie des couleurs, la cohérence narrative des scènes complexes, et surtout dans le respect fidèle des instructions textuelles, même les plus complexes.

Qui est derrière HiDream ?

Les modèles HiDream sont développés par HiDream.ai, une équipe spécialisée dans la création de modèles de génération visuelle à haute fidélité. La structure du projet est résolument open-source, avec une publication complète du code, des poids et des instructions d'utilisation sur GitHub et Hugging Face.
Les modèles sont en général d'abord révélés via la plateforme Vivago.ai, fruit de la même équipe, qui sert de vitrine officielle pour les démonstrations en ligne. Cette approche permet de tester et d'affiner les modèles avant leur publication open-source.
PEtit à petit, HiDream.ai s'impose comme un acteur innovant dans le domaine de l'IA générative, proposant des alternatives open-source performantes aux modèles propriétaires, avec un focus particulier sur la compréhension fine des prompts et la génération d'images de haute qualité.

Comment utiliser HiDream ?

HiDream-I1 en ligne

HiDream peut être testé et utilisé en ligne sur différente plateformes.
Dès sa sortie, il a été rendu accessible sur Vivago.ai : la plateforme officielle d’HiDream AI dotée d’une interface utilisateur simple.
Une démonstration d’implémentation avec Gradio est égaement disponible sur Hugging Face Space
notion image

HiDream en local

HiDream-I1 peut également être télécharger pour une utilisation en local.
Le Github officiel donne les indications de base pour une execution via un script Python.
HiDream bénéficie également d’une intégration native dans ComfyUI qui permet de l’utiliser facilement.
HiDream-E1 est également disponibles et supporté par ComfyUI.
notion image
Configuration recommandée : GPU ≥ 16 Go VRAM (24+ pour la version Full). Versions quantifiées 4-bit disponibles. Il est également recommandé d’utiliser Flash Attention 2 avec CUDA en version 12.4 ou supérieure.

Prompter avec HiDream

HiDream excelle avec des prompts détaillés et narratifs, en français comme en anglais. Le modèle comprend particulièrement bien les descriptions complexes avec des nuances stylistiques, des émotions et des détails techniques précis.
Une des caractéristiques remarquables d'HiDream est sa capacité exceptionnelle à suivre fidèlement les instructions, même les plus spécifiques, grâce à son architecture basée sur plusieurs encodeurs de texte en parallèle (T5-XXL, CLIP ViT-L et LLaMA 3.1).

Images générées avec HiDream-I1

Voici quelques exemples d’images générées avec Image-01 et partagées par différents sur 𝕏, Reddit ou d’autres réseaux sociaux (cliquez sur l’image pour découvrir son créateur).
https://x.com/MathisYanis/status/1910280704711065853
https://www.reddit.com/media?url=https%3A%2F%2Fpreview.redd.it%2Fhidream-my-jaw-dropped-along-with-this-model-v0-j8el97fv24ue1.png%3Fwidth%3D506%26format%3Dpng%26auto%3Dwebp%26s%3Db6b18f96f23da7c058c2bb31a98693dada3c36be
https://x.com/LudovicCreator/status/1910163276232606046/photo/2
https://x.com/MathisYanis/status/1910280704711065853
 
https://x.com/MathisYanis/status/1910280704711065853
https://x.com/MisstyFlux/status/1910044123731579112/photo/2
https://www.reddit.com/media?url=https%3A%2F%2Fpreview.redd.it%2Fhidream-my-jaw-dropped-along-with-this-model-v0-6hgygmkxv1ue1.jpeg%3Fwidth%3D638%26format%3Dpjpg%26auto%3Dwebp%26s%3D74f54da9b251d13acd46fee30a5a0e14878ccc96
https://x.com/MathisYanis/status/1910280704711065853
https://x.com/vivago_ai/status/1910552783897715196/photo/1
https://x.com/mrgris/status/1910304766091030805/photo/1
 
https://x.com/LudovicCreator/status/1910163272793305572/photo/1
https://x.com/LudovicCreator/status/1910163276232606046/photo/4
https://x.com/StableTom/status/1910274713361711260/photo/1
https://x.com/LudovicCreator/status/1910163276232606046/photo/1
https://x.com/PhotoGarrido/status/1909632517017129207

Les différents modèles HiDream

Depuis son lancement, la famille HiDream s'est structurée autour de plusieurs modèles spécialisés, chacun optimisé pour des usages spécifiques. Voici un aperçu complet des différentes versions disponibles.
Modèle
Usage principal
Qualité & Performance
Caractéristiques clés
Licence
HiDream-I1-Full
Production professionnelle, qualité maximale
Qualité exceptionnelle, 50 pas d'inférence
Architecture complète, respect rigoureux du prompt
MIT (sauf LLaMA 3.1)
HiDream-I1-Dev
Usage quotidien, équilibre qualité/vitesse
Excellente qualité, 28 pas d'inférence
Version distillée, recommandée pour la plupart des cas
MIT (sauf LLaMA 3.1)
HiDream-I1-Fast
Génération rapide, prototypage
Bonne qualité, 16 pas d'inférence
Optimisé pour la réactivité, coût computationnel minimal
MIT (sauf LLaMA 3.1)
HiDream-E1-Full
Édition d'images professionnelle
Haute qualité d'édition, contrôle précis
Édition basée sur instructions, raffinement avancé
MIT

HiDream-I1 : Génération d'images

HiDream-I1-Full

La version la plus complète et la plus performante du modèle de génération d'images. Avec 17 milliards de paramètres, ce modèle peut générer des images de haute qualité en quelques secondes et a obtenu des scores de pointe dans plusieurs tests de benchmark.
Elle utilise 50 pas d'inférence pour produire des images d'une qualité maximale, avec un respect rigoureux des détails du prompt et une richesse visuelle impressionnante.
  • Architecture : Diffusion Transformer (DiT) avec Mixture-of-Experts (MoE)
  • Encodeurs texte : T5-XXL, CLIP ViT-L, LLaMA 3.1 (8B Instruct)
  • Résolution : Jusqu'à 2048x2048 pixels
  • Usage : Production professionnelle, rendus photoréalistes, travaux de haute précision
  • Configuration requise : GPU avec au moins 24 Go de VRAM

HiDream-I1-Dev

Version intermédiaire, distillée pour offrir un excellent compromis entre qualité et vitesse. Avec ses 28 pas d'inférence, elle conserve une excellente fidélité aux prompts et une esthétique soignée tout en réduisant significativement le temps de génération.
C'est cette version qui est utilisée pour les démonstrations en ligne (Vivago, Hugging Face) et recommandée pour la plupart des cas d'usage quotidiens.
  • Performance : 28 pas d'inférence
  • Qualité : Très haute, proche de la version Full
  • Usage : Création quotidienne, tests créatifs, développement
  • Configuration requise : GPU avec 16+ Go de VRAM

HiDream-I1-Fast

Cette version, allégée à 16 pas d'inférence, est optimisée pour la réactivité. Elle permet de générer des visuels rapidement, avec un coût computationnel minimal. Bien qu'elle perde légèrement en finesse et en précision par rapport aux deux autres versions, elle reste très efficace pour les applications en temps réel, les tests rapides ou les environnements aux ressources limitées.
  • Performance : 16 pas d'inférence
  • Vitesse : Génération ultra-rapide
  • Usage : Prototypage, applications temps réel, ressources limitées
  • Configuration requise : GPU avec 12+ Go de VRAM

HiDream-E1 : Édition d'images

HiDream-E1-Full

HiDream-E1 est un modèle d'édition d'images basé sur HiDream-I1, lancé le 28 avril 2025. Ce modèle révolutionnaire permet de modifier des images existantes à partir d'instructions textuelles simples, en conservant la cohérence visuelle et stylistique de l'image originale.
HiDream-E1 excelle dans les tâches d'édition complexes : changement de style, modification d'objets, ajout d'éléments, transformation artistique, et bien plus encore.
Fonctionnalités principales :
  • Édition basée sur instructions : Modifiez vos images avec des prompts en langage naturel
  • Raffinement automatique : Paramètre refine_strength pour équilibrer édition et amélioration
  • Support multi-styles : De la conversion Ghibli au photoréalisme
  • Préservation de cohérence : Maintient la structure et l'identité de l'image source
Utilisation :
python
Performance : HiDream-E1 obtient des résultats de pointe sur les benchmarks EmuEdit et ReasonEdit, surpassant des modèles comme OmniGen, MagicBrush et UltraEdit.

HiDream en détails

Disponibilité et Licences

Les modèles HiDream sont open-source et distribués sous licence MIT, ce qui signifie qu’ils peuvent être librement utilisés, modifiés et intégrés dans des projets personnels ou commerciaux. C’est un choix stratégique qui les rend particulièrement attractifs pour les développeurs indépendants et les startups souhaitant bâtir des services ou des applications sur une base fiable et puissante.
Il faut cependant noter que l’un des encodeurs de texte utilisés, LLaMA 3.1 (8B Instruct), est soumis à la Llama Community License. Cette licence impose certaines conditions d'utilisation, notamment pour des usages commerciaux, et nécessite une acceptation explicite lors du téléchargement via Hugging Face.
Tous les poids des modèles sont hébergés publiquement sur Hugging Face. Le code source complet, incluant les pipelines d’inférence et les scripts de démonstration, est quant à lui disponible sur GitHub.
  • Modèle open-source sous licence MIT
  • L’encodeur LLaMA 3.1 est soumis à la Llama Community License
  • Téléchargement et usage gratuits, y compris à des fins commerciales

Points forts

HiDream-I1 se distingue par une combinaison remarquable de précision, de créativité et de liberté d’usage, qui le positionne comme un modèle de premier plan dans l’écosystème open-source. Voici les points qui en font un outil particulièrement puissant :
  • Interprétation précise des prompts : HiDream-I1 atteint des scores records sur les benchmarks comme GenEval et DPG, qui mesurent la capacité d’un modèle à suivre fidèlement les consignes données dans un prompt. Il excelle notamment dans la gestion du nombre d’objets, des couleurs, des attributs spécifiques et de leur disposition dans l’image.
  • Grande variété de styles : Que vous souhaitiez générer un portrait photoréaliste, une scène de fantasy, une peinture traditionnelle asiatique ou un dessin animé coloré, HiDream-I1 s’adapte à votre intention. Cette diversité stylistique est rendue possible grâce à l’entraînement sur un large corpus multi-genres et à la richesse de ses encodeurs sémantiques.
  • Qualité visuelle élevée : Avec un score de 33,8 sur le benchmark HPS v2.1, HiDream-I1 rivalise avec les meilleurs modèles propriétaires. Il génère des images nettes, bien structurées, aux textures détaillées et aux compositions souvent très équilibrées. Les résultats visuels sont cohérents, expressifs et particulièrement adaptés à des usages créatifs avancés.
  • Usage libre et flexible : Grâce à sa licence MIT (hors LLaMA 3.1), HiDream-I1 peut être utilisé aussi bien localement que via des plateformes en ligne, sans restrictions majeures. Que vous soyez artiste, développeur ou chercheur, vous pouvez l’intégrer dans vos workflows existants, tester de nouveaux cas d’usage ou l’adapter à vos projets commerciaux sans barrières juridiques.

Architecture & Détails techniques

Composants techniques

HiDream-I1 est construit avec une nouvelle structure de Diffusion Transformer (DiT) sparse. Il commence par une conception découplée à double flux de DiT sparse avec une architecture dynamique Mixture-of-Experts (MoE).
Cette architecture particulièrement ambitieuse mobilise 17 milliards de paramètres, ce qui le place parmi les plus grands modèles de génération d'images disponibles en open-source. Le mécanisme de Mixture-of-Experts (MoE) permet d'activer dynamiquement certains sous-réseaux spécialisés selon le contenu du prompt, optimisant l'allocation des ressources lors de l'inférence.
Pour la compréhension linguistique, HiDream intègre un trio d'encodeurs de texte puissants et complémentaires :
  • CLIP ViT-L pour l'ancrage visuel
  • T5-XXL pour le raisonnement sémantique profond
  • LLaMA 3.1 (8B instruct) pour la compréhension fine et contextuelle des instructions complexes

Pipeline & Intégrations

HiDream-I1 est fourni avec une pipeline personnalisée compatible avec la bibliothèque Diffusers, appelée HiDreamImagePipeline. Cette intégration permet une prise en main rapide dans n'importe quel environnement Python.
Intégrations disponibles :
  • ComfyUI : Support natif avec nodes dédiés
  • Diffusers : Pipeline officielle pour Python
  • Gradio : Interface web interactive
  • APIs tierces : Disponible sur plusieurs plateformes
Des optimisations avancées comme FlashAttention sont recommandées pour améliorer l'efficacité des calculs dans les couches de transformeurs.

Entraînement et optimisations

Le modèle HiDream-I1 a été entraîné sur un corpus vaste et diversifié, intégrant de nombreux styles visuels et une grande variété de structures textuelles. Cette richesse de données d'entraînement permet à HiDream d'exceller aussi bien dans des styles réalistes que stylisés ou abstraits.
Les versions Dev et Fast du modèle ont été obtenues grâce à des techniques de distillation, qui visent à transférer les connaissances du modèle Full tout en réduisant le nombre d'étapes de diffusion.

Performances de HiDream-I1

Comparé à d’autres modèles récents, HiDream-I1 se révèle être une excellente alternative Open Source face aux modèles propriétaires.
Il est en effet en bonne positions parmi les meilleurs modèles du classement établis par artificialanalysis.ai où il affiche un score proche de Reve et de Recraft V3.
HiDream-I1 Dev
Seedream 3.0
Midjourney 7 Alpha
GPT-4o
Score ELO
1077
1166
1047
1164
Classement
16e
🥇 1er
21e
🥈 2e
Points forts
Respect du prompt, Open Source
Polyvalence, qualité, textes
Styles et esthétique
Multimodalité et respect du prompt
Classement mis à jour le 17/08/2025

Articles et tutos HiDream