Janus-Pro-7B : Deepseek dévoile son modèle d’images

Do not index

Flag

Publish

feather:link

mydate

Qu’est-ce que DeepSeek Janus Pro 7B ?

DeepSeek Janus-Pro-7B est un modèle d'intelligence artificielle conçu pour comprendre et générer des images de haute qualité. En combinant des techniques d'analyse visuelle avancées et une génération d'images améliorée, il vise à produire des visuels plus détaillés et réalistes. DeepSeek cherche ainsi à repousser les limites de la création d'images par IA, en offrant un outil performant et accessible pour diverses applications.

Avec Janus-Pro-7B, DeepSeek cherche aussi à démocratiser l'accès à des technologies d'IA avancées en proposant un modèle performant et open-source, utilisable gratuitement même à des fins commerciales. Cette approche vise à stimuler l'innovation et à remettre en question la domination des grands acteurs établis du secteur de l'IA

Un modèle multimodal performant

Janus-Pro-7B se distingue donc par sa capacité à analyser et générer des images, tout en offrant des performances élevées en traitement du langage naturel. DeepSeek met en avant plusieurs points forts de son modèle :

Une architecture innovante combinant compréhension et génération multimodale

Des performances supérieures sur les benchmarks GenEval et DPG-Bench

Une taille optimisée de 7 milliards de paramètres, offrant un bon équilibre entre puissance et efficacité

Le modèle utilise un framework autorégressif qui sépare l'encodage visuel en voies distinctes tout en maintenant une structure de transformateur unifiée. Cette approche vise à améliorer la qualité et la stabilité des images générées.

De quoi est capable Janus Pro 7B ?

Excellents benchmarks

Janus-Pro-7B de DeepSeek affiche des performances impressionnantes sur plusieurs benchmarks clés :

Score GenEval de 80% en génération d'images à partir de texte

Score DPG-Bench de 84,2%, suggérant une excellente capacité à gérer des prompts complexes avec un alignement sémantique précis

Score de 79,2 au test MMB pour la compréhension mutlimodale

Ces résultats suggèrent que Janus-Pro-7B surpasse ses concurrents majeurs comme DALL-E 3 et Stable Diffusion sur ces benchmarks de référence pour la génération d'images et la compréhension multimodale.

Premier retours mitigés

Cependant, les premiers tests et retours de la communauté sont plus mitigé. La qualité des images générées par Janus Pro 7B n’est pas encore à la hauteur des meilleurs modèles du moment comme Ideogram, Flux ou Midjourney.q

On est en effet plus proche des résultats obtenu à l’époque avec la beta de SDXL ou du regrettable Stable Diffusion 3.

D’autant que les dimensions d’images sont très limitées : Dans sa version actuelle, Janus Pro 7B travaille les images en 384x384px (Soit encore moins que les 512x512 de Stable Diffusion 1.5). Le modèle se concentre donc sur la génération d’images de petites taille et n’est pas vraiment comparable aux modèles courants qui travaillent dans des résolutions largement supérieures.

De l’aveux même de ses concepteurs, “la faible résolution, combinée aux pertes de reconstruction introduites par le tokenizer visuel, produit des images qui, bien que riches en contenu sémantique, manquent encore de détails”.

Bref, en matière de génération d’images, Janus Pro 7B est plus décevant qu’autres chose. On comprend que les annonces de Deepseek insistent surtout sur la comparaison avec DALL-E ou Stable Diffusion 3, qui ne sont pas non plus à la hauteur des autres modèles disponibles en ce début d’année.

Un modèle prometteur

En réalité, Janus Pro 7B est un modèle encore imparfait mais prometteur.

Sa disponibilité en Open Source et la publication des documents de recherche en font un bon candidat pour les chercheur et développeurs qui peuvent l’utiliser comme point de départ pour créer des modèles fine-tuné ou s’inspirer de son architecture pour mettre au point de nouveaux modèles.

Sa nature multimodale est également intéressante. Sa vraie force n’est peut-être pas directement dans la génération d’image mais dans sa capacité à lire, reconnaitre et comprendre les images et à y répondre à la fois avec du texte et des images.

DeepSeek souligne aussi que Janus-Pro-7B a été développé avec des ressources limitées, utilisant seulement quelques centaines de GPU sur une courte période.Cette approche contraste avec celle d'autres acteurs majeurs du secteur, qui mobilisent souvent des ressources considérables pour le développement de leurs modèles.

Janus Pro mérite donc le coup d’oeil, même si il est plutôt décevant en terme de génération pure.

En tous cas, en lançant ce modèle après le succès de r1, DeepSeek confirme sa place de challenger ambitieux dans le monde de l’IA. A mon avis, on n’a pas fini d’entendre parler d’eux…

📎

Pour en savoir plus

La page HuggingFace de Janus-Pro-7B

Une demo en ligne de Janus sur HuggingFace

Le Github de Janus par DeepSeek

Lancement de Janus Pro