Stable Video Diffusion

Tout ce qu’il faut savoir pour comprendre et utiliser SVD

Génération de vidéos avec l’IA

Stability AI a conçu Stable Video Diffusion (SVD) pour servir une large gamme d'applications vidéo dans des domaines tels que les médias, le divertissement, l'éducation et le marketing.
Cette IA permet de transformer des textes et des images en scènes vivantes et de passer du concept à la créations cinématographiques en direct.
 
Video preview
 
📌
Stable Video Diffusion en bref
Stable Video Diffusion se présente sous la forme de deux modèles image-to-video, capables de générer 14 et 25 images et d’en faire une vidéo avec un frame rate de 3 à 30 images par seconde.
Il s'agit de modèles Open Source, dont le code et les poids sont librement accessibles.
Durée des vidéos
2 à 5 secondes

Images par seconde
Jusqu’à 30 FPS (images par seconde)

Temps de traitement
2 minutes ou moins
 

La génération de vidéos par Stability AI

De l’image à la vidéo

SVD est un modèle image-to-video (img2vid). Vous fournissez la première image et le modèle génère un court clip vidéo à partir de celle-ci.

Exemples de vidéos générées avec SVD

Voici deux exemples d’images crées avec SDXL et les vidéos générées par Stable Video Diffusion à partir de ces images.
notion image
 
 
notion image
 

Conception du modèle SVD

L'article intitulé Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Dataset (2023) d'Andreas Blattmann et de ses collaborateurs décrit en détail le modèle et son processus d'entraînement.
SVD se distingue par ses 1,5 milliard de paramètres, reflétant sa complexité et sa capacité à traiter des informations détaillées.
Pour son entraînement, il a bénéficié d'une base de données vidéo extrêmement vaste, assurant une diversité et une richesse de contenu. Dans la phase finale de son développement, le modèle a été affiné et perfectionné en utilisant un ensemble de données plus restreint, mais caractérisé par une qualité supérieure, afin d'optimiser sa précision et sa performance.

Etapes de formation de SVD

Le modèle SVD est passé par trois étapes de formation :
  1. La création d'un modèle initial basé sur des images.
  1. L'élargissement de ce modèle pour traiter des séquences vidéo, suivi d'un pré-entraînement intensif à l'aide d'un vaste corpus de vidéos.
  1. Le raffinement de ce modèle vidéo avec un ensemble plus restreint de vidéos de haute qualité.
La qualité et la pertinence de la base de données de vidéos ont joué un rôle crucial dans le succès de ce modèle.
Le point de départ pour le modèle vidéo était le modèle d'image Stable Diffusion 2.1, le prédécesseur moins connu (et moins aimé) du célèbre SDXL. Ce modèle d'image pré-entraîné a servi de fondation robuste pour le développement de SVD.

Adaptation du U-Net

Techniquement, pour adapter SVD aux spécificités du traitement vidéo, des couches de convolution temporelle et des mécanismes d'attention ont été intégrés à l'estimateur de bruit U-Net.
Cela a permis au modèle de traiter des vidéos au lieu de simples images. Dans cette configuration, un tenseur latent représente désormais une séquence vidéo complète, et le débruitage se fait simultanément sur toutes les images via un processus de diffusion inversé.
Cette approche de diffusion temporelle est similaire à celle utilisée dans le modèle VideoLDM de NVidia.

Un modèle polyvalent

L'une des principales caractéristiques de Stable Video Diffusion est son adaptabilité à différents usages et applications.
C'est un outil polyvalent qui brille dans des tâches telles que la génération de vues multiples à partir d'une seule image, avec l'option d'affiner sur des ensembles de données multi-vues. Stability AI travaille d’ailleur à l'expansion de ses capacités pour répondre à un éventail d'applications encore plus large.
 

Articles et tutoriels à propos de SVD