La nouvelle caméra virtuelle de Stability AI transforme n'importe quelle photo en une superbe vidéo 3D, et je suis impressionné par la qualité.

Des images 2D aux vidéos 3D

Les vidéos Stability AI ajoutent du mouvement et de la vie au texte et aux images depuis des années, mais elles ajoutent désormais littéralement une nouvelle dimension en transformant des images 2D en vidéos 3D. Cette technologie constitue un ajout qualitatif au domaine de l’intelligence artificielle générative pour la vidéo.

Le nouvel outil Stable Virtual Camera de la société est conçu pour traiter même une seule image et la transformer en une vidéo animée multi-perspectives, ce qui signifie que vous pouvez faire pivoter la vidéo et la visualiser sous n'importe quel angle. Cet outil permet de créer facilement du contenu vidéo 3D innovant.

Ce concept n’est pas entièrement nouveau, car les caméras virtuelles sont depuis longtemps un élément essentiel du cinéma et de l’animation, permettant aux créateurs de naviguer et de manipuler des scènes numériques. Mais Stability AI reprend ce concept et y ajoute une forte dose d’IA générative. Le résultat est qu'au lieu de nécessiter une reconstruction détaillée de la scène 3D ou des paramètres de caméra finement calibrés, Stable Virtual Camera permet aux utilisateurs de créer un mouvement 3D fluide et précis en profondeur, même à partir d'une seule image, le tout avec un minimum d'effort.

Ce qui distingue cet outil des autres outils de génération de vidéos IA, c'est qu'il ne devine pas son chemin à travers les animations et ne s'appuie pas sur des ensembles de données massifs ou une reconstruction image par image. Stable Virtual Camera utilise un processus de propagation multi-vues pour générer de nouveaux angles en fonction de l'image fournie afin que le résultat ressemble à un modèle qui pourrait réellement exister dans le monde réel. Cette approche améliore le réalisme des vidéos résultantes.

L'outil permet aux utilisateurs de contrôler les trajectoires de la caméra avec une précision cinématographique, en choisissant parmi des actions telles que le zoom, l'orbite ou même une trajectoire en spirale. La vidéo résultante peut être au format portrait pour les appareils mobiles ou au format écran large. L'appareil photo par défaut ne peut fonctionner qu'avec une seule image mais peut gérer jusqu'à 32 images.

Stability AI a rendu le modèle disponible sous une licence non commerciale à des fins de recherche. Cela signifie que vous pouvez l'essayer si vous avez des compétences techniques en obtenant le code depuis GitHub. Être open source, comme l'est généralement Stability AI, signifie également que la communauté des développeurs d'IA peut améliorer et étendre les capacités de la caméra virtuelle sans avoir à payer de frais à l'entreprise.

IA 3D

Bien entendu, aucun modèle d’IA n’est parfait, et Stability AI est transparent quant aux défauts sur lesquels il travaille encore. Si vous espérez créer des personnes et des animaux réalistes, ou des matériaux avec des textures particulièrement désordonnées (comme l'eau), vous pourriez vous retrouver avec quelque chose qui appartient à un film d'horreur à petit budget.

Ne soyez pas surpris si vous voyez des vidéos réalisées avec cet appareil qui montrent des perspectives se déplaçant étrangement sur des objets ou qui présentent des changements de perspective qui entraînent des effets de scintillement et de fantômes. Il reste à voir si cet outil sera largement adopté ou s’il s’agira simplement d’un autre outil d’IA négligé par les cinéastes de niche.

Sans parler de la concurrence à laquelle il est confronté de la part d'outils vidéo IA comme Sora d'OpenAI, Pika, Runway, Pollo et Dream Machine de Luma Labs. Stable Virtual Camera devra faire ses preuves dans le monde réel du cinéma pour aller au-delà d'une simple vidéo de démonstration amusante.