Name: Tremplin Numérique
Price range: $$$

Au cas où vous ne le sauriez pas, l’IA générative prend le dessus partout. Une nouvelle histoire ChatGPT apparaît quotidiennement, et chaque acteur majeur saute dans l’espace. Maintenant, NVIDIA présente son impressionnant générateur d’IA texte-vidéo.

La division Toronto AI Lab de NVIDIA a récemment lancé un site Web et publié un document de recherche avec des résultats intéressants. Le projet « Synthèse vidéo haute résolution avec modèles de diffusion latente » peut transformer un texte en vidéo, ou en GIF, en quelques secondes. Mieux encore, il peut le faire tout en étant efficace en termes de calcul et en produisant toujours des fichiers haute résolution.

Cependant, dans presque tous les exemples, il est relativement facile de voir que la source de ses images provient directement de Shutterstock. Bien sûr, il est important de se rappeler qu’il s’agit encore d’une technologie émergente et seulement d’un projet de recherche pour l’instant, mais cela soulève à nouveau la question de l’IA et du droit d’auteur.

Firefly AI d’Adobe crée des illustrations assez étonnantes, qui, selon elle, se produisent sans problème de droit d’auteur. Ou, c’est l’idée, du moins. Même Shutterstock lui-même a récemment lancé son propre outil d’IA pour tenter de lutter contre le problème.

Quoi qu’il en soit, il est intéressant de voir presque tous les échantillons de NVIDIA avec un filigrane Shutterstock ou des lignes floues là où il se trouverait. Cela mis à part, l’outil crache toujours de courtes vidéos assez impressionnantes de 4 secondes.

Selon NVIDIA, l’outil est construit sur les technologies actuelles de génération de texte en image telles que Stable Diffusion. En ajoutant d’autres dimensions au modèle, nous obtenons des résultats réalistes. Par exemple, NVIDIA a demandé à l’outil d’intelligence artificielle de « réaliser une vidéo d’un Panda debout sur une planche de surf dans l’océan au coucher du soleil, en haute définition 4K ». Ce que vous voyez ci-dessous est le résultat qu’il a produit.

Encore une fois, les téléspectateurs aux yeux d’aigle verront un contour flou du logo Shutterstock. Ainsi, bien que la vidéo soit extrêmement réaliste et que l’outil ait créé une vidéo de résolution HD 1280 × 2048 d’une durée de 4,7 secondes, le tout à partir d’une ligne de texte, ce n’est toujours pas parfait.

Des échantillons spécifiques du site Web montrent des artefacts autour des mains, en particulier lorsque l’IA essaie de faire une vidéo avec beaucoup de mouvement. Il est également toujours flou à l’endroit où se trouve le logo Shutterstock. Les artefacts et les filigranes rendent l’outil le mieux adapté aux petits GIF et aux vignettes, mais à l’avenir, tout est possible.

Quoi qu’il en soit, taper quelques lignes de texte dans un outil d’intelligence artificielle et obtenir une vidéo utilisable en HD est certainement impressionnant. De plus, gardez à l’esprit qu’il s’agit des pires photos et vidéos d’IA jamais vues. À partir de maintenant, tout continuera à s’améliorer ou à devenir encore plus convaincant.

via TechRadar