vidéo

AI video just took a startling leap in realism. Are we doomed?

ven, 30.05.2025 - 17:40

Un article de Ars Technica qui explore (nombreux exemples à l'appui) les capacités assez impressionnantes de Veo 3, le dernier modèle d'IA générative de vidéos dévoilé par Google.

Quelques remarques :

Bien sûr on pense immédiatement à la capacité de ces outils pour produire des fake news et par conséquent contribuer à la désinformation. Mais l'effet plus délétère et inquiétant est peut-être indirect : lorsque le grand public s'habitue à ne plus rien croire (pour éviter de se faire avoir notamment par ce genre de vidéos), notre capacité collective à communiquer et informer est remise en question de manière fondamentale. Quelque part cela rappelle la fameuse stratégie de Steve Bannon pour détruire la démocratie : flood the zone with shit, "inonder la zone avec de la merde" pour lui ôter toute valeur et la rendre inutilisable.
Je pense quand même qu'il y a une différence entre le fait d'être simple spectateur de ce genre de vidéo (on est facilement bluffé par le résultat) et le fait de produire celle-ci. Les quelques expériences que j'en ai faites (sur d'autres outils du même genre, certes moins sophistiqués mais qui reposent sur les mêmes bases) m'ont surtout fait prendre conscience que quand on a une intention créatrice en tête, il est très difficile de contrôler l'algorithme pour qu'il fasse réellement ce qu'on veut. Face à la qualité un peu "magique" de ces interfaces conversationnelles auxquelles on peut communiquer des instructions comme si on parlait (écrivait) à un humain, il est facile d'oublier que le langage est un outil hautement conceptuel, qui repose sur l'abstraction, et qui appauvrit fondamentalement la réalité qu'il décrit. C'est très efficace pour communiquer entre humains qui ont la même compréhension viscérale et intuitive du réel, mais probablement pas aussi adapté pour un outil qu'on aimerait contrôler précisément. Un artiste maître de son art sera incomparablement plus précis pour obtenir le résultat qu'il souhaite avec son pinceau, que n'importe quel "prompt engineer" avec une IA.
Comme l'écrit Tante sur Mastodon (source 1 et source 2) : les IA génératives nous poussent imperceptiblement à baisser nos standards pour nous convaincre que ce qu'elles produisent correspond à ce qu'on voulait.
En d'autres termes, l'IA n'est pas un outil de création comparable à un crayon, une machine à écrire, ou même à un logiciel informatique de 3D traditionnelle, par exemple. Créer avec une IA s'apparente plus à demander à un artiste de créer quelque chose pour nous. Quelqu'un qui dirait "je suis un créateur parce que j'ai dû trouver les bons mots pour demander à tel artiste de me peindre un tableau" ne serait pas pris très au sérieux...
La comparaison est d'ailleurs d'autant plus pertinente que l'IA doit effectivement vampiriser le travail des artistes (généralement de manière non-consensuelle) pour pouvoir créer quelque chose; l'IA constitue donc une sorte d'interface entre l'utilisateur et l'ensemble des artistes humains qui ont servi à l'entraîner, artistes dont les travaux ont été mélangés et anonymisés dans un immense modèle statistique. Quand on demande à une IA de créer une image, on demande indirectement à des artistes de la créer... Sauf que leur travail a été fait en amont, qu'ils ne sont pas crédités ni payés, et que le résultat contribue à dévaloriser leur activité.
Pour impressionnantes qu'elles soient, ces vidéos restent toujours très lisses. Comme l'article le souligne, c'est le résultat du principe fondamental de ce genre de modèle, dont les capacités de production sont conditionnées par le matériel sur lequel il a été entraîné. Le résultat sera toujours dans une certaine "moyenne" des données d'entraînement.