« Si mon travail permet une prise de conscience, cela me rend heureux », estime le créateur des deepfakes de Tom Cruise

INTERVIEW Chris Umé, le VFX artiste derrière les récents deepfakes de Tom Cruise, raconte comment il a réalisé ces vidéos bluffantes

Propos recueillis par Laure Beaudonnet

— 

Capture d'écran d'un deepfake bluffant de Tom Cruise sur la chaîne TikTok @deeptomcruise?.
Capture d'écran d'un deepfake bluffant de Tom Cruise sur la chaîne TikTok @deeptomcruise?. — tiktok.com/@deeptomcruise?
  • Plusieurs deepfakes (de fausses vidéos) de Tom Cruise ont circulé récemment sur TikTok.
  • Chris Umé, le spécialiste des effets spéciaux à l’origine de ces créations, a répondu aux questions de 20 Minutes.
  • Il nous explique comment il est arrivé à un tel résultat, et en quoi cela peut amener à une prise de conscience sur cette technologie.

 

De fausses vidéos ultra-réalistes de Tom Cruise en train de jouer au golf ou de faire un tour de magie ont enflammé TikTok il y a quelques jours.  Ces « deepfakes » (vidéo ou enregistrement audio qui peut faire dire tout et n’importe quoi à n’importe qui à l’aide du deep learning), diffusés sur le compte DeepTomCruise, ont été réalisées par le VFX artiste Chris Umé.

Il revient pour 20 Minutes sur la technologie derrière ces vidéos bluffantes et sa collaboration avec l’acteur Miles Fisher, imitateur de Tom Cruise. Des vidéos qui, si elles laissent présager un futur inquiétant pour les fake news, ne sont ici que de l’art.

Pouvez-vous en dire plus sur la technique du « face swap » que vous avez utilisée pour les deepfakes de Tom Cruise ?

Pour réaliser un deepfake, vous devez récupérer un tas de données, des vidéos, des photos d’une personne. Ici, j’ai cherché les meilleures vidéos que je pouvais trouver de Tom Cruise. Cela m’a pris beaucoup de temps pour les rassembler.

Il faut couvrir tous les angles : gauche, droite, au-dessus, en dessous. Ensuite, vous prenez la vidéo sur laquelle vous souhaitez mettre le visage de Tom Cruise. Et vous dites à l’ordinateur de mettre le visage de la star à la place du visage de la personne. Si elle sourit, la machine apprendra à faire sourire Tom Cruise. Et on croirait le voir vraiment.

Aurait-il été possible de créer ce deepfake sans l’acteur Miles Fisher ?

C’est très compliqué de le faire sans l’aide d’un acteur. Comme vous pouvez le voir dans la vidéo, Miles Fisher est très talentueux. Il sait sourire comme Tom Cruise. Il sait comment il parle, il sait tout de Tom Cruise. Il est l’un des meilleurs imitateurs au monde de l’acteur hollywoodien. Et il lui ressemble, il a le même genre de visage, les mêmes cheveux. C’est ce qui fait que quand vous regardez le deepfake, vous vous dites : « que se passe-t-il ? »

Aurait-il été possible de cloner la voix de Tom Cruise de zéro ?

Dans notre vidéo, nous avons utilisé la voix de l’acteur. Il n’a pas du tout la même voix que Tom Cruise, mais cela ne nous a pas dérangés car c’était pour la blague. Il existe des outils d’intelligence artificielle qui permettent de créer une voix. Ils ne sont pas parfaits, ça sonne encore un peu faux, mais ils évoluent très vite.

Dans vos vidéos, Tom Cruise a l’air plus jeune. Avez-vous utilisé d’anciennes photos ou vidéos de lui ?

Miles Fisher a 37 ans et Tom Cruise 58 ans. Le modèle d’intelligence artificielle est entraîné à mélanger l’acteur qui interprète dans la vidéo et Tom Cruise. Donc le deepfake montre un Tom Cruise plus jeune qu’aujourd’hui. Les données que j’ai utilisées vont de 2010 à 2020. Il a l’air plus jeune parce que Miles Fisher est plus jeune.

Comment en êtes-vous arrivé à l’idée du tour de magie ou du golf ?

En discutant avec Miles Fisher, nous avons très vite eu l’idée de faire quelque chose d’idiot. Tout le monde voit Tom Cruise comme une célébrité, il a toujours été à Hollywood, personne ne l’imagine normal. Nous nous sommes dits : « faisons quelque chose de vraiment idiot, quelque chose que nous pourrions faire chez nous, comme un tour de magie ». Comme à une fête de famille où votre oncle viendrait vous montrer un tour. Nous pensions simplement que ce serait drôle.

Avez-vous utilisé un logiciel de « deep learning » disponible en ligne ou avez-vous créé votre propre technologie pour faire ces vidéos ?

J’ai utilisé le logiciel DeepFaceLab, disponible en ligne, pour entraîner le modèle. Ensuite, j’ai utilisé mes propres techniques pour améliorer l’image et obtenir le meilleur résultat possible. J’ai passé environ 24 heures de post-production pure sur chacune des vidéos séparément. Ce n’est pas facile d’arriver à ce niveau de qualité seulement avec le logiciel.

Avez-vous utilisé des outils développés dans le cadre de votre travail avec Deep Voodoo Studio, lancé par les créateurs de « South Park », Trey Parker et Matt Stone ?

Je n’utilise pas les outils de Deep Voodoo Studio pour mes projets personnels, ce n’est pas autorisé. Mais chez Deep Voodoo Studio, ils travaillent sur les deepfakes depuis un an, bien avant que Hollywood ne prenne conscience du potentiel de cette technologie. Ils sont très avancés dans la compétition. C’est passionnant de travailler avec eux, j’en suis très fier.

Que pensez-vous du futur des deepfakes et du danger qu’ils représentent dans la diffusion des fake news ?

J’aimerais d’abord préciser que la vidéo de Tom Cruise est très difficile à reproduire. Vous avez besoin d’un acteur professionnel, ici Miles Fisher. Vous avez besoin d’un artiste spécialisé dans les deepfakes, comme moi, spécialiste des effets spéciaux qui possède un matériel sophistiqué. Si vous combinez les deux, vous avez un mini-studio de Hollywood. C’est très compliqué de le refaire à la maison.

Je pense sincèrement qu’il faut que la loi encadre ces technologies. Il y aura toujours des gens pour les utiliser de façon malveillante et il faut s’en préoccuper. C’est vrai pour toutes les technologies. Je ne crois pas qu’il faut interdire les deepfakes, car il y aura toujours des façons créatives de les utiliser. Il faut réfléchir à un système de détection, les labelliser, peut-être. Je pense que les journalistes ont un rôle important à jouer pour confirmer les sources, dire qu’une chose est vraie. Il y a vingt ans, quand Photoshop est arrivé, les gens ne se rendaient pas compte qu’on pouvait retoucher des images. Aujourd’hui, tout le monde le sait. Si mon travail permet une prise de conscience à travers ces vidéos, cela me rend heureux. Mais je suis un simple artiste.