Et si rencontrer Dalida, Jean Gabin ou Lady Di était possible en 2022 ? On en rêverait, Thierry Ardisson l’a (presque) fait. Dans Hôtel du Temps, dont la première édition sera diffusée lundi 2 mai sur France 3, le présentateur star interviewe acteurs, chanteuses et politiques décédés. Comment est-ce possible ? En utilisant l‘une des applications de l’intelligence artificielle : les deepfakes. Plus précisément, le présentateur et son équipe se sont appuyés sur les technologies de deux sociétés françaises, Ircam Amplify et Mac Guff, pour recréer, avec l’une, les voix des stars disparues, et avec l’autre, leurs visages.

Derrière l’expérience algorithmique, deux sociétés françaises

« Un de nos axes de travail est la voix au sens large », explique Nicolas Pingnelain, directeur commercial d’Ircam Amplify. Créée en 2020, la société vise à valoriser économiquement les recherches fondamentales menées à l’Institut de recherche et coordination acoustique/musique (Ircam). « En amont, cela signifie détecter les émotions, les marqueurs de stress ou d’anxiété, en aval, de synthétiser une voix capable de reproduire ce type de variations. » L’humain est encore plus sensible à la voix qu’à l’image, continue-t-il, un rien nous permet de détecter si elle est fausse. Pas étonnant que l’équipe de Thierry Ardisson se soit tournée vers les chercheurs français : une voix monotone comme celle de nos assistants intelligents pour prendre les intonations de Dalida, ça n’aurait jamais fonctionné.

Pour les visages aussi, il fallait créer l’illusion de la réalité. L’équipe s’est tournée vers Mac Guff, studio français de 35 ans d’âge, créateur, entre autres, de Moi, moche et méchant. « Nous avons toujours eu une dimension recherche et développement, qui nous permet de rester à la pointe, raconte son président Rodolphe Chabrier. Nous avons ainsi été parmi les premiers à faire du morphing, du relief… » Il y a cinq ans, l’entrepreneur se lance dans l’intelligence artificielle. Mac Guff se construit bientôt deux outils : le Talking Picture, pour faire « parler » des images fixes, et le Face Engine, dédié à recréer des visages en 3D. Toutes les deux construites à partir de modèles d’apprentissage profond, ces technologies ont permis de calquer les visages de stars du passé sur les corps des actrices et acteurs qui ont donné la réplique à Thierry Ardisson pendant le tournage du docu-fiction.

Comment ressuscite-t-on les morts ?

Car Thierry Ardisson y tient : Hôtel du Temps est un travail documentaire. Et c’est vrai : pour entraîner les machines algorithmiques qui reconstituent visage et voix, il faut leur fournir du matériel. Ces jeux de données d’entraînement ont été constitués de toutes les archives possibles sur chacune des célébrités que l’émission fait revivre. « Des apparitions télévisées, des images données par les familles, des films dans le cas d’acteurs comme Jean Gabin, énumère Rodolphe Chabrier… On prend tout ce que l’on trouve ! » Pour la voix, c’est un peu plus simple, explique Nicolas Pingnelain : « L’important est d’avoir des échantillons de tous les phonèmes, toutes les syllabes qui existent dans la langue. Après, avec quelques dizaines de minutes de discours, on peut déjà avoir un bon résultat. » Quant aux paroles prononcées par Dalida, Lady Di ou Coluche dans l’émission, souligne Thierry Ardisson, toutes ont réellement été dites du vivant des célébrités.

Le résultat fonctionne plutôt bien… Mais tout de même, on ne peut s’empêcher de ressentir un malaise. Serait-ce l’effet de la vallée de l’étrange, qui rend les robots tentant d’imiter les humains un peu désagréables à la personne qui les observe ? Est-ce la peur d’un certain lissage des visages, quand on s’attarde sur le nez un peu trop fin de la Dalida artificielle, sur les photos de tournages ? « On a fait valider la voix de Dalida à son frère Orlando il y a à peine deux semaines et lui-même ne sait pas faire la différence entre la version synthétisée et la réelle », assure Nicolas Pingnelain. « Quand ils ont vu le résultat, les fils Gabin retrouvaient les expressions de leur père, ils étaient épatés ! » ajoute Rodolphe Chabrier. La production a aussi pris la décision de « magnifier » les stars, précise-t-il, « de chercher la Dalida "iconique", comme dit Thierry ». Dans ce cas, le malaise vient peut-être de questionnements éthiques : est-ce que c’est acceptable, de faire « revivre » des personnes décédées ? Réponse de tous ceux qui ont travaillé sur Hôtel du temps : non seulement aucune loi ne l’interdit, mais les ayants droit ont tout revu, les scripts, les visages, les voix, et tout validé.

Hôtel de l’innovation ?

« Un outil n’a pas d’idéologie, souligne Thierry Ardisson, ce point est très important face aux a priori qui peuvent exister ». Rodolphe Chabrier assène le même message et on ne peut s’empêcher de sourire : dans la tech, l’argument de la neutralité est un classique. Dans le monde de l’intelligence artificielle, de plus en plus de chercheurs et d’activistes estiment pourtant que poser le problème en termes de bon ou de mauvais usage n’est pas toujours pertinent : dans certains cas, il faudrait simplement s’abstenir de développer un outil. Pour Hôtel du temps, cela dit, force est de constater que Thierry Ardisson suit une idée qui l’obsède depuis longtemps : en 1994, il « ressuscitait » John Lennon dans Autant en emporte le temps. En 2002, c’est Victor Hugo qu’il invitait sur le plateau d’On aura tout vu, aux côtés de Renaud et Guy Bedos, bien vivants. Remplacer les sosies par des deepfakes, c’est peut-être simplement vivre avec son temps ?

Ce serait manquer toute la dimension d’innovation qu’a nécessitée la création de l’émission : Rodolphe Chabrier comme Nicolas Pingnelain soulignent l’aspect novateur du programme et le travail que cela a demandé. « 60 minutes de visages recomposés sur 90 minutes de programme, ça n’a jamais été fait auparavant ! » s’exclame le dirigeant de Mac Guff, ne serait-ce que parce que les technologies accessibles avant que la société ne construise ses propres modèles algorithmiques auraient rendu l’opération beaucoup trop chère. Pour la synthétisation des voix, « nos chercheurs ont modifié l’outil il y a moins d’un mois, et ils le feront sûrement encore après la diffusion d’Hôtel du temps » indique Nicolas Pingnelain : l’émission a utilisé des applications directement issues de la recherche fondamentale. Chaque avancée scientifique permettra d’améliorer les programmes qui ont été construits pour l’occasion.

Une double opportunité culturelle

En fait, peut-être qu’Hôtel du temps ouvre deux axes culturels à la fois : la capacité de mieux connaître les stars interviewées, d’abord. Après tout, le but déclaré de Thierry Ardisson est de « spectaculariser la culture et rendre le savoir captivant ». C’est aussi l’opportunité de voir ce que peut donner une technologie encore jeune dans le domaine des effets spéciaux visuels et sonores. Les deep fakes ont déjà été utilisés dans des séries – par Mac Guff, pour rajeunir Mathieu Amalric dans Le bureau des légendes, ou par l’opérateur russe Megafon, pour faire jouer Bruce Willis dans une publicité sans qu’il ne joue vraiment.

Difficile de prédire si Hôtel du temps marquera en lui-même un tournant. En revanche, travailler sur ce cas précis a permis aux développeurs de Mac Guff et aux chercheurs de l’Ircam d’avancer dans leurs domaines respectifs. Et parmi les applications qu’ils imaginent à leurs nouveaux outils algorithmiques, Rodolphe Chabrier et Nicolas Pingnelain esquissent des pistes aussi variées que l’authentification vocale (pour enfin abandonner les mots de passe), le doublage (fini les voix françaises ne correspondant pas aux acteurs américains ?) ou, plus classiquement, la retouche des visages puis des corps. « Avec le Face Engine, on peut recréer, rajeunir, vieillir, grossir, transformer quelqu’un en grand brûlé de manière très réaliste, pour le cinéma ou le jeu vidéo », illustre Rodolphe Chabrier. Qui sait quelle émission inventera Thierry Ardisson lorsqu’il sera possible de jouer aussi sur les corps et les environnements.