Avec l’IA traductrice de HeyGen, finie la guerre entre pro-VOST et pro-VF ?

Version originale Avec l’outil de la start-up américaine, le mouvement des lèvres correspond au texte prononcé dans la langue traduite

Xavier Regnier
Une vingtaine de langues sont pour le moment disponibles sur HeyGen.
Une vingtaine de langues sont pour le moment disponibles sur HeyGen. — Canva
  • La start-up HeyGen a récemment développé un outil qui permet de faire parler une langue étrangère à n’importe qui en vidéo.
  • Le principe : traduire ce que dit la personne filmée, lui faire dire en respectant sa voix et ses intonations, et le « petit plus », modifier le mouvement des lèvres pour qu’il corresponde au texte dans la langue traduite.
  • Est-ce la fin de la guerre aux doublages menés par les pro-VOST, qui reprochent un problème de synchronisation labiale aux films ? Pas si simple, pour la linguiste Claire Larsonneur, maîtresse de conférences à l’Université de Paris-8.

La querelle est presqu’aussi vieille que l’histoire du cinéma. D’un côté, les puristes, ceux qui ne jurent que par la version originale, la « vraie voix » de Will Smith et autres Benedict Cumberbatch, et fustigent la mauvaise synchronisation labiale. De l’autre, regardés avec mépris par la première classe, les tenants plus populaires de la VF et d’un cinéma qui permet de reposer le cerveau, sans se soucier des défauts de traduction. Des familles divisées, des amitiés brisées… L’IA pourrait-elle réconcilier tout le monde ?

La société HeyGen vient en effet de développer une technologie permettant non seulement de traduire ce que dit une personne en vidéo, mais aussi d’adapter le mouvement de ses lèvres. Un outil à la limite du deep fake, catégorie traduction. Comment fonctionne cette technologie ? Quels secteurs peuvent s’en emparer ? Peut-on éviter qu’un tel outil ne serve à créer des fake news ? Claire Larsonneur, linguiste maîtresse de conférences à l’Université de Paris-8, éclaire pour 20 Minutes les enjeux autour de cette technologie.

Traduire et adapter le mouvement des lèvres, comment ça marche ?

Traduire un texte, que ça soit à l’écrit ou à l’oral, on connaît déjà. Transformer le mouvement d’une partie du corps, comme les lèvres, aussi. Faire dire à quelqu’un des propos qu’il n’a jamais tenu en conservant sa voix, comme les fakes autour de personnalités politiques ou les reprises de chansons par des stars d’Internet (la petite mode de l’été), tout pareil. La nouveauté de l’outil de Hey Gen réside dans le fait de « combiner tous ces outils qui existent déjà », nous explique Aurélien Capdecomme, directeur des Nouvelles Technologies au sein de 20 Minutes, quand on voit la vidéo de démonstration pour la première fois.


En l’occurrence, HeyGen superpose « trois couches », détaille Claire Larsonneur, linguiste et maîtresse de conférences à l’Université de Paris-8. D’abord, « la traduction proprement dite, avec un moteur entraîné sur un corpus », comme le font Google Translate ou DeepL. Ensuite, une « transcription voix-texte puis texte-voix » pour oraliser la traduction, comme l’outil d’Apple Translate, bien pratique pour commander au resto en vacances.

Le « petit plus » de HeyGen, c’est d’aller piocher dans « une banque de données qui associe le son au mouvement des lèvres » dans plusieurs langues. Ainsi, le résultat « correspond à ce qui est prononcé dans la langue d’arrivée ». Inconvénient de la technologie, « ça a une empreinte carbone démentielle » et « c’est très coûteux en énergie, en bande passante et en stockage », prévient la linguiste.

Dans quels secteurs cette technologie peut-elle être utile ?

« L’IA générative connaît une forte croissance », nous briefait encore Aurélien Capdecomme, qui voit un avenir à l’outil de HeyGen dans le marketing et les publicités pour le luxe. Claire Larsonneur penche pour une utilisation plus immédiate dans la communication d’entreprise. « Imaginez le PDG de Stellantis qui veut s’enregistrer dans sa langue pour une AG d’actionnaires ou le lancement d’un nouveau modèle », décrit-elle.

« L’intérêt de ce genre d’outils est que la personne qui s’enregistre sera plus à l’aise dans sa langue maternelle », explique la linguiste, mettant l’accent sur les « signaux infraverbaux ». Moins concentré sur les mots qu’il doit dire, l’utilisateur pourra mettre « plus de force, plus de chaleur » dans son message, ce qui se ressentira même après la traduction. Associer le mouvement des lèvres à la traduction permet d’ailleurs de réparer une « étrangeté », la fameuse désynchronisation entre l’image et le son dans la VF des films et des jeux vidéo. « C’est une question de confort visuel » pour le spectateur, précise-t-elle.

Peut-on éviter qu’un tel outil ne serve à créer des fake news ?

Malgré les possibles « hallucinations de la machine », terme consacré pour les énormes erreurs parfois improbables produites par l’IA, le premier danger reste qu’un tel outil tombe « en de mauvaises mains », prévient la linguiste. Depuis déjà quelques années, on voit fleurir les deep fakes plus ou moins discrets, mettant le pape dans une doudoune de luxe ou faisant évoquer une vraie guerre à Emmanuel Macron. « Pour les utilisateurs non avertis, il y a un vrai enjeu. »

Si, techniquement, il est possible de démontrer quand une image a été retouchée (c’est d’ailleurs le travail de certains journalistes), le temps de la vérification est bien trop long pour contenir les dégâts. « Google a proposé de mettre une information dans les métadonnées pour indiquer quand une image a été créée par IA », indique Claire Larsonneur, qui plaide pour qu’on « mette un tampon ou une watermark, qu’on ne puisse pas enlever, sur les vidéos produites », y compris avec l’outil de HeyGen.

Est-ce la fin de la querelle VOST/VF ?

« La vraie question, c’est qui regarde la VOST », tacle gentiment la linguiste. Ceux qui font cet effort « s’intéressent pour une raison à la langue », explique-t-elle, et continueront sans doute à préférer la version originale. « Le fait que ça soit une machine ne change rien » : synchronisation labiale ou non, ceux qui voudront choisir leur langue sur Netflix le feront, pour la spécialiste. Elle note d’ailleurs que sur certaines plateformes, « certains films ne sont proposés en France qu’en français », question de stockage et de bande passante.

Par ailleurs, le monde du doublage ne doit pas trembler trop vite. « Il y a la question du bénéfice coût » selon le genre de films : pour un film à petit budget, l’IA suffira, mais « si on veut faire passer des émotions », difficile de se passer du travail des doubleurs, plaide Claire Larsonneur.

Car même si HeyGen réutilise notre voix pour donner un rendu relativement naturel, sa propre base est composée de doubleurs, ce qui donne par exemple un léger accent québécois aux traductions françaises. Par ailleurs, « seulement 20 langues sont supportées par HeyGen, alors qu’il existe environ 7.000 langues dans le monde », pointe la linguiste. Rassurez-vous, votre chef-d’œuvre du cinéma hongrois ne sera pas dénaturé par une traduction robotique tout de suite.