On a discuté avec l'assistant de Google capable de s'exprimer comme un humain

TECHNOLOGIE Le système Duplex peut passer un coup de fil pour réserver une table ou prendre RDV chez le coiffeur à notre place...

Philippe Berry

— 

Le système de réservation automatisé Google Duplex est en phase de test dans quelques restaurants californiens.
Le système de réservation automatisé Google Duplex est en phase de test dans quelques restaurants californiens. — GOOGLE

De notre correspondant en Californie,

« Bonjour, j’appelle pour faire une réservation. Je suis le système automatisé de Google, l’appel sera enregistré. Je voudrais réserver une table pour jeudi soir. » Sur cette simple phrase, impossible de savoir si l’on parle avec un humain ou un robot. Avec des micro-pauses et des syllabes accentuées, l’élocution est bien plus naturelle que celle des assistants actuels. Mais la démonstration de Google Duplex à laquelle 20 Minutes a participé dans un restaurant de Mountain View, en Californie, mardi, montre que le système, parfois bluffant, reste limité à certains scénarios semi-scriptés.

Dévoilé à la conférence Google I/O, le mois dernier, Duplex avait suscité de nombreuses interrogations, entre doutes, fascination et effroi. Scott Huffman, vice-président en charge de l’ingénierie du Google Assistant, coupe court aux spéculations : « Non, nous n’avons pas créé une intelligence artificielle générale. » En clair, la machine est très loin de réussir le test de Turing. Elle n’est pas capable de se faire passer pour un humain au cours d’une longue conversation. « L’intelligence artificielle sélectionne la réponse la plus appropriée parmi toutes celles qu’elle connaît », résume Huffman. Mais dès que l’on sort des cas de figure prévus par les ingénieurs, (« Quel est le score d’Argentine-Nigeria ?), l’IA est perdue et revient à son script : « Hum, je voudrais faire une réservation ». Okay Google, allons-y.

Disfluence verbale et prosodie

Pour ce test, on a évidemment essayé de mettre la machine en difficulté. « Désolé, 18 heures n’est pas disponible. » « Est-ce que vous auriez une table entre 18 heures et 20 heures ? », enchaîne le robot sans se démonter. « 18h30, ça vous va ? » « Mmmm, c’est parfait. » « A quel nom ? » « George. » « Je suis désolé, j’ai mal entendu, pouvez-vous l’épeler ? » « G.E.O.R.G.E. » L’échange est fluide et s’enchaîne sans blanc, l’IA identifie parfaitement quand elle doit écouter ou parler. Surtout, à l’intérieur de ce scénario, elle est capable de comprendre différentes tournures du même concept, et c’est sans doute l’avancée la plus importante.

Pourquoi avoir intégré une dose de disfluence verbale, avec des irrégularités et des tics de langage très humains ? La machine a-t-elle vocation à nous imiter ? « Nos tests montrent que plus la prosodie (le rythme et l’intonation) est proche de la nôtre, plus le taux de succès des appels automatisés est grand », précise Huffman. Selon lui, de nombreux éléments d’une conversation reposent sur des petits signaux qui permettent à l’interlocuteur de savoir que l’autre l’écoute et comprend.

Des humains en renfort

On récapitule : « C’est noté, donc à 19 heures jeudi pour quatre personnes au nom de George. » La machine ne se fait pas avoir : « Ah, je croyais qu’on avait dit 18h30 ? » « En effet, 18h30, c’est confirmé ». « Awesome, thanks », répond la voix masculine avant de raccrocher. En conditions réelles, le Google Assistant aurait ensuite envoyé une confirmation à l’utilisateur et ajouté un rendez-vous à son calendrier. C’est l’objectif de l’entreprise : proposer un secrétaire personnel capable de nous décharger de nombreuses tâches administratives, y compris en effectuant des appels téléphoniques en notre nom. Reste à voir si la société acceptera ces interactions humain-machine.

Le test continue. Un confrère américain est plus sournois et demande s’il y a « des allergies dans le groupe ». « Je n’ai pas cette information », répond la secrétaire-robot, cette fois avec des inflexions de valley girl californienne, avec la voix qui monte. « La cuisine ferme à 20 heures, est-ce que 30 minutes sera suffisant ? », continue l’apprentie standardiste. L’IA ne comprend pas le problème. Après 30 secondes de va-et-vient, elle s’excuse. « Désolé, je vais vous passer un humain. »

A l’heure actuelle, le système automatisé est capable de gérer seul quatre appels sur cinq, selon Google. Pour les 20 % restants, l’entreprise utilise des humains dans un centre d’appel, qui peuvent prendre le relais en cas de problème. C’est indispensable pour la phase de test, mais il semble assez peu probable que Google soit prêt à embaucher des milliers de personnes une fois le système lancé dans le monde entier.

On n’en est pas là. Les premiers tests de Duplex ont commencé « avec des restaurants partenaires » en Californie, puis seront étendus au cours de l’été à des salons de coiffure. Pour l’instant, l’entreprise ne donne pas de date pour le support d’autres langues comme le français. « Chaque langage a ses spécificités, mais c’est juste une question de temps », conclut Scott Huffman.