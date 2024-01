« Maman », « papa », « bébé »… A tout juste 14 mois, mon bébé a appris à baragouiner une petite dizaine de mots et à répéter inlassablement « non ». On pourrait s’attendre à laisser couler une larme à chaque nouvelle arrivée dans son vocabulaire (son premier « caca » a été applaudi, on doit l’admettre). Dans les faits, on se rend à peine compte des nouveaux venus, noyés dans des exercices de diction à la manière d’une Armande Altaï dans la Star Academy (époque 2001, on assume). Au milieu de la soupe « dibiditapatoutabouba », « oiseau » fait l’effet d’un heureux hasard.

En observant mon bébé balbutier péniblement « ta » pour « chat » lors d’un réveil très matinal, je me suis souvenue d’une rencontre en 2018 avec Yann Le Cun, directeur de la recherche en intelligence artificielle chez Meta (Fair), où ce pionnier du deep learning expliquait collaborer avec le neurolinguiste Emmanuel Dupoux, spécialisé dans l’apprentissage du nourrisson, pour tenter de percer les mystères de la puissance d’apprentissage des bébés. Dans l’idée, s’inspirer du bébé permettrait de créer des IA plus efficaces. L’enfant met environ trois ans à générer un langage complexe. Où la machine en serait-elle après 14 mois d’entraînement ? Sur le ring de l’apprentissage de la parole, mon bébé se prendrait-il un uppercut par les algorithmes actuels ou, au contraire, mettrait-il K.O. les modèles de langage du type ChatGPT développé par OpenAI ?

« Chien » ou « chouin » ?

« Le langage humain est d’une complexité inégalée et le seul agent qui apprenne le langage de façon efficace, c’est le bébé », explique Marvin Lavechin, spécialiste de l’intelligence artificielle et des modèles d’acquisition du langage, qui a travaillé dans l’équipe d’Emmanuel Dupoux. Avant de s’exprimer dans une forme complexe de langage, le bébé passe par des étapes universelles. « L’enfant produit d’abord des voyelles, puis des syllabes, plus compliquées à prononcer du point de vue de la motricité de la bouche, étaye Séverine Alonso-Bekier, psychomotricienne. Après, il associe les syllabes entre elles et commence à former les mots » pour construire une phrase. Trois ans, c’est l’âge où l’enfant maîtrise un langage complexe, des phrases structurées, avec des notions d’espace et de temps. Il ne se contente pas de désigner un objet. « Il va dire "mon jouet dans la chambre". Il maîtrise un certain nombre de paramètres », poursuit-elle.

On pourrait penser que trois ans pour apprendre le langage, c’est longuet. En réalité, imaginez vous en immersion au Japon pendant trois ans, sans dictionnaire ni traducteur, vous ne deviendrez pas bilingue. A peine serez-vous capable de distinguer certains sons et d’en comprendre d’autres. Belles perf' cognitives de l’enfant. Sauf que ChatGPT sait pondre une dissertation de philosophie niveau bac + 5, une plaidoirie, un discours politique… Il réussit même des concours de grandes écoles. Un enfant de trois ans ne fait rien de tout ça. Encore moins, mon bébé de 14 mois, qui appelle son père « maman » une fois sur deux. La partie est-elle pour autant pliée d’avance ? Pas si vite.

Connaître un mot signifie beaucoup de choses : associer un son à un objet, savoir que le mot « chien » représente l’animal ; ou savoir reconnaître que le mot « chien » est français, sans forcément le comprendre. « On a fait des tests. On donne à l’algorithme le mot « chien » et un mot qui sonne comme un mot français mais qui n’en est pas un, « chouin », par exemple. L’algorithme identifie-t-il le mot « chien » comme appartenant à la langue française ? On se rend compte qu’ils apprennent exponentiellement plus lentement que les enfants », détaille Marvin Lavechin. Ils ont besoin d’infiniment plus de données pour arriver au même résultat. « Il y a un océan entre la vitesse d’apprentissage chez les bébés et chez les IA », observe le chercheur. Même les données sur lesquelles apprennent les bébés sont beaucoup plus complexes.

Une machine lente et sans logique

Aujourd’hui, les algorithmes sont entraînés sur des livres audio, des paroles très articulées, sans bruits parasites ni variations de sons. Au contraire, un enfant apprend dans une ambiance bruyante où deux discussions peuvent avoir lieu simultanément, où des bruits extérieurs couvrent les voix. Il m’arrive de parler à mon bébé depuis la cuisine alors que crépite un vinyle de New Order à côté de lui. En présence d’un autre adulte, je ne prends pas toujours le temps d’articuler comme je le ferais seule avec lui. Une machine est-elle à l’aise devant ce type de données ?

Justement, les chercheurs ont essayé de mettre l’IA dans la même position d’apprentissage que le bébé. Des chercheurs ont posé des micros sur des très jeunes enfants de 0 à deux ou trois ans, ils ont collecté toute la parole reçue par le nourrisson pendant la journée. « On a récupéré ces données et on a entraîné nos modèles d’apprentissage sur ces enregistrements, indique Marin Lavechin. L’algorithme va faire face à toutes sortes de situations : une maman qui raconte une histoire à son enfant, la parole est très proche et articulée ; une maman qui parle pendant que la télévision tourne en fond. Sur ces données, les algorithmes se "cassent les dents" de façon magistrale », sourit le spécialiste d’IA.

En quelques années, les enfants savent intuitivement conjuguer les verbes, ils acquièrent les bases de la physique, en observant le monde. « Au bout de deux mois, les bébés comprennent la notion de permanence des objets. Quand un objet est caché, il n’a pas disparu. Entre-temps, il a fallu qu’ils comprennent que le monde est tridimensionnel, que des objets peuvent être devant d’autres objets. Vers l’âge de 8 mois, ils comprennent qu’un objet qui n’est pas soutenu va tomber. La gravité, l’effet de l’inertie… », pointait Yann Le Cun lors de cette discussion. Les machines d’aujourd’hui savent produire du langage et du texte – après un entraînement sur des quantités gigantesques de données — mais elles n’ont pas la moindre logique de base. A-t-on besoin de préciser qui sort vainqueur du combat ?