Google translate, sauveur des langues en voie d'extinction

HIGH-TECH Partout dans le monde, des linguistes nourrissent le système de Google afin de préserver leur patrimoine...

Philippe Berry

— 

Le siège de Google à Mountain View, en Californie.
Le siège de Google à Mountain View, en Californie. — D.-P. MORRIS / AFP

De notre correspondant à Los Angeles

Une bête vorace. Plus elle mange, et plus la machine à traduire de Google est efficace. Pour les principales langues, les sources sont nombreuses: comme Microsoft ou IBM, Google a injecté dans son système des traductions de millions de textes officiels, des Nations Unies ou de l'Union européenne notamment. Mais pour les langues rares, Google se repose sur la contribution d'individus passionnés.

Dans le New York Times de mardi, un professeur néo-zélandais raconte comme il utilise l'outil Google Translator Toolkit pour uploader des traductions anglais-maori. «Pour nous, il s'agit de sauver notre langue de l'extinction. On essaie d'aider notre culture à survivre», explique Te Taka Keagan. Google Translator Toolkit est disponible pour plus de 345 langues, de l'abkhaze au zoulou, précise le quotidien.

Intelligence hybride

Dans les années 90, les linguistes privilégiaient l'approche visant à apprendre à une machine toutes les règles grammaticales d'une langue et à lui fournir un dictionnaire. Mais la subtilité du langage a rapidement montré les limites de cette méthode. Une simple phrase comme «J'aime manger des croissants au petit déjeuner» donne «I like to eat crescents (crescent = la forme, comme un croissant de lune, ndr) with the breakfast» sur Yahoo tandis que Google traduit correctement «I love to eat croissants for breakfast».

L'homme qui a lancé la révolution chez Google s'appelle Franz Och, lauréat en 2003 d'un concours de traduction automatique organisé par DARPA (l'agence qui développe les technologies pour l'armée américaine). Il se base sur une approche dite «statistique», avec une machine qui apprend par déduction, dans le contexte, grâce aux traductions qui lui ont déjà été fournies.

Un milliard de mots

Alfred Spector, vice-président en charge de la recherche et des projets spéciaux» expliquait à 20minutes.fr fin février que si certains ne jurent que par l'intelligence artificielle, Google préfère parler «d'intelligence hybride, avec l'association de l'homme et de la machine».

La tâche est dantesque. Pour modéliser un langage, Google a besoin d'environ un milliard de mots, employés dans des combinaisons différentes. Pour l'anglais, l'entreprise a injecté «plusieurs centaines de milliards» de termes, selon le New York Times. Le maori n'en est pas là. Mais avec les efforts du Dr Keagan, peut-être rejoindra-t-il la cinquantaine de langage déjà disponibles dans Google translate.