Calculatrice de la mort : « Nous avons construit une IA capable de tout prédire sur la vie d’un individu »

INTERVIEW•Sune Lehmann, professeur à l’Université technique du Danemark (DTU), a développé avec une équipe de chercheurs un algorithme capable de prédire les étapes de la vie jusqu’à la date de la mort

La photo d'un cercueil avec un symbole religieux. Illustration. - CLEMENT MAHOUDEAU / AFP

Propos recueillis par Laure Beaudonnet

Publié le 08/04/2024 à 17h02 • Mis à jour le 08/04/2024 à 18h24

L'essentiel

Des chercheurs d’une université danoise ont élaboré un modèle d’intelligence artificielle surnommé « calculette de la mort ».
L’algorithme baptisé Life2vec permet de sensibiliser aux risques d’un détournement commercial des données.
Sune Lehmann, professeur à l’Université technique du Danemark (DTU), explique à 20 Minutes l’importance de cette recherche ;

«La calculette de la mort » connaît la date de votre dernier soupir. Baptisé « life2vec », un algorithme développé par des chercheurs danois, à la puissance similaire à celle des dernières générations d’intelligence artificielle, est capable de prédire toutes les étapes de la vie d’un individu jusqu’à sa mort. Entraîné sur les données anonymisées des six millions de Danois rassemblées par l’institut national de statistiques, l’algorithme fonctionne de la même manière que ChatGPT sauf qu’au lieu de disséquer un texte ou une phrase, il analyse les événements de la vie des individus pour deviner la suite. Life2vec prédit la mort sans se tromper dans 78 % des cas.

Sune Lehmann, professeur à l’Université technique du Danemark (DTU) et coauteur de l’étude publiée dans la revue Nature Computational Science, nous aide à comprendre l’importance de cet algorithme en forme de boule de cristal.

Pouvez-vous nous expliquer comment fonctionne votre algorithme ?

Au-delà de la prédiction de la mort, la nature générale de notre recherche est intéressante d’un point de vue scientifique. Nous vivons à une époque dominée par ces grands modèles de langage comme ChatGPT ou Gemini [l’IA de Google] et ce qu’ils accomplissent est incroyable. Ils analysent le langage comme une séquence de paroles qui se suivent les unes les autres. Et, fondamentalement, ils travaillent de la même façon que l’autocomplétion de nos smartphones : vous écrivez une lettre et ils proposent un mot, souvent avec justesse. C’est en gros ce que font ces grands modèles de langages. Ils ne regardent pas seulement le mot juste avant, ils regardent l’ensemble des mots de façon à donner une suite à un texte ; de Shakespeare, par exemple. A l’intérieur du modèle, il se forme une idée du style de Shakespeare, si vous utilisez des mots d’anglais anciens comme « thee ». Il détecte l’état général du texte, s’il est joyeux ou triste, pour que la prédiction soit la plus précise possible. C’est une sorte de mini-modèle du monde.

Qu’en est-il de life2vec ?

Je viens de décrire l’idée générale de ces grands modèles d’intelligence artificielle. Maintenant, si on regardait la vie humaine comme une phrase. Vous êtes né dans cet hôpital, à cet endroit, vous avez telle date d’anniversaire, vous avez ce score d’Apgar [évaluation sur 10 de la vitalité d’un nouveau-né], vous habitez telle adresse, vous allez à cette crèche, puis cette école et ainsi de suite. Et si de la même manière qu’un mot suit un autre mot, les événements de la vie se suivaient ? Les grands modèles de langage continuent d’écrire des tas de textes ou accomplissent des tâches mieux que les humains. Sur le même principe, l’algorithme donne un sens aux événements de la vie. Nous avons construit un modèle capable de tout prédire sur la vie d’un individu. C’est ce que font les sciences économiques depuis des années : prédire les comportements d’individus ou de groupes d’individus. Les compagnies d’assurances aussi.

« L’algorithme prédit la personnalité beaucoup mieux que tous les autres algorithmes »
Sune Lehmann

Comment votre algorithme se différencie-t-il des anciens ?

Il se différencie dans la façon de fonctionner. Nous alimentons le modèle de tout ce que nous savons, l’histoire de millions de gens et nous lui demandons de prédire avec tout ce qu’il sait de ces gens. Dans les anciens modèles, nous devions réfléchir à ce qui pouvait être important : l’âge de l’individu, son lieu de vie, son sexe de naissance, son niveau d’études… Ici, le modèle cherche par lui-même les informations qu’il juge intéressantes dans la séquence de la vie et le résultat est bien meilleur que celui des anciens modèles.

En dehors de la mort, que peut prédire Life2vec ?

La personnalité des gens. Déterminer la mort, qui est très bien étudiée et enregistrée avec précision, se situe à l’extrémité du spectre. À l’autre extrémité, il y a la personnalité. On présente à l’algorithme les données de 50.000 personnes qui sont mortes et celles de 50.000 personnes encore en vie, il apprend à comprendre les tendances de la vie des gens qui sont vivants et celles de ceux qui n’ont pas survécu. Lorsqu’on lui montre de nouvelles personnes, grâce à ces tendances, il est capable de les classer dans l’une ou l’autre des catégories, vivant ou mort. Dans la base de données, certaines personnes se sont soumises à des tests de personnalité. L’algorithme parvient à faire des liens entre les façons de vivre des individus et leurs réponses à ces tests : s’ils sont extravertis, s’ils dominent les discussions, s’ils sont sociables… L’algorithme prédit la personnalité beaucoup mieux que tous les autres algorithmes. Pareil sur la question des migrations, savoir si un Danois quittera le pays au cours sa vie.

Comment l’algorithme peut-il prévoir les accidents de la vie ?

Le hasard est une part important de la vie humaine et on ne peut pas le prédire. C’est une question de ma prochaine étude. Certaines choses comme la santé ne sont pas le fruit du hasard, vous pouvez prédire votre état de santé dans plusieurs années. Mais la carrière, par exemple, est beaucoup plus imprédictible. Elle a beaucoup plus à voir avec les accidents, positifs ou négatifs, si vous êtes chanceux et rencontrez la bonne personne, votre trajectoire s’en trouvera changée. Nous pouvons commencer à comprendre ce qui est du domaine de l’imprévisible et du domaine du prévisible dans les vies humaines.

Comment votre modèle sera-t-il utilisé une fois qu’il sera accessible ?

C’est un projet de recherche. Il est question de découvrir les données sous-jacentes qui permettent de comprendre le monde. Il ne sera pas accessible au grand public. Je ne crois pas qu’il est intéressant pour quelqu’un de savoir qu’un algorithme connaît sa date de mort. Il est plutôt question de la précision de cet algorithme par rapport aux autres. Clairement, cette façon de modéliser la vie des humains est puissante et cela pourrait avoir un intérêt dans le domaine de la santé. Voir comment cela pourrait aider les patients dans une démarche de prévention. Regarder comment nous pourrions identifier plus tôt les personnes avec des risques de cancer. Cet algorithme est une preuve de concept [une démonstration de faisabilité], mais il comporte tout un tas de biais.

« Est-ce réellement le monde dans lequel nous voulons vivre, donner une quantité incroyable de données à des entreprises qui peuvent prévoir avec une grande précision ce que nous allons faire dans le futur ? »
Sune Lehmann

Quels genres de biais ?

Les différences historiques dans la façon dont nous avons été traités conduisent à des différences sur nos façons de vivre. Même si nous faisons des progrès sur le terrain de l’égalité entre les hommes et les femmes, par exemple, ce n’est pas parfait. Plus la base contient des données anciennes, plus on y trouvera des biais.

Et quelles sont les conséquences concrètes de ces biais ?

Un exemple très connu de biais algorithmique, c’est celui de la police prédictive aux Etats-Unis. Les statistiques de la criminalité comportaient déjà un biais. Comme de nombreuses personnes racisées apparaissaient dans la base de données, l’algorithme désignait ces personnes comme à risque de commettre un délit. Et en même temps, les jeunes blancs qui fument du cannabis, par exemple, n’étaient pas surveillés parce que l’algorithme ne les avait pas désignés comme des personnes pouvant être en infraction. Entraîné sur une base de données déjà biaisée, l’algorithme accentue le problème.

Quelle est la prochaine étape, travailler sur des données encore plus précises que celles fournies par l’institut national de statistiques ?

Nous avons besoin de beaucoup de données sur chaque personne et nous avons besoin que les réponses puissent être comparées les unes aux autres. Et certaines personnes possèdent déjà ces informations. Toutes les grandes entreprises de la tech les ont. Instagram, par exemple, a emmagasiné des tonnes d’images, le contexte de ces images, les personnes qui y figurent, la catégorie socioprofessionnelle de ces personnes… Google a toutes vos données, vos échanges de mails… Notre travail donne un aperçu de ce qu’il est possible de faire avec ces données. Et ces entreprises refusent de dire ce qu’elles en font. Facebook collecte toutes sortes de données et gagne de l’argent en vendant des prédictions sur nos comportements futurs. Est-ce réellement le monde dans lequel nous voulons vivre, donner une quantité incroyable de données à des entreprises qui peuvent prévoir avec une grande précision ce que nous allons faire dans le futur ? Nous devons commencer à en discuter et, espérons-le, décider que nous ne sentons pas à l’aise avec cette idée.