« Le monde ne se privera jamais d’un journaliste qui s’y connaît dans un domaine », pour Iona Manolescu

FAKE ET CAUSES Ioana Manolescu, chercheuse en informatique à l’Inria, travaille aux côtés des rédactions pour les aider à mieux se servir des données

Propos recueillis par Lina Fourneau
— 
Les données peuvent aidés au traitement de l'information, mais sont souvent ignorées
Les données peuvent aidés au traitement de l'information, mais sont souvent ignorées — Utrecht Robin/action pres/SIPA
  • Dans « Fake et causes », 20 Minutes vient éclairer les thématiques autour du complotisme, du fact-checking et des enjeux pour la démocratie.
  • À l’occasion d’une rencontre sur le lien entre technologie et information lors de l’évènement Médias en scène, nous avons rencontré Ioana Manolescu, chercheuse en information à l’Institut national de recherche en sciences et technologies du numérique (Inria).
  • « Le monde ne se privera jamais d’un journaliste qui s’y connaît dans un domaine, qui a une expertise. Ce pour quoi je plaide, c’est qu’à partir de là on applique des outils rapides mais qu’il faut garder dans la main de quelqu’un qui connaît le domaine ».

A travers sa série d’interviews « Fake et causes », 20 Minutes vient éclairer les thématiques autour du complotisme, du fact-checking et des enjeux pour la démocratie. 20 Minutes donne la parole à des chercheurs, des chercheuses, des associations, des experts, des expertes ou d’autres membres de la société civile pour ouvrir le débat.

Lors de la journée Médias en seine, organisée par Le Parisien et France Info, nous avons profité d’une discussion sur la technologie et l’information pour rencontrer Ioana Manolescu. Depuis bientôt dix ans, la chercheuse en informatique également professeure à l’école Polytechnique cherche à insuffler une relation plus saine entre les journalistes et le traitement des données.


Iona Manolescu, chercheuse à l'INRIA
Iona Manolescu, chercheuse à l'INRIA - S. Erôme

Vous avez été une des premières chercheuses à vous intéresser aux manières dont la technologie et plus particulièrement le traitement de données pouvait aider à vérifier des faits. D’où venait votre constat ?

J’avais fait simultanément deux observations. La première, c’était qu’en France et plus largement en Europe, nous avons des bases de données ouvertes de très grandes qualités construites avec l’argent du contribuable. Nous avons éminemment le droit d’y accéder et elles contiennent des informations très intéressantes. De l’autre côté, en lisant la presse quotidiennement, je m’apercevais que je me posais certaines questions auxquelles en principe nous pouvions répondre à partir de données ouvertes disponibles, mais je ne les voyais pas traitées dans les médias.

Vous avez peut-être un exemple ?

Lors de la crise de 2008, j’avais entendu le gouvernement promettre qu’en investissant un certain nombre de milliards dans l’industrie automobile, nous allions préserver des emplois dans l’industrie. C’était peut-être une très bonne idée, mais je n’avais pas la réponse. Quelques années plus tard, je me suis dit que nous avions tous les chiffres nécessaires pour savoir si l’investissement avait préservé des emplois et combien. Or, dans la presse, personne ne se questionnait sur l’évolution de l’emploi dans l’industrie automobile alors que nous avions toutes les données. 

Est-ce une méconnaissance de l’existence des données ou une absence de données libres et disponibles à l’utilisation ?

Dans la sphère démocratique et technocratique européenne, l’ouverture des données est quelque chose de très important. En France - même si nous ne sommes pas le seul pays - nous avons la chance d’avoir la direction interministérielle au numérique qui encourage énormément la création de jeux de données ouvertes au niveau de toutes les administrations de la France, mais aussi le développement de petites briques logiciel qui permettent de faire des analyses spécifiques et qui sont mises en open source. Pour rappel, l’open source, ce sont des programmes en accès libre. C’est souvent confondu avec l’open data, des données qui ne bougent pas. L’open source c’est plutôt du code. Tous ces outils existent, les données aussi. Alors pourquoi est-ce que personne ne les utilise ? C’est à ce moment-là que j’ai appris que dans de nombreuses rédactions, aucun outil n’existait pour traiter les données.

Vous avez depuis travaillé avec Le Monde et désormais avec Radio France. En quoi consiste votre travail auprès des médias ?

Notre première approche est de demander aux journalistes ce qu’ils voudraient comme utilisation de données. Nous avons donc travaillé sur demande en l’ajoutant à notre modèle existant qui sert principalement à exploiter les statistiques. Chaque projet informatique commence petit. Le nôtre devient relativement grand et va encore grandir. Quand on développe dans une équipe de chercheurs, on regarde comment ça marche, on se pose la question de savoir ce qu’il faut changer ou si ça continue comme ça. C’est un processus très itératif.

L’informatique et le journalisme n’utilisent pas forcément le même langage. Comment adaptez-vous votre travail aux professionnels de l’information ?

En général, quand je commence à travailler avec des journalistes, je leur demande quelles données ils utilisent. Il y a quelque chose qu’un informaticien ne comprend pas tout de suite, c’est la notion de qualité de données. Certains de mes collègues scientifiques font des systèmes de vérification qui prennent comme source de données « on demande à Google ». On regarde les 1.000 premières demandes, on fait une moyenne et on sélectionne les plus populaires. C’est techniquement faisable, mais ça ne vaut rien pour les journalistes. Ça, c’est quelque chose qu’on a appris très rapidement.

Des journalistes craignent d’être bientôt remplacés par des intelligences artificielles. Mais la technologie est-elle vraiment si dangereuse pour le métier ?

Il n’y a aucune Intelligence artificielle (IA) parfaite. Il faut savoir que si on a une Intelligence artificielle super améliorée, en jouant avec pendant deux heures on lui fait forcément faire une bêtise. Ce qu’on appelle « IA » d’habitude, ce sont des systèmes qui ont appris sur énormément d’exemples. A contrario, les exemples qu’il n’a pas vus, l’IA ne les aura pas appris. C’est un désavantage. La deuxième chose, c’est que l’IA n’a aucune idée de quoi il parle. Si nous lui disons « aujourd’hui le ciel est… », la plupart des IA vont compléter avec le mot « bleu ». Mais ils ne vont pas comprendre pourquoi si nous ne lui expliquons pas. Il ne comprend pas le sens du « ciel », il calcule juste des probabilités.

Finalement, l’humain aura toujours besoin d’être là pour comprendre le besoin en information ?

Bien sûr, il faut toujours vérifier à la main. Chaque fois qu’on donne un chiffre de la base Insee, on donne le lien vers la page pour une double vérification. Si on prend le cas des policiers qui meurent en faisant leur travail en France, il y a deux données différentes : les morts en mission et les morts en service. Ce n’est pas la même statistique car « mort en service » comprend les accidents de la route… ce qui peut vraiment faire une différence. Mais pour le comprendre, il faut avoir une certaine expertise du domaine. Le monde ne se privera jamais d’un journaliste qui s’y connaît dans un domaine, qui a une expertise. La même expertise humaine permettra d’identifier les interlocuteurs et les bonnes sources. Ce pour quoi je plaide, c’est qu’à partir de là on applique des outils rapides mais qu’il faut garder dans la main de quelqu’un qui connaît le domaine. L’ordinateur en général ne va pas réussir à rendre une histoire intéressante.



Ces dernières années, on remarque un nombre grandissant de fake news, mais aussi un nombre exponentiel de données. Comment s’assurer d’une parfaite vérification des données ?

Je crois que la première étape est de travailler avec les bonnes sources de données. En informatique, on dit « garbage in, garbage out » : si les données sont fausses, rien ne sortira de bon. Il faut surtout s’orienter vers les bonnes sources de données et rien d’autre. A partir de là, il faut regarder quelles sont les questions auxquelles on doit répondre et quel outil on met en place pour vérifier. C’est encore au journaliste de faire la différence entre ce qui a été affirmé et ce qu’on trouve dans les sources.