La victoire de Trump, une claque pour le «data journalisme»

SCIENCES Les modèles probabilistes, si précis depuis 10 ans, sont passés à côté du phénomène Trump...

Philippe Berry
— 
Donald Trump livre son discours de victoire à l'élection présidentielle américaine, le 9 novembre 2016.
Donald Trump livre son discours de victoire à l'élection présidentielle américaine, le 9 novembre 2016. — Evan Vucci/AP/SIPA

Dans le monde très feutré des statistiques, c’était des rock stars. Nate Silver, fondateur du site Five Thirty Eight, et Sam Wang, du Princeton Election Consortium, avaient prédit les résultats des élections américaines Etat par Etat, depuis 2004, avec une précision flirtant avec les 100 %. Mais cette année, leurs modèles – et leurs rejetons au New York Times et au Huffington Post – ont complètement sous-estimé le phénomène Trump. Explications.

Le raté des sondages

Nate Silver s’est fait un nom en mettant au point un système de prédictions statistiques des performances des joueurs de baseball. Il a pu s’appuyer sur des dizaines d’années d’histoire et des milliers de chiffres. Le problème de la politique, c’est qu’il y a seulement des dizaines de sondages à analyser. Et que cette année, ils étaient particulièrement imprécis.

Au niveau national, ils ne sont pourtant pas si loin des résultats. Une fois le vote par correspondance compté, Clinton devrait terminer avec environ 1 % de plus que Donald Trump, soit 2 points de moins que les prévisions des sondages. Mais on le répète, ce qui compte, c’est la performance des candidats Etat par Etat, qui dessine le collège électoral, que Trump devrait remporter par 305 voix contre 233. Et là, certains sondeurs sont passés complètement à côté.



Wisconsin, Michigan, Pennsylvanie, Ohio… Dans ces Etats critiques, les sondeurs se sont trompés de 4,5 % à 7,6 %. La plupart semblent notamment avoir sous-estimé le vote ouvrier et rural en faveur de Donald Trump. Certains observateurs remettent en cause leurs échantillons. D’autres mettent en avant les 12 % d’indécis – trois fois plus qu’en 2012 – qui ont pu peser. Ou ces fameux électeurs « cachés » de Trump, qui n’osaient pas – ou ne voulaient pas – dire qu’il votait pour le candidat républicain. Mais le point le plus complexe reste de prédire la participation de chaque groupe démographique. En France, le taux pour une présidentielle flirte avec les 80 %. Aux Etats-Unis, seulement 55 % des inscrits ont voté. Du coup, une baisse de la participation dans les zones urbaines de la Rust Belt, favorables à Clinton, et une hausse dans les zones rurales, pro-Trump, peut créer de gros écarts.

Des erreurs amplifiées

Chaque modèle fait sa tambouille pour écarter certains sondages ou corriger des chiffres, par exemple en corrélant les potentielles erreurs dans deux Etats similaires. Et là, Sam Wang explique dans l’autopsie préliminaire de son échec, il s’est trompé par un facteur important. « Les sondages étaient erronés et j’ai amplifié l’erreur », écrit-il. C’est pour cette raison qu’il prédisait une victoire de Clinton avec une probabilité supérieure à 95 %, alors que Nate Silver était un peu plus conservateur, à 71 %. Les modèles du Huffington Post et du New York Times étaient entre les deux, à 80-90 %.

Tout le monde ne s’est pas planté. Un professeur américain a prédit les vainqueurs de toutes des présidentielles depuis 1984 via un questionnaire de 13 questions vrai/faux. Et Allan Lichtman avait annoncé la victoire de Donald Trump en septembre…