Ce que le COVID-19 nous dit de la mise en données

Pour sa première édition, le Signal et le Bruit, c’est 5 minutes de lecture, 1035 mots, 4 articles recommandés, et des remerciements. Nous y parlons de la difficulté de mettre des chiffres sur la pandémie de COVID-19, et de ce que cette complexité nous dit du caractère doublement politique des données ; à la fois construction et outil. Les sociologues Alain Desrosières et Emmanuel Didier y font une apparition, et nous n’y utilisons pas d’anglicisme.


“Le comptage en temps réel dans les épidémies est une question complexe, il est extrêmement difficile de savoir de manière sûre combien de gens sont malades et combien de gens décèdent.” Si vous n’avez pas suivi les discussions sur les chiffres officiels de l’épidémie, le directeur de la communication de l’Agence régionale de santé Ile-de-France le confirme : il est très difficile de mettre des chiffres fiables et stables sur l’épidémie de COVID-19.

Parmi les indicateurs permettant de dresser le panorama de la pandémie, deux sont majoritairement utilisés : le nombre de personnes contaminées, et décédées. Deux réalités aux apparences simples et binaires, dont le processus de mise en données se révèle pourtant particulièrement complexe.

Mettre le COVID-19 en données

La définition de ces indicateurs est en effet sujette à discussion. Selon la définition précise de l’Organisation mondiale de la santé, seuls les individus dont la contamination a été validée par un test peuvent être comptabilisés comme des “cas confirmés” (ils sont sinon “suspects” ou “probables”). Or la quasi-totalité des pays ne testent que les individus symptomatiques, voire seulement les cas les plus graves—selon des consignes et pratiques pouvant évoluer dans le temps. Sont ainsi exclues les personnes asymptomatiques, et celles diagnostiquées positives (mais non testées) sur la base de symptômes bénins.

Comptabiliser les décès est également plus compliqué qu’il n’y paraît, notamment d’un point de vue méthodologique, puisqu’il faut pouvoir définir si un individu est “mort du COVID” ou “mort avec le COVID”. Si cette classification repose habituellement sur les règles de classement des causes dans les certificats de décès, le COVID-19 complexifie cette question, à la fois en raison des interactions du virus avec d’autres maladies chroniques, et du haut risque d’infection nosocomiale dans des hôpitaux pleins à craquer. L’une des raisons des chiffres élevés de la mortalité en Italie pourrait ainsi être une définition moins stricte que celles d’autres pays.

Une fois cette définition entérinée, comment ensuite collecter la donnée sur un territoire ? Comptabiliser les malades repose sur la capacité à mener des tests, et donc sur le fait de disposer des ressources matérielles (écouvillons, tubes de stockage, réactifs) et humaines (infirmiers, laboratoires agréés) permettant de les réaliser. Les pays touchés étant très inégalement dotés des capacités de réaliser ces tests, les chiffres produits sont forcément plus ou moins fiables et ne suivent aucun standard particulier, rendant très difficiles les comparaisons internationales et modifiant profondément les représentations nationales de l’épidémie.

Les données relatives aux décès sont elles aussi dépendantes des infrastructures en place. Si, en France, elles sont relativement fiables lorsque les décès interviennent à l'hôpital grâce au système SI-VIC, elles sont plus compliquées à récupérer dans d’autres cas, notamment pour des raisons techniques. Ainsi, les décès intervenus dans les EHPAD et au domicile ne sont pas intégrés au système hospitalier, et ne remontent pas automatiquement dans les statistiques quotidiennes. Ils doivent y être ajoutés manuellement et avec une temporalité différente, impactant les chiffres communiqués et les analyses en découlant—configuration que l’on retrouve au Royaume-Uni. Si la question vous intéresse, le site The Conversation a publié un article passionnant sur le sujet.

La donnée comme construction politique

Les données relatives au COVID-19—ou à tout autre sujet—reposent à la fois sur des conventions qui viennent définir ce qui doit être mis en données, et sur des infrastructures sociales, techniques et politiques qui en conditionnent la création.

Alain Desrosières, sociologue de la quantification et ancien administrateur de l’INSEE, oppose ainsi deux concepts : mesurer et quantifier. Là où “mesurer” suppose que la réalité préexiste et ne demande qu’à être mise en nombre, “quantifier” nécessite avant toute mesure la mise en place d’une convention d’équivalence qui définit ce qu’il convient de mesurer :quantifier c’est convenir, puis mesurer. La quantification et les données qui en découlent revêtent donc un aspect éminemment politique, parce qu’elles permettent de créer et de partager une représentation, une définition du monde—forcément influencée par les acteurs qui en assument la production.

Sans adopter une posture relativiste, remettant en question l’existence même d’un phénomène et critiquant le caractère conventionnel ou artificiel des statistiques, il est cependant nécessaire de comprendre que les “chiffres du COVID” présentés chaque soir par Jérôme Salomon ne sont pas une représentation parfaitement juste de la circulation du virus sur le territoire, mais le résultat d’une série de conventions d’équivalences, fixées dans l’objectif de créer une donnée communicable.

La donnée comme outil politique

En plus d’être une construction politique, la donnée doit également être comprise comme un outil qui oriente les politiques publiques. Dans le cas du COVID-19, les données sont utilisées par des décideurs (politiques ou administratifs) pour mettre en place des mesures permettant d’atténuer les effets de l’épidémie : ouverture de lits supplémentaires en réanimation, transfert de patients, tenue ou annulation d’une élection, etc.

Celui qui possède la donnée est donc capable de faire exister une réalité, d’agir et de faire agir d’autres acteurs. D’après Emmanuel Didier, si le confinement a été si facilement accepté, c’est aussi parce que les chiffres du COVID-19 ont la propriété de nous faire peur et participent à produire de l’obéissance. Il en va de même pour l’injonction à “aplanir la courbe” qui, aussi légitime soit-elle, conditionne les comportements—en plus de focaliser l’attention sur la capacité d’accueil des hôpitaux, présentée comme une donnée ex nihilo, et non comme le résultat d’une série de choix politiques.

En tant qu’instrument de gouvernement, la production d’information a longtemps été l'apanage des pouvoirs publics. S’ils ne sont pas les plus anciens, l’INSEE et l’IGN sont de bons exemples de ces administrations en charge de produire l’information de référence sur le territoire français : chiffres sur la population, indicateurs économiques, informations géographiques, etc. Grâce à la statistique et leur accès privilégié à l’information, les institutions ont le pouvoir de “dire ce qui est”, de mettre en place et d’orienter les politiques publiques.

À ce sujet, la série d’articles publiés par la CNIL sur les “coronoptiques”—dispositifs de surveillance dédiés au “corona”—se révèle particulièrement éclairante. Elle met en lumière les attentes que suscitent les acteurs publics mais aussi privés, nouveaux producteurs de données, dans la surveillance de l’épidémie. Le rôle qu’est supposé y jouer la technologie y est également très bien illustré ; ce sera l’objet de notre prochaine newsletter.


On a lu, on a aimé


Nous remercions…

  • Lucie, Paul, et Victorien pour leur soutien et leurs conseils avisés—malgré leurs déformations professionnelles.

  • Tom pour son travail sur l’identité visuelle—sans même en avoir fait un post LinkedIn sur la non-rémunération des graphistes.

  • Antoine et Chloé pour leurs relectures attentives et critiques.


Le Signal et le Bruit est une newsletter bimensuelle dédiée à l’intelligence artificielle et aux données. Guillaume Jaeger et Edouard Mathieu en sont les auteurs. Tom Goyon en a réalisé le design.