Comment modérer les conversations de 2,5 milliards de personnes ?

May 19, 2020

Pour sa troisième édition, le Signal et le Bruit ce sont 1 631 mots, 4 recommandations et 1 compte Twitter. Nous y évoquons la loi anti-haine et la “Cour suprême” de Facebook, pour mieux aborder la question de la modération des contenus sur les plateformes. Les chercheurs français Romain Badouard, Dominique Cardon et Olivier Ertzscheid y font de brèves apparitions.

Près de 2,5 milliards d’internautes sont utilisateurs d’une des grandes plateformes qui structurent l’espace numérique. Ces dernières sont devenues une source d’information majeure pour une part significative des moins de 60 ans. On ne le réalise que peu, mais en centralisant le partage d’information sur Internet, ces entreprises sont en mesure d’exercer un pouvoir de modération et d’éditorialisation sur une population plus large qu’aucune autorité morale dans l’Histoire.

Le COVID-19 en est une illustration, puisque leur interventionnisme a crû de façon presque aussi exponentielle que la pandémie. Après avoir implémenté des bandeaux recommandant de bien s’informer, Facebook a alerté les utilisateurs ayant interagi avec des fake news, a supprimé des posts jugés problématiques et promu des contenus considérés comme fiables. Ces exemples ne sont pas isolés : toutes les plateformes ont mis en place des mesures similaires. Twitter est même allé jusqu’à supprimer des tweets de Jair Bolsonaro—sur lequel chacun·e est libre d’avoir une opinion, mais qui n’en a pas moins été démocratiquement élu.

Pour assurer leurs arrières, les plateformes veulent gagner en légitimité. Facebook collabore avec des agences de presse sur du “fact-checking” et vient d’annoncer la création de sa “Cour suprême”, une assemblée d’une vingtaine de personnalités indépendantes chargées de statuer sur ces questions.

Si ce volontarisme n’a pas débuté avec la pandémie, il tranche néanmoins avec la position historique de ces acteurs qui se sont longtemps abrités derrière la liberté d’expression, et leur volonté d’indépendance, pour minimiser leurs responsabilités et limiter leur intervention. Les exemples de contenus contestables et contestés mais largement relayés sont nombreux.

Suivant ce constat, plusieurs questions se posent : comment expliquer cette évolution ? Comment les plateformes assurent-elles la modération des échanges de 2,5 milliards de personnes ? Que penser des risques éventuels pour leurs utilisateurs ?

D’Estelle Hallyday à Laetitia Avia

Si la première affaire médiatisée de modération de contenu numérique date de la fin des années 90 et concerne des photos dénudées d’Estelle Hallyday, ce n’est qu'en 2004 qu’est adoptée la Loi pour la Confiance en l'Économie Numérique. Celle-ci introduit une base juridique pour le règlement de futurs contentieux en définissant trois types d’acteurs :

Les Fournisseurs d’Accès à Internet qui transportent l’information. Ils ne sont responsables ni de la publication du contenu, ni de sa consultation.
Les Hébergeurs qui stockent l’information et la rendent accessibles. Ils ne sont pas responsables des publications mais doivent en limiter la consultation s’il le leur est demandé.
Les Éditeurs qui publient le contenu et qui en sont responsables—en ligne comme hors-ligne.

La loi n’a pas été modifiée avec l’avènement du “web 2.0”. Sont considérées comme “hébergeurs” les plateformes sociales, et “éditeurs” leurs utilisateurs—même si la forte mise en avant algorithmique de certains contenus pousse certains acteurs à appeler à une évolution de ce statut et des responsabilités en découlant.

Si les plateformes ne sont pas directement responsables du contenu publié, elles font le choix d’intervenir pour préserver leur réputation et leurs utilisateurs. Certains sujets font consensus et sont présents dans la quasi-totalité des CGUs, au premier rang desquels la nudité—avec des frontières parfois difficiles à définir entre art et pornographie. À l’inverse, Facebook maintient une position de principe de non-intervention dans la modération des publicités politiques, à l’inverse de Twitter.

À ces règles de fonctionnement alignées sur des intérêts économiques, il faut noter la pression croissante de la société civile et les demandes des pouvoirs publics. Ces dernières années, plusieurs lois ont été votées, obligeant les plateformes à intervenir pour limiter ou interdire la diffusion de contenus : directive droit d’auteur, règlement anti-terroriste ou la récente loi anti-haine portée par Laetitia Avia.

Comment modérer 2,5 milliards d’internautes ?

Si la théorie comme la loi de 2004 sont identiques, les pratiques ont fortement évolué. La génération du contenu par les utilisateurs, la centralisation des carrefours d’audiences et les logiques de viralité démultiplient les messages et leur visibilité ; ainsi que les contentieux qui les accompagnent. Les chiffres relatifs aux contenus digitaux sont connus, mais on ne réalise que trop rarement le défi que leur modération représente, notamment pour les réseaux sociaux. Ce travail repose sur la superposition de trois méthodes, dont il est difficile de connaître les proportions exactes.

Héritage d’une vision décentralisée d'Internet, les utilisateurs peuvent signaler les contenus problématiques : c’est la modération par les pairs. Si le nombre de signalements est très important, le contenu peut être mis en quarantaine avant d’être analysé plus finement et d’entraîner d’éventuelles sanctions. Cette méthode a le mérite de pouvoir être généralisée et passée à l’échelle, mais ne va pas sans abus comme la pratique du mass reporting, mais aussi certains biais liés à la forte hétérogénéité des utilisateurs et de leurs valeurs, croyances et cultures.

La modération automatisée repose sur deux techniques : la constitution de larges bases de données de contenus interdits que les algorithmes sont capables de reconnaître, et le machine learning pour en détecter de nouveaux exemples. Si cette méthode est de plus en plus utilisée et appliquée en quasi-temps réel à la publication des contenus, elle s’avère peu adaptée à la prise en compte des subtilités des échanges humains (contexte, sarcasme, émotions, etc.). Les algorithmes de Facebook seraient ainsi capables de détecter automatiquement 96 % de la nudité, mais seulement 51 % des contenus haineux.

Enfin, la modération manuelle est souvent nécessaire pour trancher certains contentieux ou assister les algorithmes en amont ou en aval de leur décision. Les conditions de travail de ces armées de modérateurs sont très bien documentées : précarisés et confrontés quotidiennement à des contenus haineux, violents et pornographiques. Facebook vient d’être condamné à verser 52 millions de dollars à plus de 10 000 d’entre-eux, après qu’ils ont développés des troubles de stress post-traumatique liés à leur travail. Faire appel à des humains ne garantit pas pour autant l’équité : les modérateurs de TikTok ont par exemple eu pour consigne de supprimer les posts d’utilisateurs jugés “trop laids” ou “pauvres”.

Comment fonctionne la modération automatique d’un contenu ?
Si les détails techniques de ces systèmes automatisés sont inconnus, leur principe reste le même : calculer automatiquement la probabilité qu’un contenu soit “à supprimer”.
Ce calcul est basé sur un corpus existant : une base de données de millions de contenus précédemment modérés par des êtres humains. En intelligence artificielle, on parle “d’apprentissage supervisé” : chaque contenu dans le corpus est représenté par sa “substance” (du texte, une image, une vidéo) et est accompagné d’un label correspondant à la décision prise par l’humain (“à garder” ou “à supprimer”). Un modèle statistique est entraîné pour répliquer au mieux ces labels en fonction de la substance.
Une fois le modèle entraîné, il est appliqué à chaque nouveau contenu publié et génère une probabilité de correspondre au label “à supprimer”. En fonction du résultat obtenu, une décision peut être prise automatiquement, en fonction de seuils fixés arbitrairement : censurer immédiatement le contenu (par exemple pour une probabilité >90 %), demander une vérification manuelle (entre 50 et 90 %), ou ne rien faire et publier le contenu (<50 %).

De la modération à la censure

L’interventionnisme croissant des plateformes nous inquiète car ses moyens techniques (le code, les algorithmes) et réglementaires (les CGUs) viennent peu à peu se superposer aux législations nationales. La conséquence, pour le chercheur Olivier Ertzscheid, c’est la création d’une nouvelle hiérarchie des normes s’imposant aux utilisateurs, dans laquelle la loi n’est plus la norme la plus contraignante. En découle un agencement opaque et peu compréhensible auquel il est forcément plus difficile de se conformer.

Le COVID-19 met aussi en avant le risque de sur-modération. Alors que la pandémie oblige les réseaux sociaux à s’appuyer davantage sur la modération automatique, les erreurs techniques et les excès de zèle se sont multipliés—sans que l’on sache vraiment différencier les uns des autres. Il est facile d’imaginer comment, par crainte des conséquences réputationnelles ou légales, les plateformes pourraient être tentées de retirer le contenu “possiblement illicite” en plus du contenu “manifestement illicite”, comme le souligne le journaliste Marc Rees.

Si l’on tire le trait, la menace est naturellement celle d’une fragilisation de la liberté d’expression avec l’émergence d’un Internet centralisé autour de quelques plateformes aseptisées, aux règles opaques et arbitraires, appliquées en masse par des algorithmes. Des risques auxquels il faut ajouter la généralisation des décisions administratives ou policières et leur éventuelle instrumentalisation, au détriment de celles de l’autorité judiciaire indépendante.

Internet, zone de non-droit ?

Au-delà de la question du “comment” de la modération, la question du “pourquoi” est trop souvent absente des débats. On présente Internet et sa composante sociale, au mieux comme des espaces “très colériques”, au pire comme “un enfer” où “trolls, haters et têtes d’œufs anonymes” agissent en “quasi-impunité”. Qu’en est-il dans la réalité ?

Selon le chercheur Romain Badouard, “les discours haineux semblent très minoritaires en proportion de l’ensemble des commentaires postés sur les réseaux sociaux” (entre 2 et 5 % des messages selon les plateformes). La “tyrannie des agissants”, chère au sociologue Dominique Cardon, les rend cependant très visibles dans un espace numérique qui reflète avant tout le comportement de ses utilisateurs actifs.

Par ailleurs, on peut se demander si l’Internet social n’est pas simplement à l’image de la société : ni plus, ni moins civilisé. Mais c’est un espace où l’on peut, plus facilement qu’ailleurs, modérer ou censurer des propos, car fréquentés par des quidams sans légitimité, ni politique, ni médiatique et dont l’impact sur le débat public est par ailleurs probablement bien moins important qu’une sortie d’Eric Zemmour ou qu’une Une de Valeurs Actuelles. Auquel cas, les contenus litigieux évoqués ne sont pas circonscrits à Internet et doivent faire l’objet d’une réflexion politique plus large.

Cela dit, et en conclusion, plusieurs propositions intéressantes ont été ré-évoquées à l’occasion des débats autour de la loi anti-haine : rendre transparents, auditables et questionnables les algorithmes responsables de l’éditorialisation et de la modération, ou encore remettre en cause le modèle économique des grandes plateformes, leurs monopoles et les conséquences qu’ils induisent.

Le compte Twitter de la semaine

On applaudit le projet “L’Assemblée sur Wikipédia”, un compte Twitter lancé le 18 mai, qui signale automatiquement les suppressions anonymes de contenu faites sur Wikipédia depuis les adresses IPs de l'Assemblée nationale.

Il semble que les traces laissées par les détournements de fonds publics ne soient pas des plus populaires, tout comme les appartenances aux loges maçonniques. Mais la plus belle pépite reste la tentative de Thomas Thévenoud de faire oublier sa partie de Scrabble en séance.

On a aimé

Le cinquième épisode du podcast Rabbit Hole, consacré à l’ascension fulgurante du youtubeur PewDiePie et son influence sur la cyberculture.
“This was supposed to be the year driverless cars went mainstream” : de l’impact du coronavirus sur le (non-)développement de la voiture autonome.
“Our weird behavior during the pandemic is messing with AI models” ou comment les algorithmes montrent leurs failles quand nous changeons soudain de comportement.
“Blessed by the algorithm”, un article académique illustrant le rapport quasi-religieux qu’entretiennent les utilisateurs avec des algorithmes dont ils ne comprennent pas le fonctionnement.

Le Signal et le Bruit est une newsletter bimensuelle dédiée à l’intelligence artificielle et aux données. Guillaume Jaeger et Edouard Mathieu en sont les auteurs. Tom Goyon en a réalisé le design.

le Signal et le Bruit