Comment guérir les algorithmes de leur racisme ?
Pour sa sixième édition, le Signal et le Bruit ce sont 1433 mots, 6 recommandations et 1 infographie. Après notre cinquième numéro consacré aux biais algorithmiques, leurs origines, et leurs effets discriminatoires, nous tâchons ici de faire le point sur les solutions pouvant permettre de les corriger, et d’en atténuer les impacts—avec l’aide des chercheuses Timnit Gebru, Sarah Brayne, Angèle Christin, et Annette Zimmermann.
Depuis notre dernier numéro consacré aux biais algorithmiques, le monde de l’IA nous a fourni un nouvel exemple de biais issus d’un modèle mal entraîné. Le 19 juin, un développeur présentait “Face Depixelizer”, une expérimentation permettant de créer un visage en haute définition à partir d’une image pixelisée. Au-delà de la question de l’utilité de l’outil, le scandale a éclaté lorsque le modèle a transformé une photo pixelisée de Barack Obama en celle d’un homme blanc, semblant incapable d’extrapoler un visage métissé.
Le biais est là, indéniable, et les débats qui ont suivi ont mis en lumière différentes positions autour de la controverse sur les biais algorithmiques. Le chercheur Yann LeCun s’est rapidement fendu d’un tweet incriminant le manque de diversité des photos utilisées pour entraîner le modèle. Timnit Gebru, de l'équipe “IA éthique” de Google, lui a répliqué que cette approche, centrée sur les données et leurs biais, était trop réductrice. Elle a appelé les profils techniques de l’IA à élargir leurs perspectives et à prendre en compte les nombreux conseils de chercheurs en sciences sociales travaillant sur ces questions.
Par ailleurs, sa réaction résume une des principales critiques du débat sur l’éthique en IA : les audits d’algorithmes tendent à se focaliser sur l’aspect “input -> output” pour tenter d’identifier de potentiels biais en fonction des réponses données. Il en découle généralement des solutions court-termistes et des modifications marginales des algorithmes concernés, sans jamais questionner ni la manière dont ils ont été conçus, ni le bien-fondé de leur existence.
L’horizon dépassable de l’équité algorithmique
Si les développeurs en charge de ces algorithmes n’ont pas attendu la controverse autour de “Face Depixelizer” pour tenter d’apporter des réponses techniques aux biais algorithmiques, ces dernières sont cependant de plus en plus évoquées.
La réponse première est naturelle dans l’informatique : elle vise à rendre transparents les programmes utilisés en publiant le code en open source. L’idée est d’ouvrir les algorithmes, de les décortiquer, pour en comprendre le fonctionnement, en identifier les biais et les corriger. Cette approche, qui peut avoir du sens pour la cryptographie par exemple, se révèle toutefois très limitée pour ce qui est du machine learning, notamment car le code des logiciels utilisés pour développer les algorithmes (TensorFlow, PyTorch) est disponible depuis leur création. L’opacité de l’IA ne vient pas du code, mais des fonctions mathématiques sous-jacentes, dont les millions de paramètres et recombinaisons n’ont aucun sens pour l’esprit humain.
L’ouverture des algorithmes n’ayant qu’un impact limité, il semble alors plus efficace de chercher à les modifier : c’est l’objectif de l’équité algorithmique (algorithmic fairness). Elle consiste à améliorer, sur les plans technique et mathématique, les méthodes d’entraînement des modèles pour assurer un résultat juste à l’ensemble des populations exposées. Ces correctifs reposent néanmoins sur un compromis fondamental : sacrifier une partie de la précision générale du modèle, dans le but d’éviter des potentielles discriminations.
Comment rendre un modèle plus équitable ?
Même en s’en tenant à des améliorations purement mathématiques, il existe de multiples façons de répondre à cette question.
Sous-diviser le score que l’apprentissage cherche à optimiser
La réponse la plus simple est de partir du principe qu’un modèle devrait faire preuve de la même précision pour toutes les catégories socio-démographiques exposées. Si des visages masculins sont reconnus dans 90 % des cas, ce devrait également être le cas pour les visages féminins. Les développeurs doivent alors sous-diviser le score que l’apprentissage cherche à optimiser, pour passer d’un taux de précision global à un taux de précision par catégorie.
Égaliser la fréquence du résultat
Pour des applications impliquant une conséquence directe à la prédiction faite par le modèle, une vision plus radicale serait que la “sentence” d’un algorithme devrait être homogène. Si 20 % des personnes blanches se voient refuser l’accès à un prêt bancaire, alors cette proportion devrait être la même pour des demandeurs non-blancs—et ce quel que soit le “risque bancaire” moyen de chaque groupe.
Minimiser certains types d’erreurs
Dans le cas de dispositifs de reconnaissance faciale pouvant donner lieu à des arrestations, les algorithmes pourraient être entraînés dans l’objectif d’améliorer leur précision et de minimiser le nombre de faux positifs qu’ils génèrent (le rapprochement d’une photo avec le mauvais visage). Une telle stratégie revient à faire le choix volontaire d’augmenter le taux de faux négatifs (visages non reconnus), par souci de prudence.
Dans ses recherches, Timnit Gebru étudie également la question des données à disposition des développeurs. Selon elle, pour éviter l’usage de jeux de données non représentatifs, il serait bénéfique de construire, avec l’aide de sociologues, d’anthropologues et d’historiens, des jeux de données tenant compte des biais et des mémoires.
Si des solutions existent, et qu’il est encourageant que les grands contributeurs industriels incluent désormais dans leurs équipes des chercheurs dédiés à ces questions, elles ne sont ni simples, ni rapides à mettre en place. Conscients de l’urgence et de l’importance du débat, ces acteurs ont également tendance à multiplier les opérations de communication : création de conseils éthiques sans grande autorité, rédaction de checklists non contraignantes, et publication de sites vitrines listant des principes abstraits ; ce que certains qualifient d’ethics-washing.
Des algorithmes et des hommes
Désireuses de sortir d’une compréhension purement mathématique de la controverse, Sarah Brayne et Angèle Christin, respectivement chercheuses à l’Université du Texas et à Stanford, ont réalisé un travail ethnographique sur la réception des algorithmes au sein de commissariats et de palais de justice américains. Cette étude montre que policiers et juges sont plutôt sceptiques face à ces technologies, pour deux raisons principales : la crainte d’une surveillance managériale accrue, et la peur de la déconsidération de leur expertise, les faisant craindre pour leur emploi.
De ces craintes naissent, selon les chercheuses, deux stratégies distinctes de résistance aux algorithmes : “traîner des pieds” et “brouiller les données”. Les professionnels concernés sont globalement réticents à utiliser ces outils qu’ils qualifient d’“inflexibles et opaques” et jugent “incapables de leur apprendre quelque chose qu’ils ne savaient pas déjà”. À titre d’exemple, le score issu de l’algorithme d’évaluation du risque n’est presque jamais mentionné par les juges durant les audiences. Les professionnels étudiés ont également tendance à “brouiller les données” pour limiter leur utilisation par la hiérarchie. Les syndicats policiers du LAPD s’opposent très fortement à l’utilisation des Automatic Vehicule Locator, des GPS indiquant en temps réel la position d’un véhicule et permettant la remontée des données issues des patrouilles vers PredPol.
Si les auteures ne nient pas les biais inhérents à ces algorithmes et leurs éventuelles conséquences, leur travail nous permet de nuancer les impacts sur le système judiciaire américain dont d’autres s’inquiètent. Elles nous donnent également de nouvelles pistes de réflexion, intégrant le milieu dans lequel s’insèrent les algorithmes, c’est-à-dire leur utilisation effective par celles et ceux à qui ils sont destinés.
Du devoir de choisir nos algorithmes
Si ces travaux ethnographiques sont intéressants pour comprendre comment les algorithmes sont aujourd’hui reçus et utilisés, il est cependant difficile de les extrapoler. Rien ne garantit que cet usage “raisonné” des algorithmes reste valable dans le temps et l’espace. Une banalisation des technologies prédictives et des pressions budgétaires accrues pourraient mener à un usage plus important de ces outils dans les années à venir, si bien qu’il reste impératif de débattre de leur bien-fondé.
Annette Zimmermann, chercheuse à l’Université de Princeton, souligne ainsi le besoin de ne pas céder au déterminisme algorithmique, et de rester maîtres de nos choix. Selon elle, les potentiels impacts sociétaux de l’IA font que son développement ne doit pas être laissé à la seule responsabilité des ingénieurs, mais au contraire débattu et discuté dans la sphère publique et politique. Face aux nombreux exemples de dérives et de biais, est-on aujourd’hui en mesure de faire entrer sans risque le machine learning dans l’éducation, la justice ou la santé, piliers fondamentaux de nos sociétés ? Cette idée d’un moratoire technologique, si elle n’exclut pas l’IA et son potentiel, a le mérite de nous obliger à réfléchir collectivement à sa généralisation.
Certains activistes posent la question en des termes plus radicaux, en militant pour l’interdiction des algorithmes dans certains secteurs-clés, indépendamment de leur qualité technique et mathématique. C’est le cas d’Hamid Khan, fondateur de la Stop LAPD Spying Coalition pour qui “les algorithmes prédictifs n’ont pas leur place dans la police”, parce qu’ils sont biaisés, dangereux pour les citoyens et qu’ils créent un précédent légitimant le renforcement de la surveillance policière. Soutenu par des élus démocrates ainsi que par l’Union américaine pour les libertés civiles, ce sont ces actions, judiciaires et médiatiques, qui sont à l’origine des récentes annonces d’Amazon ou d’IBM ou de décisions de certaines villes de mettre fin à leurs activités de predictive policing.
L’infographie de la semaine
Comment le virus a gagné : le New York Times croise les données de déplacement, les statistiques médicales ainsi que les données génétiques sur le virus pour comprendre comment le COVID-19 s’est répandu aux États-Unis.
Si le choix de bloquer les contacts avec la Chine et ses ressortissants a permis de contenir l’épidémie dans les premières semaines, de nombreux autres foyers infectieux se sont rapidement déclarés, notamment car la circulation sur le territoire américain est restée très importante, permettant une rapide propagation depuis deux foyers principaux. Selon les estimations du journal, plus de 5000 voyageurs contagieux auraient ainsi quitté New York lors des deux premières semaines de mars, répandant le virus sur l’ensemble du territoire jusqu’à la mise en place d’un confinement strict.
On a lu, on a aimé
“Ce qu'il s'est passé à Dijon, c'est une bataille de rue attisée par les médias sociaux. Le rôle de Snapchat a été capital.” : le thread de Vincent Glad sur les événements de Dijon.
Le sociologue Antonio Casilli recense les fails des différentes applications de contact tracing.
Facebook débordé par les « dealers » de greenwashing, qui inondent le réseau social de leurs publicités.
Accusé à tort par un algorithme : comment le faux positif d’un logiciel de reconnaissance a conduit à l’arrestation d’un Américain pour un crime qu’il n’avait pas commis.
Le New York Times le confirme : les femmes peinent à se faire entendre pendant les visioconférences.
Un psychiatre américain, auteur du célèbre blog scientifique et philosophique SlateStarCodex, a fermé préventivement son site après l’annonce qu’un journaliste du New York Times allait révéler son identité.
Le Signal et le Bruit est une newsletter bimensuelle dédiée à l’intelligence artificielle et aux données. Guillaume Jaeger et Edouard Mathieu en sont les auteurs. Tom Goyon en a réalisé le design.