Données, algorithmes, développeurs : d’où vient le racisme ?
Pour sa cinquième édition, le Signal et le Bruit ce sont 1530 mots, 6 recommandations et 1 infographie. Les chercheuses·rs Joy Buolamwini, Charlton McIlwain, et Aylin Caliskan y font de brèves apparitions. Nous y abordons le racisme—supposé ou avéré—des algorithmes, et leurs effets sur les populations discriminées, et tentons d’en comprendre les causes et les origines. Le prochain numéro de cette newsletter tâchera, quant à lui, de faire le point sur les solutions pouvant permettre de corriger ces biais et d’en atténuer les impacts.
“Google Photos, y’all fucked up. My friend is not a gorilla.”
C’était en 2015, dans un tweet supprimé depuis, que deux utilisateurs afro-américains avaient invectivé Google, après que son service d’annotation automatique de photos eut associé le mot “gorilles” à leur selfie. Google s’en était immédiatement excusé, et avait corrigé (comprendre : mis sous le tapis) le problème en supprimant le label incriminé des résultats renvoyés par ses modèles, tout en promettant solennellement d’améliorer leurs performances.
Cinq ans plus tard, plusieurs tweets nous laissent pourtant découvrir une nouvelle manifestation du problème. Google Vision API prédit avec plus de 50 % de confiance qu’un même thermomètre portable est soit une “arme à feu”, soit un “outil”, selon qu’il est tenu par une main noire ou blanche. Mêmes causes, mêmes conséquences : de plates excuses, un pansement (l’augmentation manuelle du seuil de confiance à partir duquel le label “gun” est affiché), et une promesse de Google de faire mieux la prochaine fois.
Ces exemples ne sont pas isolés et le débat est récurrent depuis quelques années : les algorithmes sont accusés d’être racistes, sexistes, et homophobes. Un rapport public américain de 2019 passait en revue les principaux services de reconnaissance faciale et faisait état d’erreurs jusqu’à 100 fois plus fréquentes pour certaines couleurs de peau. Aux deux opposés du spectre, les femmes noires étaient les plus impactées, tandis que les hommes blancs d’âge moyen étaient les mieux reconnus.
L’annotation automatique d’image, comment ça marche ?
Des services d’annotation d’images comme ceux mentionnés ci-dessus sont proposés depuis plusieurs années par Google, Microsoft, et Amazon. Ces techniques sont utilisées par de nombreuses autres entreprises, par exemple Airbnb pour détecter les équipements disponibles dans les appartements.
L’annotation d’image repose entièrement sur l’entraînement d’un modèle statistique à partir d’images pré-annotées. Pour apprendre à attribuer un nom d’animal à une photo, par exemple, le modèle devra parcourir des millions de photos déjà annotées et pour lesquelles les catégories d’animaux sont désignées comme “vraies” ou “fausses”. Par un processus d’abstraction des pixels présents dans les images (pour un renard, la présence de longues oreilles, d’un museau pointu, et d’un pelage blanc et roux), le modèle est peu à peu capable de “reconnaître” un animal sur une photo.
Les “confusions” faites par les modèles sont souvent le résultat d’exemples mal adaptés, ou d’un biais dans le processus d’entraînement. Dans l’exemple du thermomètre et de l’arme à feu, il s’agissait probablement de :
L’absence d’exemples connus de photos de mains (quelle qu’en soit la couleur) tenant des thermomètres portables (objets omniprésents en 2020 en raison du COVID-19, mais peu photographiés auparavant) ;
Un biais d’entraînement : le modèle avait probablement parcouru de trop nombreuses images de mains noires tenant des armes à feu, et trop peu de mains noires tenant des outils technologiques ou médicaux.
Il en résulte une prédiction extrêmement biaisée, où la présence d’une main noire tenant un objet inconnu est associée en priorité à une arme, tandis que le même objet inconnu dans une main blanche est plus sobrement annoté avec le mot “outil”.
Black Skins Matter
Ces dénonciations des biais algorithmiques, tout comme les demandes de débats sur les dangers des dispositifs de reconnaissance faciale, sont longtemps restées sans réponse sérieuse… jusqu’à ce mois de juin 2020. Actualité aidant, IBM, Microsoft, et Amazon, ont annoncé respectivement mettre fin au développement des services de reconnaissance faciale, interdire leur vente à la police, et, plus timidement, mettre ces ventes en pause dans l’attente d’une éventuelle loi.
Pour autant, il serait prématuré d’ériger ces concessions en victoires. Outre la tiédeur de certaines décisions, des acteurs majeurs (dont Google et Facebook) se sont bien gardés de réagir, tout autant que les nombreuses sociétés inconnues du grand public qui composent ce marché. Enfin, la question des biais algorithmiques ne se limite pas au sujet de la reconnaissance faciale.
Au contraire, depuis quelques années, les exemples de discriminations dues à l’usage d’algorithmes d’apprentissage automatique se sont multipliés, dans des secteurs ayant un impact concret sur la vie des individus : recrutement, santé ou prêts bancaires. Avec le développement de l’automatisation totale ou partielle de tâches auparavant effectuées manuellement, des milliers de décisions sont déjà orientées par les résultats d’algorithmes prédictifs, avec le risque (avéré) que les inexactitudes inhérentes à ces modèles impactent davantage les populations non-blanches.
No algorithm, no justice?
La lutte contre le crime est particulièrement concernée par cette généralisation des algorithmes prédictifs. Si l’utilisation de statistiques au sein de la police et dans le secteur judiciaire s’inscrit dans un temps long, deux solutions semblent aujourd’hui particulièrement répandues : PredPol et COMPAS. PredPol permet d’optimiser le déploiement des patrouilles en définissant les zones criminogènes, en fonction de données historiques de la criminalité d’une ville. COMPAS est utilisé à plusieurs étapes de la procédure pénale pour évaluer le risque de récidive, en fonction d’un score calculé à partir du dossier du prévenu et ses réponses à un questionnaire.
Si ces solutions sont différentes, elles utilisent les mêmes technologies, et les justificatifs derrière leur mise en œuvre sont identiques. Comme le documentent les sociologues Sarah Brayne et Angèle Christin, ces algorithmes trouvent leur place dans des institutions en quête de légitimité et soumises à de fortes contraintes budgétaires. Ils sont vus comme neutres, garantissant un jugement non-biaisé et l’homogénéité des décisions, tout en optimisant le fonctionnement des services—en réduisant par exemple les périodes d’incarcération pour les prévenus les moins dangereux.
Outils opaques et algorithmes racistes
Ces deux solutions ont, en théorie, une incidence forte sur la vie des individus qui y sont confrontés, induisant un renforcement de la surveillance policière ou une augmentation des périodes d’incarcération. Ils ont, de ce fait, été particulièrement étudiés par les journalistes et les universitaires, qui en dressent des critiques sévères, insistant notamment sur leur opacité. Concernant COMPAS, les prévenus n’ont souvent ni connaissance du dispositif, ni de son influence sur la procédure pénale, et ne disposent d’aucun mécanisme de contestation.
Ce sont cependant les accusations de discrimination qui sont les plus sévères. L’enquête de ProPublica sur COMPAS, publiée en 2016, est particulièrement éclairante et montre que les noirs sont, à dossier équivalent, considérés comme plus enclins à la récidive que les blancs, et ce dans une très large mesure. Une analyse a posteriori permet également de montrer que l’algorithme est deux fois moins fiable dans les prédictions appliquées aux afro-américains, avec des taux d’erreur de près de 50 % pour ces populations.
Quand bien même la couleur de peau ne figure pas dans les bases de données, certaines des variables utilisées sont suffisamment corrélées avec l’appartenance ethnique pour introduire un biais raciste : c’est le cas de l’adresse, de la profession ou encore des noms et prénoms. Alors, racistes, les algorithmes ?
Qui est raciste ? La donnée, l’algorithme ou le développeur ?
Les exemples de PredPol et de COMPAS éclairent l’un des principaux biais du machine learning : la phase d’apprentissage effectuée sur des données historisées, et la prise de décision automatique qui en découle, sont la définition même du statu quo. La justice américaine emprisonnant plus massivement les noirs que les blancs, ces algorithmes sont voués à reproduire ce traitement inégalitaire. L’origine du racisme serait donc à chercher dans la donnée et les comportements qui la créent.
Qu’il s’agisse du bot néonazi de Microsoft ou des publicités racistes de Google, il existe de nombreux exemples similaires, confirmés par les travaux d’Aylin Caliskan. Cette chercheuse en intelligence artificielle a créé un robot, parcourant le web avec pour objectif d’apprendre la définition de mots en identifiant ceux avec lesquels ils sont le plus souvent employés. Si le mot “bouteille” est utilisé avec les mots “contenant”, “eau” ou “lait”, Caliskan a découvert que les noms fréquemment portés par des afro-américains sont plus susceptibles d’être associés avec des termes connotés négativement que les noms fréquemment portés par des blancs. Ici, ce ne sont pas les algorithmes qui sont racistes, mais le matériel sur lequel ils sont entraînés : des tweets, l’historique d’un moteur de recherche, ou un ensemble aléatoire de pages web—permettant à danah boyd de conclure que “Google est devenu raciste parce que ses utilisateurs le sont”.
Le chercheur Charlton McIlwain va plus loin et explique ces formes de racisme en replaçant ces outils dans un dispositif social et juridique plus ancien. En remontant à l’origine des systèmes d’informations de la justice criminelle créés à la fin des années 60 dans les zones les plus touchées par les conflits raciaux, il inscrit PredPol et COMPAS dans la lignée d’outils créés pour contrôler et circonscrire les mouvements contestataires afro-américains. Des outils mis en œuvre, selon lui, pour opprimer les noirs ; un racisme systémique dont les algorithmes ne seraient qu’une déclinaison moderne.
S’il semble alors difficile d’imputer le racisme aux seuls algorithmes, il ne faut pas pour autant minimiser le rôle de la technologie et de ceux qui la font. Si ces derniers ne créent pas les inégalités et les différences de traitement, la culture et le manque de diversité de leurs entreprises tendent à les renforcer. Comme le montre Joy Buolamwini, chercheuse en sciences informatiques, les biais de l’intelligence artificielle affectent plus fréquemment ceux qui ne participent pas à son développement : les femmes, et les noirs. La Silicon Valley, même lorsqu’elle soutient le mouvement Black Lives Matter, le fait sans doute trop peu, et trop tard.
L’infographie de la semaine
La police de Minneapolis fait 7 fois plus souvent usage de la force contre les noirs que contre les blancs, ce que montre le New York Times en publiant cette cartographie éclairante, mêlant des données sur les interventions policières et sur la composition ethnique des différents quartiers. Un exemple illustrant, encore une fois, que la mise en donnée d’un phénomène est important pour le faire exister et l’inscrire à l’agenda médiatique et politique.
En France, la création de ce type de visualisation serait particulièrement compliquée. D’une part parce que les jeux de données relatifs à la police sur le portail du gouvernement semblent particulièrement inoffensifs. Et d’autre part, parce que les statistiques ethniques y sont toujours fortement encadrées, pour un ensemble de raisons invoquant l’Universalisme Républicain, le traumatisme du fichage de la Seconde Guerre mondiale, ou encore le caractère artificiel et performatif de catégories basées sur la couleur de peau.
Si la question des statistiques ethniques vous intéresse, voici un ensemble de ressources permettant de comprendre le débat :
Est-ce que les statistiques ethniques sont interdites en France ?
La difficile utilisation des statistiques ethniques en France
On a lu, on a aimé
Comment la production de données sur les contrôles au faciès et les violences policières ont permis de faire entrer ces questions dans le débat public.
Pourquoi les employés de la Silicon Valley prennent-ils si peu position ?
Sur Instagram, la prime secrète à la nudité : se déshabiller pour gagner de l’audience.
Covid-19 & algorithmes de tarification : comment les chauffeurs Uber font face à l’épidémie.
“The screen new deal” : le plan de l’ex-CEO de Google pour construire le monde d’après est déjà en marche.
Les inquiétudes autour des deepfakes évoluent rapidement : tandis que Facebook publie une base de données de 100 000 d’entre eux pour accélérer la recherche sur leur détection, une vidéo très complète de Vox.com explique en quoi le “fake revenge porn” est déjà un phénomène très réel.
Le Signal et le Bruit est une newsletter bimensuelle dédiée à l’intelligence artificielle et aux données. Guillaume Jaeger et Edouard Mathieu en sont les auteurs. Tom Goyon en a réalisé le design.