L’éléphant dans la salle des serveurs
Supposons que vous souhaitiez connaître les taux de mortalité des femmes pendant l’accouchement, par pays, dans le monde entier. Où chercheriez-vous ? L’une des options est le WomanStats Projet, le site web d’un effort de recherche universitaire qui étudie les liens entre la sécurité et les activités des États-nations, et la sécurité des femmes qui y vivent.
Le projet, fondé en 2001, répond à un besoin en rassemblant des données du monde entier. De nombreux pays sont indifférents à la collecte de statistiques sur la vie des femmes. Mais même lorsque les pays s’efforcent de rassembler des données, il est évident qu’il est difficile d’obtenir des chiffres utiles, qu’il s’agisse de la sécurité physique des femmes, des droits de propriété ou de la participation au gouvernement, parmi bien d’autres questions.
Par exemple : Dans certains pays, les violations des droits des femmes peuvent être signalées plus régulièrement que dans d’autres. Cela signifie qu’un système juridique plus réactif peut créer l’apparence de problèmes plus importants, alors qu’il apporte un soutien relativement plus important aux femmes. Le projet WomanStats constate de nombreuses complications de ce type.
Ainsi, le projet WomanStats apporte des réponses – par exemple, l’Australie, le Canada et une grande partie de l’Europe occidentale ont de faibles taux de mortalité à la naissance – tout en montrant les défis à relever pour prendre les chiffres au pied de la lettre. Selon Catherine D’Ignazio, professeur au MIT, cela rend le site inhabituel et précieux.
« Les données ne parlent jamais d’elles-mêmes », dit D’Ignazio, en référence au problème général de trouver des chiffres fiables sur la vie des femmes. « Il y a toujours des humains et des institutions qui parlent pour les données, et différentes personnes ont leurs propres agendas. Les données ne sont jamais innocentes ».
D’Ignazio, professeur assistant au département d’études urbaines et de planification du MIT, a maintenant approfondi cette question dans un nouveau livre, co-écrit avec Lauren Klein, professeur associé d’anglais et de théorie et méthodes quantitatives à l’université Emory. Dans le livre, « Données FéminismeDans un article publié ce mois-ci par le MIT Press, les auteurs utilisent la lentille du féminisme intersectionnel pour examiner comment la science des données reflète les structures sociales dont elle est issue.
« Le féminisme intersectionnel examine l’inégalité des pouvoirs », écrivent D’Ignazio et Klein, dans l’introduction du livre. « Et dans notre monde contemporain, les données sont aussi un pouvoir. Parce que le pouvoir des données est exercé de manière injuste, il doit être remis en question et modifié ».
Le problème des 4 pour cent
Pour voir un cas clair de relations de pouvoir générant des données biaisées, notent D’Ignazio et Klein, considérez la recherche menée par la propre Joy Buolamwini du MIT, qui, en tant qu’étudiante diplômée dans une classe étudiant les programmes de reconnaissance faciale, a observé que le logiciel en question ne pouvait pas « voir » son visage. Buolamwini a découvert que pour le système de reconnaissance faciale en question, le logiciel était basé sur un ensemble de visages qui étaient 78% masculins et 84% blancs ; seulement 4% étaient féminins et avaient la peau foncée, comme elle.
La couverture médiatique ultérieure de l’œuvre de Buolamwini, écrivent D’Ignazio et Klein, contenait « un soupçon de choc ». Mais les résultats ont probablement été moins surprenants pour ceux qui ne sont pas des hommes blancs, pensent-ils.
« Si le passé est raciste, oppressif, sexiste et partial, et que ce sont vos données d’entraînement, c’est ce que vous recherchez », dit D’Ignazio.
Ou encore, le géant de la technologie Amazon, qui a testé un système automatisé utilisant l’IA pour trier les CV prometteurs envoyés par les candidats à un emploi. Un problème : comme un pourcentage élevé des employés de l’entreprise sont des hommes, l’algorithme a favorisé les noms d’hommes, toutes choses étant égales par ailleurs.
« Ils pensaient que cela aiderait le processus, mais bien sûr, cela a pour effet d’entraîner l’IA (système) à être biaisée en faveur des femmes, parce qu’ils n’ont pas eux-mêmes embauché autant de femmes », observe D’Ignazio.
Au crédit d’Amazon, elle a reconnu le problème. De plus, note D’Ignazio, ce genre de problème est un problème qui peut être résolu. « Certaines des technologies peuvent être réformées avec un processus plus participatif, ou de meilleures données de formation. … Si nous convenons que c’est un bon objectif, une des voies à suivre est d’ajuster votre ensemble de formation et d’inclure plus de personnes de couleur, plus de femmes ».
« Qui est dans l’équipe ? Qui a eu l’idée ? Qui en bénéficie ? »
Pourtant, la question de savoir qui participe à la science des données est, comme l’écrivent les auteurs, « l’éléphant dans la salle des serveurs ». En 2011, seuls 26 % des étudiants de premier cycle en informatique aux États-Unis étaient des femmes. C’est non seulement un chiffre peu élevé, mais aussi une baisse par rapport aux niveaux précédents : En 1985, 37 % des diplômés en informatique étaient des femmes, la meilleure note jamais enregistrée.
En raison du manque de diversité sur le terrain, D’Ignazio et Klein estiment que de nombreux projets de données sont radicalement limités dans leur capacité à voir toutes les facettes des situations sociales complexes qu’ils prétendent mesurer.
« Nous voulons essayer de sensibiliser les gens à ce genre de relations de pouvoir et à leur importance », explique D’Ignazio. « Qui est dans l’équipe ? Qui a eu l’idée ? Qui bénéficie du projet ? Qui est potentiellement lésé par le projet ?
En tout, D’Ignazio et Klein énoncent sept principes du féminisme des données, allant de l’examen et de la contestation du pouvoir à la remise en question des systèmes binaires et des hiérarchies, en passant par l’acceptation du pluralisme. (Ces statistiques sur le sexe et les diplômés en informatique sont limitées, notent-ils, en utilisant uniquement les catégories « homme » et « femme », excluant ainsi les personnes qui s’identifient en termes différents).
Les personnes intéressées par le féminisme des données, affirment les auteurs, devraient également « valoriser de multiples formes de connaissances », y compris les connaissances de première main qui peuvent nous amener à remettre en question des données apparemment officielles. De plus, elles devraient toujours tenir compte du contexte dans lequel les données sont générées et « rendre le travail visible » lorsqu’il s’agit de la science des données. Ce dernier principe, notent les chercheurs, illustre le problème suivant : même lorsque les femmes et d’autres personnes exclues contribuent à des projets de données, elles reçoivent souvent moins de crédit pour leur travail.
Malgré la critique des systèmes, programmes et pratiques existants, D’Ignazio et Klein prennent soin d’inclure des exemples d’efforts positifs et fructueux, tels que le projet WomanStats, qui s’est développé et a prospéré pendant deux décennies.
« Pour les personnes qui sont des personnes de données mais qui sont nouvelles dans le féminisme, nous voulons leur fournir une introduction très accessible, et leur donner des concepts et des outils qu’ils peuvent utiliser dans leur pratique », dit D’Ignazio. « Nous n’imaginons pas que les gens ont déjà le féminisme dans leur boîte à outils. D’autre part, nous essayons de parler à des personnes qui sont très attentives au féminisme ou aux principes de justice sociale, et de mettre en évidence pour elles les façons dont la science des données est à la fois problématique, mais peut être mise au service de la justice ».