Les premiers chiffres de Heidi Gender Tracker, l'algorithme qui évalue la parité de nos citations

Vous l’aviez peut-être découvert ce printemps, lorsque nous lancions un appel à nos lecteurs afin qu’ils nous aident à entraîner l’algorithme. Ce projet, c’est Heidi Gender Tracker, un algorithme d’intelligence artificielle basé sur le «deep learning», que Heidi.news a eu plusieurs fois l’occasion de décrypter. Bien que Heidi Gender Tracker, réalisé avec un laboratoire de l’EPFL, soit encore en phase de développement, nous l’avons appliqué à notre production éditoriale de l’année 2020, et en tirons ici un premier retour d’expérience, que nous affinerons dans les prochains mois.

Pourquoi ça peut vous intéresser. L’enjeu de ce projet, sélectionné en 2019 par la Google Digital News Initiative, est de construire un outil permettant de suivre la proportion d’hommes et de femmes cités dans nos articles. En effet, les enjeux de parité et de représentation dans nos lignes nous semblent d’importants sujets. Mais encore faut-il disposer, dans le tumulte de la production d’informations au quotidien, d’indicateurs chiffrés et automatisés nous permettant de procéder à une telle autocritique!

Lire aussi: Pourquoi suivre la parité dans nos articles?

Ce que fait l’algorithme. Grâce aux exemples fournis par nos lecteurs, qui ont indiqué dans une grande quantité de textes où se situaient le nom de la personne interrogée et les propos cités, Heidi Gender Tracker a appris à identifier les noms de personnes citées et à reconnaître leur genre.

Concrètement, l’algorithme se présente sous la forme d’une API à qui l’on peut envoyer un texte. En sortie, il indique le nom des locuteurs qu’il est parvenu à identifier, et le genre qu’il leur a attribué. Comme toute machine doit commencer par une phase de rodage, dans un certain nombre de situations, nous avons aussi découvert que l’algorithme ne parvenait pas à trancher! Mais nous y reviendrons…

Nos premiers résultats. Ils sont dans la moyenne de la profession, avec 28% de femmes citées, sur toutes les personnes interrogées correctement identifiées par l’algorithme de janvier à octobre 2020, à comparer au chiffre moyen de 24% en Suisse pour 2015. Certains mois, comme en février, en juillet ou en octobre 2020, il a pu toutefois s’élever au-dessus de 30%.

Voici aussi les résultats présentés de façon plus brutes, avec le nombre d’hommes et de femmes cités par mois.

A quoi ces variations mensuelles tiennent-elles? Pour analyser de façon plus fine, nous ferons tourner l’algorithme sur différentes listes d’articles plus précises: par thématique, par rubrique… Mais avant cela, nous évacuerons certaines sources d’erreurs!

Les sources d’erreurs. En effet, pour l’être humain, distinguer un nom masculin d’un nom féminin est facile, entre expérience personnelle, mémoire et culture. Pour un algorithme, en revanche, c’est une autre paire de manches, car un dictionnaire de prénoms ne suffit pas! Ci-dessous, l’on voit que le nombre de locuteurs identifiés par l’algorithme sans qu’il ne parvienne à en identifier le genre est élevé. Il est parfois plus élevé que le nombre de femmes correctement identifiées!

Dans le détail, certaines de ces indéterminations ne posent pas de vrai problème, car elles n’ont pas à être considérées comme des citations. Par exemple, lorsque l’algorithme ne parvient à genrer le nom Heidi.news, dans les questions de nos formats interviews.

Parfois encore, ce sont des expressions mises entre guillemets, sans être des citations, qui sont sources d’erreurs. Ou encore, ce sont des fautes de frappe bien humaines dans la saisie d’un nom qui vont faire croire à l’algorithme qu’il y a deux personnes citées là où il n’y en a qu’une.

En revanche, comme tout projet de développement informatique, nous avons déterminé un certain nombre de vrais bugs qu’il va désormais nous falloir corriger, par exemple:

  • Les prénoms composés. Qu’il s’agisse de Jean-Jacques, de Charles-Henry ou encore d’Anne-Marie.

  • Les titres honorifiques. Monsieur, Lord, Pape, Président, Docteur, Colonel…

  • Les prénoms d’origine étrangère. Jurgi, Ramla, Gokhan, ou encore Gyuwon, pour n’en citer que quelques-uns.

  • Les raisons sociales. Toutes les entreprises sont concernées, par exemple Le Figaro, Basler Zeintung, Lonza…

  • Certains personnages historiques, lorsque seul le nom est cité. Par exemple Galilée ou Planck.

  • Les noms de famille seuls ou les pseudonymes. Pour l’instant, l’algorithme a besoin d’un prénom et d’un nom.

  • Les intégrations de code HTML, et tout particulièrement celles d’Instagram, embrouillent tout particulièrement Heidi Gender Tracker, qui n’arrive plus à se repérer dans le texte.

  • La position de certaines légendes photos pose aussi souci. Un crédit photo a plusieurs fois été considéré comme l’auteur d’une citation introduite plus loin dans le texte.

La suite. Outre la correction de ces bugs, nous allons mettre en place dans les prochaines semaines un outil de reporting à proprement parler, sorte de tableau de bord interne qui nous permettra de suivre ces chiffres en un clin d’œil, et imaginer les différents niveaux de détails où les obtenir.

Nous allons aussi rendre notre API accessible à tous à travers un outil web. Vous avez des idées d’utilisation, voire de collaboration entre médias? N’hésitez pas à échanger avec nous.