Concrètement, l’algorithme se présente sous la forme d’une API à qui l’on peut envoyer un texte. En sortie, il indique le nom des locuteurs qu’il est parvenu à identifier, et le genre qu’il leur a attribué. Comme toute machine doit commencer par une phase de rodage, dans un certain nombre de situations, nous avons aussi découvert que l’algorithme ne parvenait pas à trancher! Mais nous y reviendrons…
Nos premiers résultats. Ils sont dans la moyenne de la profession, avec 28% de femmes citées, sur toutes les personnes interrogées correctement identifiées par l’algorithme de janvier à octobre 2020, à comparer au chiffre moyen de 24% en Suisse pour 2015. Certains mois, comme en février, en juillet ou en octobre 2020, il a pu toutefois s’élever au-dessus de 30%.
Voici aussi les résultats présentés de façon plus brutes, avec le nombre d’hommes et de femmes cités par mois.
A quoi ces variations mensuelles tiennent-elles? Pour analyser de façon plus fine, nous ferons tourner l’algorithme sur différentes listes d’articles plus précises: par thématique, par rubrique… Mais avant cela, nous évacuerons certaines sources d’erreurs!
Les sources d’erreurs. En effet, pour l’être humain, distinguer un nom masculin d’un nom féminin est facile, entre expérience personnelle, mémoire et culture. Pour un algorithme, en revanche, c’est une autre paire de manches, car un dictionnaire de prénoms ne suffit pas! Ci-dessous, l’on voit que le nombre de locuteurs identifiés par l’algorithme sans qu’il ne parvienne à en identifier le genre est élevé. Il est parfois plus élevé que le nombre de femmes correctement identifiées!
Dans le détail, certaines de ces indéterminations ne posent pas de vrai problème, car elles n’ont pas à être considérées comme des citations. Par exemple, lorsque l’algorithme ne parvient à genrer le nom Heidi.news, dans les questions de nos formats interviews.
Parfois encore, ce sont des expressions mises entre guillemets, sans être des citations, qui sont sources d’erreurs. Ou encore, ce sont des fautes de frappe bien humaines dans la saisie d’un nom qui vont faire croire à l’algorithme qu’il y a deux personnes citées là où il n’y en a qu’une.
En revanche, comme tout projet de développement informatique, nous avons déterminé un certain nombre de vrais bugs qu’il va désormais nous falloir corriger, par exemple:
Les prénoms composés. Qu’il s’agisse de Jean-Jacques, de Charles-Henry ou encore d’Anne-Marie.
Les titres honorifiques. Monsieur, Lord, Pape, Président, Docteur, Colonel…
Les prénoms d’origine étrangère. Jurgi, Ramla, Gokhan, ou encore Gyuwon, pour n’en citer que quelques-uns.
Les raisons sociales. Toutes les entreprises sont concernées, par exemple Le Figaro, Basler Zeintung, Lonza…
Certains personnages historiques, lorsque seul le nom est cité. Par exemple Galilée ou Planck.
Les noms de famille seuls ou les pseudonymes. Pour l’instant, l’algorithme a besoin d’un prénom et d’un nom.
Les intégrations de code HTML, et tout particulièrement celles d’Instagram, embrouillent tout particulièrement Heidi Gender Tracker, qui n’arrive plus à se repérer dans le texte.
La position de certaines légendes photos pose aussi souci. Un crédit photo a plusieurs fois été considéré comme l’auteur d’une citation introduite plus loin dans le texte.
La suite. Outre la correction de ces bugs, nous allons mettre en place dans les prochaines semaines un outil de reporting à proprement parler, sorte de tableau de bord interne qui nous permettra de suivre ces chiffres en un clin d’œil, et imaginer les différents niveaux de détails où les obtenir.
Nous allons aussi rendre notre API accessible à tous à travers un outil web. Vous avez des idées d’utilisation, voire de collaboration entre médias? N’hésitez pas à échanger avec nous.