Techniquement, comment ça marche? Le principe de base est de mettre en compétition deux réseaux de neurones artificiels (modélisation informatique inspirée par nos neurones humains) pour la réalisation d’une tâche, par exemple la production d’images réalistes. Le rôle du premier (appelé “générateur”) est de produire un échantillon, tandis que le second (appelé “discriminateur”) doit déterminer s’il s’agit d’une image réelle, ou si elle a été produite par le générateur. Autrement dit, le générateur affûte ses talents de faussaire, tandis que le discriminateur devient un meilleur détective au fil du temps. En théorie des jeux, on parle d’un “jeu à somme nulle” : aucun des deux réseaux ne parvient jamais à gagner.
Yann Le Cun, l’un des spécialistes mondiaux du domaine, colauréat du Prix Turing en mars 2019 et directeur de Facebook Research, estime que c’est là “l’idée la plus intéressante survenue en machine learning depuis 10 ans”. À l’occasion d’une conférence scientifique donnée à Paris en juin 2018, il a employé cette métaphore:
“L’apprentissage des machines est comme un gâteau à étages, avec des questions plus fondamentales que d’autres. L’apprentissage supervisé, ou la machine apprend à partir de données préparées par des humains, n’est finalement que le glaçage du gâteau, car il n’offre qu’un contrôle limité sur les erreurs de l’algorithme. La génoise du gâteau, c'est l'apprentissage non-supervisé, quand une machine parvient à faire des prédictions à partir de la seule observation de son environnement”
Quels avantages? Parce qu’ils relèvent justement de cet apprentissage non-supervisé, les GANs permettent d’économiser du temps humain. Ou d’éviter des tâches fastidieuses, comme l’étiquetage manuel des données à partir desquelles apprennent les algorithmes d’apprentissage supervisé – il s’agit par exemple d’indiquer si un chien apparaît ou non sur des photographies, afin que le logiciel apprenne à les identifier sur de nouvelles images. Une démarche très chronophage, lorsqu’on sait qu’un tel algorithme a besoin de plusieurs milliers voire millions d’exemples pour atteindre la précision requise.
Quelles applications? La raison d’être des GANs est d’inventer des formes qui n’existent pas… Mais qui restent vraisemblables. Ce qui a conduit à parler de “machines qui imaginent”, qui rêvent, voire qui hallucinent. On peut toutefois les utiliser pour le meilleur comme pour le pire, les “deep fakes” pouvant ainsi être utilisés pour propager des fake news. Entre autres exemples, on peut trouver :
Le site web ThisPersonDoesNotExist produit des visages bluffants de personnes qui n’existent pas.
Une peinture réalisée par un GAN été vendue 432 500 dollars aux enchères en octobre 2018.
Les GANs ne se limitent pas aux images : ils permettent aussi de sélectionner des molécules candidates pour un effet pharmaceutique souhaité, un espoir pour le progrès de la recherche.
D’où sortent les GANs. On considère qu’ils ont été inventés en 2014 par l’équipe de recherche du canadien Ian Goodfellow, à travers un article scientifique fondateur. C’est en son hommage qu’a été nommé le personnage du fameux tableau à plus de 400 000 dollars, “Le Comte de Belamy” (Bel ami étant la traduction littérale de Goodfellow en français).
Quelles limites à dépasser?
Les GANs n’ont toutefois rien d’une solution miracle: ils sont difficiles à entraîner. Il arrive que l’algorithme ne converge jamais (au sens mathématique) au cours de son apprentissage, ce qui mène à l’impossibilité d’aboutir à des prédictions exploitables.
Particulièrement adaptés aux images, ils sont plus difficiles à utiliser pour produire des données discrètes, par exemple du texte.
D’où cet apparent paradoxe: lorsque les GANs fonctionnent, ils fonctionnent très bien. Mais lorsqu’ils fonctionnent mal, les informaticiens peinent à identifier sur quels leviers agir… et en sont réduits à cette approche toute humaine : le tâtonnement.