| | analyse

Comment les GANs révolutionnent en profondeur l'intelligence artificielle

L'algorithme derrière le site thispersondoesnotexist.com, développé par une équipe de Nvidia, génère à la demande des visages fictifs. Image: Nvidia, Karras et al.

Sur Internet, on peut voir Barack Obama dire des mots qu’il n’a – en vrai – jamais prononcé. Et le réalisme est stupéfiant. Comment est-ce possible? Grâce aux “deep fakes”: des vidéos contrefaites par un algorithme rendu très puissant par une nouvelle approche en intelligence artificielle (IA), les réseaux antagonistes génératifs (ou GANs). Un domaine de recherche en plein développement qui, aujourd’hui, voit naître une publication scientifique par semaine.

Pourquoi c’est nouveau. Le deep learning (en français, apprentissage supervisé machine par réseaux de neurones artificiels) est désormais incontournable en IA. Les GANs ne sont qu’une méthode d’apprentissage parmi d’autre au sein de ce domaine pléthorique, mais ils mettent en œuvre un principe original: celle de la mise en compétition de deux algorithmes afin d’aboutir à la contrefaçon la plus réaliste possible.

Techniquement, comment ça marche? Le principe de base est de mettre en compétition deux réseaux de neurones artificiels (modélisation informatique inspirée par nos neurones humains) pour la réalisation d’une tâche, par exemple la production d’images réalistes. Le rôle du premier (appelé “générateur”) est de produire un échantillon, tandis que le second (appelé “discriminateur”) doit déterminer s’il s’agit d’une image réelle, ou si elle a été produite par le générateur. Autrement dit, le générateur affûte ses talents de faussaire, tandis que le discriminateur devient un meilleur détective au fil du temps. En théorie des jeux, on parle d’un “jeu à somme nulle” : aucun des deux réseaux ne parvient jamais à gagner.

Yann Le Cun, l’un des spécialistes mondiaux du domaine, colauréat du Prix Turing en mars 2019 et directeur de Facebook Research, estime que c’est là “l’idée la plus intéressante survenue en machine learning depuis 10 ans”. À l’occasion d’une conférence scientifique donnée à Paris en juin 2018, il a employé cette métaphore:

“L’apprentissage des machines est comme un gâteau à étages, avec des questions plus fondamentales que d’autres. L’apprentissage supervisé, ou la machine apprend à partir de données préparées par des humains, n’est finalement que le glaçage du gâteau, car il n’offre qu’un contrôle limité sur les erreurs de l’algorithme. La génoise du gâteau, c'est l'apprentissage non-supervisé, quand une machine parvient à faire des prédictions à partir de la seule observation de son environnement”

Quels avantages? Parce qu’ils relèvent justement de cet apprentissage non-supervisé, les GANs permettent d’économiser du temps humain. Ou d’éviter des tâches fastidieuses, comme l’étiquetage manuel des données à partir desquelles apprennent les algorithmes d’apprentissage supervisé – il s’agit par exemple d’indiquer si un chien apparaît ou non sur des photographies, afin que le logiciel apprenne à les identifier sur de nouvelles images. Une démarche très chronophage, lorsqu’on sait qu’un tel algorithme a besoin de plusieurs milliers voire millions d’exemples pour atteindre la précision requise.

Quelles applications? La raison d’être des GANs est d’inventer des formes qui n’existent pas… Mais qui restent vraisemblables. Ce qui a conduit à parler de “machines qui imaginent”, qui rêvent, voire qui hallucinent. On peut toutefois les utiliser pour le meilleur comme pour le pire, les “deep fakes” pouvant ainsi être utilisés pour propager des fake news. Entre autres exemples, on peut trouver :

D’où sortent les GANs. On considère qu’ils ont été inventés en 2014 par l’équipe de recherche du canadien Ian Goodfellow, à travers un article scientifique fondateur. C’est en son hommage qu’a été nommé le personnage du fameux tableau à plus de 400 000 dollars, “Le Comte de Belamy” (Bel ami étant la traduction littérale de Goodfellow en français).


intelligence_artificielle_-
L’oeuvre est signée “min G max D x [log (D(x))] + z [log(1 – D)], qui n’est autre que la formule mathématique guidant les GANs lors de leur apprentissage / Crédits : Christie’s

Quelles limites à dépasser?

  • Les GANs n’ont toutefois rien d’une solution miracle: ils sont difficiles à entraîner. Il arrive que l’algorithme ne converge jamais (au sens mathématique) au cours de son apprentissage, ce qui mène à l’impossibilité d’aboutir à des prédictions exploitables.

  • Particulièrement adaptés aux images, ils sont plus difficiles à utiliser pour produire des données discrètes, par exemple du texte.

  • D’où cet apparent paradoxe: lorsque les GANs fonctionnent, ils fonctionnent très bien. Mais lorsqu’ils fonctionnent mal, les informaticiens peinent à identifier sur quels leviers agir… et en sont réduits à cette approche toute humaine : le tâtonnement.

newsletter_point-du-jour

Recevez_ chaque matin un résumé de l'actualité envoyé d'une ville différente du monde.

Lire aussi