Applications et implications des GAN

← Réalisation et évaluation des performances du GAN Introduction →

Les Generative Adversarial Networks (GANs) attirent particulièrement l’attention, même en dehors du domaine informatique, depuis que le collectif artistique Obvious a eu recours à cette technique pour créer une œuvre d’art.

Figure 1 – "Portrait d'Edmond de Belamy" du collectif Obvious

La peinture réalisée, "Portrait d'Edmond de Belamy", est la première œuvre d'art produite par un logiciel d'intelligence artificielle à être présentée dans une salle des ventes. Ce portrait d'un personnage fictif a été vendu 432 500 dollars chez Christie's le 25 octobre 2018. En dehors du domaine artistique, les GANs peuvent également être d’une grande utilité [1].

1) Applications

a) Transfer Learning

Le Transfer Learning, ou apprentissage par transfert en français, désigne l'ensemble des méthodes qui permettent de transférer les connaissances acquises à partir de la résolution de problèmes donnés pour traiter un autre problème.

Les recherches actuelles pour cette méthode utilisent les GANs pour renforcer l'alignement du latent feature space, comme dans l'apprentissage par renforcement profond [2]. Cela fonctionne en fournissant les embeddings de la tâche source et de la tâche cible au discriminateur qui essaie de deviner le contexte. La perte résultante est ensuite (inversement) rétropropagée à travers l'encodeur.

b) Mode, art et publicité

Comme nous l'avons déjà vu plus haut, les GANs peuvent être utilisés pour générer de l'art. The Verge a écrit en Mars 2019 que "les images créées par les GANs sont devenues la représentation de l'art contemporain de l'IA" [3]. Ils peuvent aussi servir à l'inpainting, soit une technique de reconstruction d'images détériorées ou de remplissage des parties manquantes d'une image [4].

Il est aussi possible de créer des photos de mannequins imaginaires, sans avoir à engager un quelconque modèle, photographe, maquilleur ou payer un studio, ainsi que les transports [5]. Les GANs ont aussi été utilisés pour la génération d'ombres virtuelles [6].

En 2018, les GANs ont apporté à la communauté du mod de jeux vidéos une méthode de redimensionnement d'image. En effet, cela a permis de recréer les textures 2D basse résolution de vieux jeux vidéos en textures 4K, ou même de plus hautes résolutions à l'aide de l'image training. Il suffit ensuite de sous-échantillonner les images pour qu'elles correspondent à la résolution native du jeu (avec des résultats ressemblant à la méthode de supersampling de l'anti-aliasing) [7].

Avec une formation appropriée, les GANs fournissent une image de texture 2D plus claire et plus nette, d'une qualité supérieure à celle de l'original, tout en conservant pleinement le niveau de détails, de couleurs, etc. de l'original. Les exemples connus d'utilisation intensive des GANs incluent Final Fantasy VIII, Final Fantasy IX, Resident Evil HD Remaster et Max Payne.

Artbreeder est un site permettant de générer et modifier des images de visages, paysages et peintures notamment. En 2020, il était utilisé pour créer l'antagoniste principal de la suite de la série d'horreur psychologique sur le Web Ben Drowned. L'auteur fera, plus tard, l'éloge des applications des GANs pour leur capacité à aider à générer des ressources pour les artistes indépendants qui manquent de budget et de main-d'œuvre [8, 9].

En mai 2020, les chercheurs de Nvidia ont appris à un système d'IA (appelé « GameGAN ») à recréer le jeu Pac-Man simplement en le regardant jouer [10, 11].

Désormais, la création d'images en tous genres est disponible au grand public grâce à des outils de génération d'images. Parmis ceux-ci, nous pouvons citer les grands comme Midjourney et Dall-E qui utilisaient des GANs à l'origine. Cependant, les algorithmes de diffusion sont venus remplacer les GANs pour pouvoir générer des images différentes, et introduire une notion d'aléatoire dans les générations [12].

c) Science

Les GANs peuvent améliorer les images astronomiques [13] et simuler la lentille gravitationnelle pour la recherche sur la matière noire [14]. Ils ont été utilisés en 2019 pour modéliser avec succès la distribution de la matière noire dans une direction particulière de l'espace, et pour prédire la lentille gravitationnelle qui se produira [15].

Les GANs ont été proposés comme un moyen rapide et précis de modéliser la formation de jets à haute énergie [16], et de modéliser des cascades de particules à l'aide de calorimètres dans des expériences en physique des particules [17, 18, 19, 20]. Les GANs ont également été formés pour réaliser une approximation avec précision des goulots d'étranglement dans les simulations coûteuses en calcul de physique des particules. Les applications dans le contexte des expériences actuelles et proposées du CERN ont démontré le potentiel de ces méthodes pour accélérer la simulation et/ou améliorer la fidélité de la simulation [21, 22].

En 2016, les GANs ont été utilisés pour générer de nouvelles molécules pour une variété de cibles protéiques impliquées dans le cancer, l'inflammation et la fibrose. En 2019, les molécules générées par les GANs ont été validées expérimentalement jusqu'aux souris [23, 24]. De plus, ils ont suscité une attention significative en raison de leur potentiel pour reconstruire les champs de vitesses et les champs scalaires dans les flux turbulents [25, 26, 27].

d) Médical

L'une des principales préoccupations en imagerie médicale est de préserver la vie privée des patients. Pour ces raisons, les chercheurs rencontrent souvent des difficultés pour obtenir des images médicales à des fins de recherche. Récemment, les GANs ont été largement utilisés pour générer des images médicales synthétiques, telles que des images IRM et TEP, afin de relever ce défi [28].

Les GANs peuvent être utilisés pour détecter des images glaucomateuses, ce qui aide au diagnostic précoce, essentiel pour éviter la perte partielle ou totale de la vision [29].

Ils ont également été utilisés pour créer des reconstitutions faciales judiciaires de personnages historiques décédés [30].

e) Diverses

Les GANs ont été utilisés pour :

2) Implications éthiques et sociales

a) Deepfakes

De façon générale, les deepfakes se sont multipliés ces derniers temps, toujours plus réalistes, augmentant le doute quant à l'authenticité des informations vues ou entendues sur internet. Il s'agit d'une technique de synthèse multimédia servant à superposer des fichiers vidéos ou audios existants sur d'autres fichiers vidéos (par exemple pour changer le visage d'une personne sur une vidéo) ou audio (par exemple pour reproduire la voix d'une personne pour lui faire dire des choses inventées).

Des préoccupations ont été soulevées concernant l'utilisation potentielle des technologies de synthèse d'images humaines basées sur les GANs à des fins néfastes, par exemple, pour produire des photographies et des vidéos falsifiées, potentiellement incriminantes [42]. Les GANs peuvent être utilisés pour générer des photos de profil uniques et réalistes de personnes qui n'existent pas, afin d'automatiser la création de faux profils sur les réseaux sociaux [43].

En 2019, l'État de Californie a examiné et adopté, le 3 octobre 2019, le projet de loi AB-602, qui interdit l'utilisation des technologies de synthèse d'images humaines pour créer de la pornographie falsifiée sans le consentement des personnes représentées, ainsi que le projet de loi AB-730, qui interdit la distribution de vidéos manipulées d'un candidat politique dans les 60 jours précédant une élection. Les deux projets de loi ont été rédigés par le membre de l'Assemblée Marc Berman et signés par le gouverneur Gavin Newsom. Les lois sont entrées en vigueur en 2020 [44].

Le programme Media Forensics de la DARPA étudie des moyens de contrer les médias falsifiés, y compris les médias falsifiés produits à l'aide des GANs [45].

b) Inexactitude des datasets

L’un des principaux défis auxquels l’IA générative est confrontée réside dans la précision des sorties générées. Bien que les modèles aient la capacité de produire du contenu de manière autonome, leur exactitude peut être sujette à des variations. Par exemple, dans le domaine de la génération de texte, il est crucial de garantir que les réponses ou les créations textuelles générées reflètent fidèlement le contexte et les intentions initiales. Ceci pose un défi majeur en termes de qualité et de pertinence des sorties de l’IA générative, notamment lorsqu’elles sont utilisées dans des applications critiques telles que le service client ou la rédaction de contenu.

Un autre défi significatif est lié aux biais potentiels provenant des données d’entraînement. Les modèles d’IA générative sont formés sur des ensembles de données existants, et s’ils sont exposés à des données biaisées ou non représentatives, cela peut se refléter dans les nouvelles créations générées. Par exemple, dans le domaine de la génération d’images, si les données d’entraînement comportent des biais ethniques ou culturels, les images générées pourraient reproduire ces biais, soulevant ainsi des préoccupations éthiques et sociales significatives. La gestion de ces biais et la garantie de l’équité et de la diversité dans les sorties générées représentent un défi complexe pour l’adoption généralisée de l’IA générative [46].

c) Industries créatives

L’IA générative est désormais capable de proposer du contenu créatif (texte, image, son, vidéo, ...) d’une telle qualité qu’il n’est souvent plus possible de distinguer s’ils ont été créés par des humains ou par un algorithme. En mélangeant les genres, les machines deviennent même capables d’originalité et de singularité. Ces IAs sont désormais accessibles au plus grand nombre : soit dans le cloud, soit par un modèle à télécharger.

Figure 2 – Prompt réalisé avec Dall-e : "Undercover Spy Four-panel spy comic: 1) A tense briefing in a dimly lit underground headquarters. 2) Disguised infiltration at a high-society gala. 3) A high-tech gadgetry encounter in a sleek, modern laboratory. 4) An adrenaline-fueled escape on a motorbike through narrow city streets at night." [47]

Leur usage est simple : il s’agit de générer un « prompt » en langage naturel, pour qu’une IA propose en quelques secondes un contenu correspondant.

L’impact direct est l’accélération et la démocratisation de la création de contenus. Les designers et les créateurs professionnels pourront nourrir et inspirer leurs propres créations à l’aide de moodboards personnalisés générés par de l’IA : c’est ce que propose par exemple la startup française Pimento. Celle-ci va jusqu’à inventer de nouveaux genres mélangeant plusieurs styles, ou des contenus automatiquement personnalisés pour leurs clients et leur public.

Mais c’est aussi l’opportunité pour chacun de créer des contenus de qualité à coût réduit, sans faire appel à un professionnel. Autrement dit, les créateurs actuels auront aussi davantage de concurrence avec l’apparition de spécialistes du « prompt engineering », un probable nouveau métier comme auparavant celui du SEO ou du community management, vivier de nouveaux créateurs [48].

Tous les métiers créatifs sont touchés :

← Réalisation et évaluation des performances du GAN Introduction →