GoldE

Applications et implications des GAN

← Réalisation et évaluation des performances du GAN Introduction →

Les Generative Adversarial Networks (GANs) attirent particulièrement l’attention, même en dehors du domaine informatique, depuis que le collectif artistique Obvious a eu recours à cette technique pour créer une œuvre d’art.

Figure 1 – "Portrait d'Edmond de Belamy" du collectif Obvious

La peinture réalisée, "Portrait d'Edmond de Belamy", est la première œuvre d'art produite par un logiciel d'intelligence artificielle à être présentée dans une salle des ventes. Ce portrait d'un personnage fictif a été vendu 432 500 dollars chez Christie's le 25 octobre 2018. En dehors du domaine artistique, les GANs peuvent également être d’une grande utilité [1].

1) Applications

a) Transfer Learning

Le Transfer Learning, ou apprentissage par transfert en français, désigne l'ensemble des méthodes qui permettent de transférer les connaissances acquises à partir de la résolution de problèmes donnés pour traiter un autre problème.

Les recherches actuelles pour cette méthode utilisent les GANs pour renforcer l'alignement du latent feature space, comme dans l'apprentissage par renforcement profond [2]. Cela fonctionne en fournissant les embeddings de la tâche source et de la tâche cible au discriminateur qui essaie de deviner le contexte. La perte résultante est ensuite (inversement) rétropropagée à travers l'encodeur.

b) Mode, art et publicité

Comme nous l'avons déjà vu plus haut, les GANs peuvent être utilisés pour générer de l'art. The Verge a écrit en Mars 2019 que "les images créées par les GANs sont devenues la représentation de l'art contemporain de l'IA" [3]. Ils peuvent aussi servir à l'inpainting, soit une technique de reconstruction d'images détériorées ou de remplissage des parties manquantes d'une image [4].

Il est aussi possible de créer des photos de mannequins imaginaires, sans avoir à engager un quelconque modèle, photographe, maquilleur ou payer un studio, ainsi que les transports [5]. Les GANs ont aussi été utilisés pour la génération d'ombres virtuelles [6].

En 2018, les GANs ont apporté à la communauté du mod de jeux vidéos une méthode de redimensionnement d'image. En effet, cela a permis de recréer les textures 2D basse résolution de vieux jeux vidéos en textures 4K, ou même de plus hautes résolutions à l'aide de l'image training. Il suffit ensuite de sous-échantillonner les images pour qu'elles correspondent à la résolution native du jeu (avec des résultats ressemblant à la méthode de supersampling de l'anti-aliasing) [7].

Avec une formation appropriée, les GANs fournissent une image de texture 2D plus claire et plus nette, d'une qualité supérieure à celle de l'original, tout en conservant pleinement le niveau de détails, de couleurs, etc. de l'original. Les exemples connus d'utilisation intensive des GANs incluent Final Fantasy VIII, Final Fantasy IX, Resident Evil HD Remaster et Max Payne.

Artbreeder est un site permettant de générer et modifier des images de visages, paysages et peintures notamment. En 2020, il était utilisé pour créer l'antagoniste principal de la suite de la série d'horreur psychologique sur le Web Ben Drowned. L'auteur fera, plus tard, l'éloge des applications des GANs pour leur capacité à aider à générer des ressources pour les artistes indépendants qui manquent de budget et de main-d'œuvre [8, 9].

En mai 2020, les chercheurs de Nvidia ont appris à un système d'IA (appelé « GameGAN ») à recréer le jeu Pac-Man simplement en le regardant jouer [10, 11].

Désormais, la création d'images en tous genres est disponible au grand public grâce à des outils de génération d'images. Parmis ceux-ci, nous pouvons citer les grands comme Midjourney et Dall-E qui utilisaient des GANs à l'origine. Cependant, les algorithmes de diffusion sont venus remplacer les GANs pour pouvoir générer des images différentes, et introduire une notion d'aléatoire dans les générations [12].

c) Science

Les GANs peuvent améliorer les images astronomiques [13] et simuler la lentille gravitationnelle pour la recherche sur la matière noire [14]. Ils ont été utilisés en 2019 pour modéliser avec succès la distribution de la matière noire dans une direction particulière de l'espace, et pour prédire la lentille gravitationnelle qui se produira [15].

Les GANs ont été proposés comme un moyen rapide et précis de modéliser la formation de jets à haute énergie [16], et de modéliser des cascades de particules à l'aide de calorimètres dans des expériences en physique des particules [17, 18, 19, 20]. Les GANs ont également été formés pour réaliser une approximation avec précision des goulots d'étranglement dans les simulations coûteuses en calcul de physique des particules. Les applications dans le contexte des expériences actuelles et proposées du CERN ont démontré le potentiel de ces méthodes pour accélérer la simulation et/ou améliorer la fidélité de la simulation [21, 22].

En 2016, les GANs ont été utilisés pour générer de nouvelles molécules pour une variété de cibles protéiques impliquées dans le cancer, l'inflammation et la fibrose. En 2019, les molécules générées par les GANs ont été validées expérimentalement jusqu'aux souris [23, 24]. De plus, ils ont suscité une attention significative en raison de leur potentiel pour reconstruire les champs de vitesses et les champs scalaires dans les flux turbulents [25, 26, 27].

d) Médical

L'une des principales préoccupations en imagerie médicale est de préserver la vie privée des patients. Pour ces raisons, les chercheurs rencontrent souvent des difficultés pour obtenir des images médicales à des fins de recherche. Récemment, les GANs ont été largement utilisés pour générer des images médicales synthétiques, telles que des images IRM et TEP, afin de relever ce défi [28].

Les GANs peuvent être utilisés pour détecter des images glaucomateuses, ce qui aide au diagnostic précoce, essentiel pour éviter la perte partielle ou totale de la vision [29].

Ils ont également été utilisés pour créer des reconstitutions faciales judiciaires de personnages historiques décédés [30].

e) Diverses

Les GANs ont été utilisés pour :

Montrer comment l'apparence d'un individu pourrait changer avec l'âge [31];
Reconstituer des modèles 3D d'objets à partir d'images [32];
Générer des objets novateurs sous forme de nuages de points 3D [33];
Modéliser les motifs de mouvement dans les vidéos [34];
Compléter les caractéristiques manquantes sur les cartes, transférer les styles de carte en cartographie [35] ou augmenter les images de vues de rue [36];
Utiliser les retours pour générer des images et remplacer les systèmes de recherche d'images [37];
Visualiser l'effet que le changement climatique aura sur des maisons spécifiques [38];
Reconstituer une image du visage d'une personne après avoir écouté sa voix [39];
Produire des vidéos d'une personne parlant, à partir d'une seule photo de cette personne [40];
Génération de séquences récurrentes [41].

2) Implications éthiques et sociales

a) Deepfakes

De façon générale, les deepfakes se sont multipliés ces derniers temps, toujours plus réalistes, augmentant le doute quant à l'authenticité des informations vues ou entendues sur internet. Il s'agit d'une technique de synthèse multimédia servant à superposer des fichiers vidéos ou audios existants sur d'autres fichiers vidéos (par exemple pour changer le visage d'une personne sur une vidéo) ou audio (par exemple pour reproduire la voix d'une personne pour lui faire dire des choses inventées).

Des préoccupations ont été soulevées concernant l'utilisation potentielle des technologies de synthèse d'images humaines basées sur les GANs à des fins néfastes, par exemple, pour produire des photographies et des vidéos falsifiées, potentiellement incriminantes [42]. Les GANs peuvent être utilisés pour générer des photos de profil uniques et réalistes de personnes qui n'existent pas, afin d'automatiser la création de faux profils sur les réseaux sociaux [43].

En 2019, l'État de Californie a examiné et adopté, le 3 octobre 2019, le projet de loi AB-602, qui interdit l'utilisation des technologies de synthèse d'images humaines pour créer de la pornographie falsifiée sans le consentement des personnes représentées, ainsi que le projet de loi AB-730, qui interdit la distribution de vidéos manipulées d'un candidat politique dans les 60 jours précédant une élection. Les deux projets de loi ont été rédigés par le membre de l'Assemblée Marc Berman et signés par le gouverneur Gavin Newsom. Les lois sont entrées en vigueur en 2020 [44].

Le programme Media Forensics de la DARPA étudie des moyens de contrer les médias falsifiés, y compris les médias falsifiés produits à l'aide des GANs [45].

b) Inexactitude des datasets

L’un des principaux défis auxquels l’IA générative est confrontée réside dans la précision des sorties générées. Bien que les modèles aient la capacité de produire du contenu de manière autonome, leur exactitude peut être sujette à des variations. Par exemple, dans le domaine de la génération de texte, il est crucial de garantir que les réponses ou les créations textuelles générées reflètent fidèlement le contexte et les intentions initiales. Ceci pose un défi majeur en termes de qualité et de pertinence des sorties de l’IA générative, notamment lorsqu’elles sont utilisées dans des applications critiques telles que le service client ou la rédaction de contenu.

Un autre défi significatif est lié aux biais potentiels provenant des données d’entraînement. Les modèles d’IA générative sont formés sur des ensembles de données existants, et s’ils sont exposés à des données biaisées ou non représentatives, cela peut se refléter dans les nouvelles créations générées. Par exemple, dans le domaine de la génération d’images, si les données d’entraînement comportent des biais ethniques ou culturels, les images générées pourraient reproduire ces biais, soulevant ainsi des préoccupations éthiques et sociales significatives. La gestion de ces biais et la garantie de l’équité et de la diversité dans les sorties générées représentent un défi complexe pour l’adoption généralisée de l’IA générative [46].

c) Industries créatives

L’IA générative est désormais capable de proposer du contenu créatif (texte, image, son, vidéo, ...) d’une telle qualité qu’il n’est souvent plus possible de distinguer s’ils ont été créés par des humains ou par un algorithme. En mélangeant les genres, les machines deviennent même capables d’originalité et de singularité. Ces IAs sont désormais accessibles au plus grand nombre : soit dans le cloud, soit par un modèle à télécharger.

Figure 2 – Prompt réalisé avec Dall-e : "Undercover Spy Four-panel spy comic: 1) A tense briefing in a dimly lit underground headquarters. 2) Disguised infiltration at a high-society gala. 3) A high-tech gadgetry encounter in a sleek, modern laboratory. 4) An adrenaline-fueled escape on a motorbike through narrow city streets at night." [47]

Leur usage est simple : il s’agit de générer un « prompt » en langage naturel, pour qu’une IA propose en quelques secondes un contenu correspondant.

L’impact direct est l’accélération et la démocratisation de la création de contenus. Les designers et les créateurs professionnels pourront nourrir et inspirer leurs propres créations à l’aide de moodboards personnalisés générés par de l’IA : c’est ce que propose par exemple la startup française Pimento. Celle-ci va jusqu’à inventer de nouveaux genres mélangeant plusieurs styles, ou des contenus automatiquement personnalisés pour leurs clients et leur public.

Mais c’est aussi l’opportunité pour chacun de créer des contenus de qualité à coût réduit, sans faire appel à un professionnel. Autrement dit, les créateurs actuels auront aussi davantage de concurrence avec l’apparition de spécialistes du « prompt engineering », un probable nouveau métier comme auparavant celui du SEO ou du community management, vivier de nouveaux créateurs [48].

Tous les métiers créatifs sont touchés :

L’art numérique, une œuvre générée par une IA ayant même remporté un concours d’art [49];
Le design de produits ou d’espace, notamment dans la mode, le luxe, l’architecture ; ces designs pourront notamment mélanger les styles et être bien davantage personnalisés, y compris en 3D;
La conception d’objets pour les jeux vidéo et les métavers (et demain probablement, de jeux et d’univers entiers en 3D au-delà des objets) [50];
L’illustration d’articles (à l’instar de celui-ci), de livres [51], de scénarios… et bientôt leur écriture, leur résumé [52] et bien sûr leur traduction dans les principales langues mondiales;
La communication, le marketing, la publicité avec la création de pitchs, posts, descriptifs de produits ou illustrations : c’est ce que propose la licorne Jasper [53];
La création audio : il existe déjà de nombreuses musiques générées par des IA [54];
La création vidéo sera bouleversée dès que les modèles seront suffisamment performants ; Disney a déjà créé un outil pouvant rajeunir ou vieillir les acteurs à volonté, tandis qu’elia.io propose des présentateurs virtuels [55];
L’enseignement et la formation, tant dans la pédagogie et l’apprentissage (leçons interactives générées par des IA en fonction du niveau de chaque élève) que dans l’évaluation des étudiants (ChatGPT étant capable de réaliser des devoirs à leur place jusqu’à l’université) [56].

← Réalisation et évaluation des performances du GAN Introduction →

[1] L'équipe éditoriale IONOS, Generative Adversarial Networks : la face créative de l’apprentissage automatique, 2020. Ionos, Digital Guide.
[2] Li, Bonnie, Vincent François-Lavet, Thang Doan, and Joelle Pineau, "Domain adversarial reinforcement learning.", 2021. arXiv:2102.07097.
[3] James Vincent, A never-ending stream of AI art goes up for auction, 2019. The Verge.
[4] Yu, Jiahui, et al. Generative image inpainting with contextual attention.", 2018.
[5] Ceecee Wong, The Rise of AI Supermodels, 2019. CDO Trends.
[6] Taif, K., Ugail, H., Mehmood, I.; "Cast Shadow Generation Using Generative Adversarial Networks", 2020. In: Krzhizhanovskaya, V.V., et al. Computational Science – ICCS 2020. ICCS 2020. Lecture Notes in Computer Science(), vol 12141. Springer, Cham.
[7] Tang, Xiaoou; Qiao, Yu; Loy, Chen Change; Dong, Chao; Liu, Yihao; Gu, Jinjin; Wu, Shixiang; Yu, Ke; Wang, Xintao; "ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks", 2018. arXiv:1809.00219.
[8] Eric Van Allen, "An Infamous Zelda Creepypasta Saga Is Using Artificial Intelligence to Craft Its Finale", 2020. WayBackMachine, USGamer.
[9] Arcadeattack, "Arcade Attack Podcast – September (4 of 4) 2020 – Alex Hall (Ben Drowned) – Interview", 2020.
[10] James Vincent, "Nvidia’s AI recreates Pac-Man from scratch just by watching it being played", 2020. TheVerge.
[11] Seung Wook Kim; Zhou, Yuhao; Philion, Jonah; Torralba, Antonio; Fidler, Sanja; "Learning to Simulate Dynamic Environments with GameGAN", 2020. arXiv:2005.12126.
[12] Tapir, Dall-E et Midjourney : Comment fonctionnent-ils ?, 2023. Swtch, Sciences/Technologies.
[13] Schawinski, Kevin; Zhang, Ce; Zhang, Hantian; Fowler, Lucas; Santhanam, Gokula Krishnan; "Generative Adversarial Networks recover features in astrophysical images of galaxies beyond the deconvolution limit", 2017. arXiv:1702.00403.
[14] Kathy Kincade, Lawrence Berkeley National Laboratory, "CosmoGAN: Training a neural network to study dark matter", 2019. Phys.org.
[15] Katyanna Quach, "Cosmoboffins use neural networks to build dark matter maps the easy way", 2019. The Register.
[16] Paganini, Michela; de Oliveira, Luke; Nachman, Benjamin; "Learning Particle Physics by Example: Location-Aware Generative Adversarial Networks for Physics Synthesis", 2017. arXiv:1701.05927.
[17] Paganini, Michela; de Oliveira, Luke; Nachman, Benjamin; "Accelerating Science with Generative Adversarial Networks: An Application to 3D Particle Showers in Multi-Layer Calorimeters", 2018. arXiv:1705.02355.
[18] Paganini, Michela; de Oliveira, Luke; Nachman, Benjamin; "CaloGAN: Simulating 3D High Energy Particle Showers in Multi-Layer Electromagnetic Calorimeters with Generative Adversarial Networks", 2018. arXiv:1712.10321.
[19] Erdmann, Martin; Glombitza, Jonas; Quast, Thorben; "Precise Simulation of Electromagnetic Calorimeter Showers Using a Wasserstein Generative Adversarial Network", 2018. arXiv:1807.01954.
[20] Musella, Pasquale; Pandolfi, Francesco; "Fast and Accurate Simulation of Particle Detectors Using Generative Adversarial Networks", 2018. arXiv:1805.00850.

[21] ATLAS Experiment, "Deep generative models for fast shower simulation in ATLAS", 2018. CERN.
[22] SHiP Collaboration, "Fast simulation of muons produced at the SHiP experiment using Generative Adversarial Networks", 2019. arXiv:1909.04451.
[23] Zhavoronkov, A., Ivanenkov, Y.A., Aliper, A. et al. "Deep learning enables rapid identification of potent DDR1 kinase inhibitors", 2019. Nat Biotechnol 37, 1038–1040.
[24] Gregory Barber, "A Molecule Designed by AI Exhibits 'Druglike' Qualities", 2019. Wired.
[25] Nista, Ludovico; Pitsch, Heinz; Schumann, Christoph D. K.; Bode, Mathis; Grenga, Temistocle; MacArt, Jonathan F.; Attili, Antonio; "Influence of adversarial training on super-resolution turbulence reconstruction", 2024. arXiv:2308.16015.
[26] Nista, L.; Schumann, C. D. K.; Grenga, T.; Attili, A.; Pitsch, H.; "Investigation of the generalization capability of a generative adversarial network for large eddy simulation of turbulent premixed reacting flows", 2023. Proceedings of the Combustion Institute. 39 (4): 5279–5288.
[27] Fukami, K., Fukagata, K. & Taira, K.; "Assessment of supervised machine learning methods for fluid flows", 2020. Theor. Comput. Fluid Dyn. 34, 497–519.
[28] Moradi, M., Demirel, H.; "Alzheimer’s disease classification using 3D conditional progressive GAN- and LDA-based data selection, 2023. SIViP 18, 1847–1861.
[29] Bisneto, Tomaz Ribeiro Viana; de Carvalho Filho, Antonio Oseas; Magalhães, Deborah Maria Vieira; "Generative adversarial network and texture features applied to automatic glaucoma detection", 2020. Applied Soft Computing. 90: 106165.
[30] World History Encyclopedia, "Reconstruction of the Roman Emperors: Interview with Daniel Voshart", 2020. Youtube.
[31] Antipov, Grigory; Baccouche, Moez; Dugelay, Jean-Luc; "Face Aging With Conditional Generative Adversarial Networks", 2017. arXiv:1702.01983.
[32] 3dgan.csail.mit.edu. "Learning a Probabilistic Latent Space of Object Shapes via 3D Generative-Adversarial Modeling".
[33] Achlioptas, Panos; Diamanti, Olga; Mitliagkas, Ioannis; Guibas, Leonidas; "Learning Representations and Generative Models for 3D Point Clouds", 2018. arXiv:1707.02392.
[34] Vondrick, Carl; Pirsiavash, Hamed; Torralba, Antonio; "Generating Videos with Scene Dynamics", 2016. carlvondrick.com. arXiv:1609.02612.
[35] Kang, Yuhao; Gao, Song; Roth, Rob; "Transferring Multiscale Map Styles Using Generative Adversarial Networks", 2019. International Journal of Cartography. 5 (2–3): 115–141. arXiv:1905.02200.
[36] Wijnands, Jasper; Nice, Kerry; Thompson, Jason; Zhao, Haifeng; Stevenson, Mark; "Streetscape augmentation using generative adversarial networks: Insights related to health and wellbeing", 2019. Sustainable Cities and Society. 49: 101602. arXiv:1905.06464.
[37] Ukkonen, Antti; Joona, Pyry; Ruotsalo, Tuukka; "Generating Images Instead of Retrieving Them", 2020. Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. pp. 1329–1338.
[38] Will Knight, "AI can show us the ravages of climate change", 2019. MIT Technology Review.
[39] Christian, Jon; "ASTOUNDING AI GUESSES WHAT YOU LOOK LIKE BASED ON YOUR VOICE", 2019. Futurism.
[40] Kulp, Patrick; "Samsung's AI Lab Can Create Fake Video Footage From a Single Headshot", 2019. AdWeek.
[41] Mohammad Navid Fekri; Ananda Mohon Ghosh; Katarina Grolinger; "Generating Energy Data for Machine Learning with Recurrent Generative Adversarial Networks", 2019. Energies. 13 (1): 130.
[42] msmash, "'This Person Does Not Exist' Website Uses AI To Create Realistic Yet Horrifying Faces", 2019. Slashdot.
[43] Michael Doyle, "John Beasley lives on Saddlehorse Drive in Evansville. Or does he?", 2019. Courier and Press.
[44] Carrie Mihalcik, "California laws seek to crack down on deepfakes in politics and porn", 2019. Cnet.
[45] Will Knight, "The Defense Department has produced the first tools for catching deepfakes", 2018. MIT Technology Review.
[46] Onopia, "L'IA Générative : Révolution et Implications dans les Entreprises".
[47] MLQ, "20+ DALL·E 3 Prompts", 2024. MLQ.ai.
[48] DreamStudio, "Basics of Prompt Engineering", 2022. DreamStudio by stability.ai.
[49] Belinda Teoh, "Art Made by AI Wins Fine Arts Competition", 2022. Impakter.
[50] Kyle Wiggers, "Latitude brings AI-generated artwork to AI Dungeon", 2022. TechCrunch.
[51] Nik Poli, "He Used AI to Publish a Children’s Book in a Weekend. Artists Are Not Happy About It", 2022. Time.
[52] Jeffrey Wu, Ryan Lowe, Jan Leike, "Summarizing books with human feedback", 2021. OpenAI.
[53] Kyle Wiggers, "AI content platform Jasper raises $125M at a $1.5B valuation", 2022. TechCrunch.
[54] Kristin Robinson, "What Happens to Songwriters When AI Can Generate Music?", 2022. Billboard.
[55] Benj Edwards, "Disney’s new neural network can change an actor’s age with ease", 2022. Ars Technica.
[56] Luc Ferry, "Luc Ferry: «Comment l’IA va bouleverser l’enseignement»", 2022. Le Figaro Vox.