L'IA hallucine DOOM
Peut-il avoir des hallucinations PERTE? Google Research et l'Université de Tel Aviv ont simulé avec succès DOOM dans un modèle d'apprentissage neuronal nommé GameNGen.
L'année 2018 a été riche en événements pour la scène « Can It Run DOOM ». DOOM a été exécuté sur des germes de caca, par exemple, et un savant fou a appris à un cerveau de rat cultivé en laboratoire à jouer à DOOM. Mais Google Research et l'université de Tel Aviv ont inversé la tendance avec leur projet GameNGen : ils ne se contentent pas d'exécuter DOOM dans un modèle neuronal, ils le font simulant DOOM sans utiliser de code traditionnel, de ressources visuelles ou de moteurs de jeu. Métaphoriquement parlant, nous avons maintenant une machine qui peut « penser » à DOOM.
La simulation DOOM est entièrement interactive et immédiatement reconnaissable. Elle tourne en couleur à 20 FPS sur un seul TPU (unité de traitement tenseur), ce qui signifie que les « moteurs de jeu neuronaux » comme GameNGen peuvent être relativement légers. Bien qu'il ne s'agisse pas de la première simulation IA de DOOM, c'est de loin la plus impressionnante et la plus précise.
La formation de GameNGen s'est déroulée en deux phases. Tout d'abord, un modèle d'apprentissage par renforcement (une IA en quête de récompense, un peu comme un rat de laboratoire) a appris à jouer à DOOM. Ses sessions de jeu ont été enregistrées et transmises à un modèle de diffusion (une IA comparable à l'algorithme de texte prédictif du clavier de votre smartphone), qui a appris à prédire et à générer des visuels dans le jeu. Les modèles n'ont pas été exposés au code source ni à la bibliothèque de ressources visuelles de DOOM.
« Un jeu vidéo complexe, le jeu emblématique DOOM, peut être exécuté sur un réseau neuronal (une version augmentée du Stable Diffusion v1.4 ouvert, en temps réel, tout en obtenant une qualité visuelle comparable à celle du jeu original. Bien qu'il ne s'agisse pas d'une simulation exacte, le modèle neuronal est capable d'effectuer des mises à jour complexes de l'état du jeu, telles que le comptage de la santé et des munitions, l'attaque des ennemis, l'endommagement des objets, l'ouverture des portes et la persistance de l'état du jeu sur de longues trajectoires. »
Bien que la simulation de DOOM par l'IA soit évidemment très impressionnante, elle n'est pas parfaite. De nombreuses « mises à jour complexes de l'état du jeu » simulées par l'IA sont affectées par des artefacts visuels révélateurs. Les indicateurs de santé et de munitions en bas de l'écran passent régulièrement d'un chiffre à l'autre, et les mouvements sont souvent sujets au type de taches que l'on voit souvent dans les vidéos génératives.
Malgré tout, GameNGen exécute DOOM avec une meilleure qualité et une meilleure fréquence d'images que la plupart des PC du milieu des années 90. Et ce, sans l'élégant DOOM Engine (ou tout autre moteur de jeu conventionnel, d'ailleurs). Google Research a également constaté que, lors de la visualisation court Avec des clips d'une durée comprise entre 1,6 et 3,2 secondes, les humains ont eu beaucoup de mal à différencier le faux DOOM du vrai DOOM (leur taux de réussite était de 58 à 60 %, selon la longueur de la vidéo). L'image est souvent parfaite ; elle ne parvient simplement pas à être parfaite de manière constante.
Quant à l’utilisation future de ces recherches, personne ne le sait. Google Research et l’Université de Tel Aviv ont prouvé qu’un jeu interactif pouvait fonctionner dans le cadre d’un modèle neuronal. Mais ils n’ont pas créé un jeu à partir de zéro. Le processus ardu de simulation d’un jeu dans un modèle neuronal n’a aucun avantage pratique ou économique en 2024. GameNGen, dans sa forme actuelle, n’est qu’une preuve de concept.
Cependant, cette recherche pourrait conduire au développement d’un modèle neuronal capable de générer unique jeux. Si le développement de jeux génératifs peut être réalisé à un coût inférieur au développement de jeux traditionnels (tout en offrant une expérience amusante aux joueurs), un produit comme GameNGen pourrait devenir un produit viable. Mais la formation pourrait s'avérer être le plus gros obstacle ici, car l'IA aurait besoin d'une bonne compréhension du fonctionnement des jeux (GameNGen semble s'appuyer fortement sur des observations visuelles) et, surtout, elle aurait besoin d'un ensemble de données massif contenant un large éventail d'éléments existants, protégé par le droit d'auteur Jeux.
Bien que j'aie fait de mon mieux pour expliquer cette recherche, je suggère de lire le livre blanc Diffusion Models Are Real-Time Game Engines et de visiter la page Github de GameNGen.