Microsoft dévoile WHAMM, une IA générative pour les jeux en temps réel

Microsoft a récemment dévoilé WHAMM, un modèle d’IA générative pour les jeux en temps réel, comme le montre sa démonstration mettant en scène le classique Quake II. Cette démo interactive répond aux commandes de l’utilisateur via une manette ou un clavier, bien que le taux de rafraîchissement reste assez bas. Avant de vous emparer de vos fourches, Microsoft met l’accent sur l’analyse des particularités du modèle plutôt que sur son évaluation en tant qu’expérience de jeu.
Une mise à jour de WHAMM
WHAMM, abréviation de World and Human Action MaskGIT Model, est une mise à jour du modèle original WHAM-1.6B lancé en février. Il sert d’extension jouable en temps réel avec une sortie visuelle plus rapide. WHAM utilise un modèle auto-régressif où chaque jeton est prédit séquentiellement, à la manière des LLM. Pour rendre l’expérience en temps réel et fluide, Microsoft est passé à une configuration de style MaskGIT où tous les jetons de l’image peuvent être générés en parallèle, réduisant la dépendance et le nombre de passes avant.
WHAMM a été entraîné sur Quake II avec un peu plus d’une semaine de données, une réduction spectaculaire par rapport aux sept années nécessaires pour WHAM-1.6B. De même, la résolution a été augmentée d’un aspect pixelisé de 300 x 180 à un aspect légèrement moins pixelisé de 640 x 360. Vous pouvez essayer la démo vous-même sur Copilot Labs.
La capacité du modèle à suivre l’environnement existant, en dehors des anomalies graphiques occasionnelles, tout en s’adaptant simultanément aux commandes de l’utilisateur, est impressionnante, malgré le lag d’entrée atrocement mauvais. Vous pouvez tirer, vous déplacer, sauter, vous accroupir, regarder autour de vous et même tirer sur des ennemis, mais finalement, il ne s’agit que d’une vitrine fantaisiste et ne peut jamais remplacer l’expérience originale.
Limitations et perspectives
Comme prévu, le modèle n’est pas parfait. Les interactions avec les ennemis sont décrites comme floues, la longueur du contexte est limitée, le jeu stocke de manière incorrecte des statistiques vitales comme la santé et les dégâts, et il est confiné à un seul niveau. Cette annonce fait suite à la tendance Ghibli la plus récente d’OpenAI, qui a suscité beaucoup d’attention négative. Malgré son développement actuel rapide, l’IA ne peut pas vraiment recréer l’élément humain présent dans chaque œuvre créative.
Cependant, l’objectif réside dans l’amélioration, et non le remplacement, des œuvres créatives, comme le suggère la technologie ACE de Nvidia, qui peut alimenter des PNJ réalistes. Des parties de cette technologie sont déjà intégrées dans le jeu de simulation de vie inZOI. D’un point de vue technologique, WHAMM représente néanmoins une avancée par rapport aux tentatives précédentes, souvent chaotiques, incohérentes et remplies d’hallucinations.
Source : www.tomshardware.com