Google DeepMind révolutionne la robotique avec Gemini Robotics : une IA combinant langage, vision et action physique.

Google DeepMind dévoile une nouvelle approche pour l’IA dans les robots
Dans les récits de science-fiction, l’intelligence artificielle alimente souvent toutes sortes de robots intelligents, capables, et parfois meurtriers. Une limitation importante des meilleures IA d’aujourd’hui est qu’elles restent principalement confinées à la fenêtre de discussion.
Google DeepMind a annoncé aujourd’hui son intention de changer cela, en dévoilant une nouvelle version de son modèle d’IA, Gemini, qui fusionne le langage, la vision et l’action physique pour alimenter une gamme de robots plus capables, adaptables et potentiellement utiles.
Des robots plus capables grâce à Gemini Robotics
Dans une série de vidéos de démonstration, la société a montré plusieurs robots équipés du nouveau modèle, appelé Gemini Robotics, manipulant des objets en réponse à des commandes verbales. Les bras robots plient le papier, remettent des légumes, posent doucement une paire de lunettes dans un étui, et effectuent d’autres tâches. Les robots s’appuient sur le nouveau modèle pour relier les objets visibles aux actions possibles afin de faire ce qu’on leur dit. Le modèle est entraîné de manière à permettre une généralisation du comportement sur des matériels très différents.
Google DeepMind a également annoncé une version de son modèle appelée Gemini Robotics-ER (pour raisonnement incarné), qui se concentre uniquement sur la compréhension visuelle et spatiale. L’idée est que d’autres chercheurs en robotique puissent utiliser ce modèle pour entraîner leurs propres modèles à contrôler les actions des robots.
Des scénarios spécifiques contrôlés avec succès
Dans une démonstration vidéo, les chercheurs de Google DeepMind ont utilisé le modèle pour contrôler un robot humanoïde appelé Apollo, de la startup Apptronik. Le robot discute avec un humain et déplace des lettres sur une table lorsqu’on lui en donne l’ordre.
“Nous avons réussi à apporter la compréhension du monde, la compréhension des concepts généraux, de Gemini 2.0 à la robotique”, a déclaré Kanishka Rao, chercheur en robotique chez Google DeepMind, lors d’un briefing avant l’annonce d’aujourd’hui.
Google DeepMind affirme que le nouveau modèle est capable de contrôler différents robots avec succès dans des centaines de scénarios spécifiques qui n’étaient pas inclus dans leur entraînement précédent. “Une fois que le modèle du robot a une compréhension des concepts généraux, il devient beaucoup plus général et utile”, a déclaré Rao.
Source : www.wired.com