19 avril 2025

Krusell France

Ta dose d'actu digital !

Google DeepMind révolutionne la robotique avec Gemini Robotics : une IA combinant langage, vision et action physique.

Google’s Gemini Robotics AI Model Reaches Into the Physical World
Rate this post

Google DeepMind dévoile une nouvelle approche pour l’IA dans les robots

Dans les récits de science-fiction, l’intelligence artificielle alimente souvent toutes sortes de robots intelligents, capables, et parfois meurtriers. Une limitation importante des meilleures IA d’aujourd’hui est qu’elles restent principalement confinées à la fenêtre de discussion.

Google DeepMind a annoncé aujourd’hui son intention de changer cela, en dévoilant une nouvelle version de son modèle d’IA, Gemini, qui fusionne le langage, la vision et l’action physique pour alimenter une gamme de robots plus capables, adaptables et potentiellement utiles.

Des robots plus capables grâce à Gemini Robotics

Dans une série de vidéos de démonstration, la société a montré plusieurs robots équipés du nouveau modèle, appelé Gemini Robotics, manipulant des objets en réponse à des commandes verbales. Les bras robots plient le papier, remettent des légumes, posent doucement une paire de lunettes dans un étui, et effectuent d’autres tâches. Les robots s’appuient sur le nouveau modèle pour relier les objets visibles aux actions possibles afin de faire ce qu’on leur dit. Le modèle est entraîné de manière à permettre une généralisation du comportement sur des matériels très différents.

Google DeepMind a également annoncé une version de son modèle appelée Gemini Robotics-ER (pour raisonnement incarné), qui se concentre uniquement sur la compréhension visuelle et spatiale. L’idée est que d’autres chercheurs en robotique puissent utiliser ce modèle pour entraîner leurs propres modèles à contrôler les actions des robots.

Des scénarios spécifiques contrôlés avec succès

Dans une démonstration vidéo, les chercheurs de Google DeepMind ont utilisé le modèle pour contrôler un robot humanoïde appelé Apollo, de la startup Apptronik. Le robot discute avec un humain et déplace des lettres sur une table lorsqu’on lui en donne l’ordre.

“Nous avons réussi à apporter la compréhension du monde, la compréhension des concepts généraux, de Gemini 2.0 à la robotique”, a déclaré Kanishka Rao, chercheur en robotique chez Google DeepMind, lors d’un briefing avant l’annonce d’aujourd’hui.

Google DeepMind affirme que le nouveau modèle est capable de contrôler différents robots avec succès dans des centaines de scénarios spécifiques qui n’étaient pas inclus dans leur entraînement précédent. “Une fois que le modèle du robot a une compréhension des concepts généraux, il devient beaucoup plus général et utile”, a déclaré Rao.

Source : www.wired.com

  • mia dufresne portrait redactrice

    Mia est une rédactrice spécialisée dans les produits tech et l'IA, avec une formation en data science et une passion pour l'innovation. Elle explore les dernières avancées en IA, leurs applications pratiques et leurs implications éthiques.

    Voir toutes les publications