OpenVLA, le modèle VLA open-source pour la robotique
Vision-language-action models for robotics
Les modèles de vision-langage-action ont considérablement avancé en robotique, permettant la création de modèles vision-langage-action (VLA) qui généralisent aux objets, aux scènes et aux tâches au-delà de leurs données d’entraînement.
OpenVLA : un modèle VLA open-source
Pour relever ces défis, des chercheurs de l’Université Stanford, de l’UC Berkeley, du Toyota Research Institute, de Google Deepmind et d’autres laboratoires ont introduit OpenVLA, un modèle VLA open-source entraîné sur une collection diversifiée de démonstrations de robotique du monde réel.
OpenVLA surpasse d’autres modèles similaires sur des tâches de robotique. De plus, il peut facilement être affiné pour la généralisation dans des environnements multi-tâches impliquant plusieurs objets. De plus, il a été conçu pour profiter des techniques d’optimisation pour fonctionner sur des GPU grand public et être affiné à très faible coût.
Le potentiel d’OpenVLA
Avec les modèles fondamentaux devenant un élément essentiel de la robotique, OpenVLA peut rendre ces modèles plus accessibles et personnalisables à un plus large éventail d’entreprises et de laboratoires de recherche.
Source : venturebeat.com