OpenMOSS propose ICWM pour adapter les VLA sans réentraînement
TL;DR
- ICWM permet aux modèles VLA de s'adapter à de nouveaux contextes sans mise à jour de paramètres, via de courtes interactions autonomes préalables.
- L'équipe OpenMOSS traite l'identification du système comme un problème d'adaptation in-context, distinct de la spécification de tâche classique.
- Les expériences en simulation et sur robot réel montrent qu'ICWM surpasse les baselines VLA standard sur des points de vue caméra inédits.
Les modèles Vision-Language-Action (VLA) ont démontré des capacités impressionnantes pour piloter des robots, mais ils butent sur un obstacle pratique majeur : changez l'angle de la caméra ou la morphologie du robot, et les performances s'effondrent. La cause identifiée par l'équipe OpenMOSS dans un article publié le 25 juin sur Hugging Face Papers est structurelle : ces modèles supposent implicitement que le contexte d'exécution restera identique à celui de l'entraînement, ce qui les oblige à un fine-tuning coûteux en données dès qu'une nouvelle configuration apparaît.
Le cadre qu'ils proposent, baptisé In-Context World Modeling (ICWM), renverse cette logique. Plutôt que d'entraîner le modèle à reconnaître chaque configuration possible, ICWM traite l'identification du système comme un problème d'adaptation in-context : avant chaque tâche, le robot génère de manière autonome de courtes interactions sans objectif spécifique pour inférer les variables essentielles du système courant, position de caméra ou morphologie, et les encode dans sa fenêtre de contexte. La distinction avec l'apprentissage in-context classique est nette : là où ce dernier sert à spécifier quoi faire, ICWM sert à comprendre comment le système opère.
Selon les auteurs, des expériences en simulation et sur des plateformes robot réelles montrent qu'ICWM surpasse significativement les baselines VLA standard sur des points de vue caméra inédits, et ce sans aucune mise à jour de paramètres. La nuance honnête est que l'article ne publie pas de chiffres précis dans son résumé accessible, et que « surpasse significativement » reste une affirmation à confirmer par une lecture complète de l'évaluation.
Ce qui mérite attention ici n'est pas seulement la performance annoncée, mais la généralité du principe : l'identification de système in-context pourrait s'appliquer à tout modèle disposant d'une fenêtre de contexte suffisamment longue. Pour les équipes qui déploient des robots sur plusieurs sites avec des configurations différentes, l'élimination du fine-tuning par site représente un gain opérationnel concret. Ce que l'article ne précise pas encore, c'est le coût en temps de la phase d'exploration préalable ni à quel point les résultats sur morphologies robotiques inédites sont aussi robustes que ceux sur les points de vue caméra.
Article original publié par huggingface.co
Lire l'article original →Titre original : In-Context World Modeling : les robots VLA s'adaptent à de nouveaux environnements sans ré-entraînement grâce à une inférence contextuelle dynamique