Fudan pré-entraîne les VLA sans démonstrations expertes coûteuses
TL;DR
- TAP de Fudan pré-entraîne d'abord les compétences motrices via Inverse Dynamics auto-supervisée, avant d'aligner ces priors avec un mini-jeu d'annotations expertes.
- Sur SIMPLER, TAP égalerait des modèles entraînés sur plus d'un million de trajectoires, avec 10% de gain absolu sur le clonage de comportement.
- Sur plateforme WidowX 250s réelle, TAP conserve 25% de succès sous perturbations caméra là où les baselines internet-scale chutent à 0%.
L'équipe VLA de l'université Fudan avance une idée simple mais inhabituelle: le vrai goulot d'étranglement des modèles Vision-Language-Action n'est pas la puissance des architectures, mais la rareté des triplets observation, instruction, action collectés par téléopération humaine. Dans un papier publié sur Hugging Face, Junhao Shi, Xipeng Qiu et leurs coauteurs de Fudan University et du Shanghai Innovation Institute proposent une méthode nommée Task-Agnostic Pretraining (TAP), qui apprend d'abord au robot « comment bouger » avant de lui apprendre « quoi faire ».
L'argument central est ce qu'ils appellent une Decomposition Hypothesis. Acquérir la compétence physique et acquérir l'alignement sémantique sont deux objectifs distincts, et seul le second exige des annotations en langage. TAP tire donc parti de trajectoires « sans étiquettes », soit des démonstrations existantes rejetées parce qu'elles ne correspondent à aucune tâche cible, soit des trajectoires de jeu autonome générées par le robot lui-même. Ces données passent par un objectif auto-supervisé d'Inverse Dynamics: prédire l'action a_t qui permet de passer d'une observation o_t à o_{t+1}. Un second étage aligne ensuite ces représentations avec un jeu réduit de démonstrations expertes annotées, en repurposant notamment des trajectoires du dataset Bridge.
Les chiffres avancés valent d'être repris avec les guillemets qui s'imposent. Sur le benchmark SIMPLER, TAP égale, selon les auteurs, des modèles pré-entraînés sur plus d'un million de trajectoires expertes, avec un gain absolu de 10% par rapport au clonage de comportement standard. Sur une plateforme réelle WidowX 250s, TAP conserverait 25% de succès sous perturbations de caméra là où des baselines pré-entraînées à l'échelle d'Internet chutent à 0%. Les auteurs y voient la preuve que les priors physiques appris de manière task-agnostic transfèrent mieux que ce que capturent des systèmes comme OpenVLA, π_0 ou Gen-0.
L'honnête réserve est celle qu'impose tout papier signé par une seule équipe: l'évaluation est menée par les auteurs de la méthode, sur SIMPLER et sur une seule plateforme physique. Le papier compare ses résultats à des baselines internet-scale, mais notre lecture ne détaille pas le volume précis de random play autonome nécessaire côté WidowX pour atteindre le chiffre de 25%, ni la robustesse au-delà des perturbations caméra.
Si le résultat tient, la conséquence stratégique est claire pour les laboratoires de robotique: les heures de téléopération humaine, qui pèsent le plus lourd dans les budgets, deviendraient partiellement substituables par des trajectoires que le robot génère seul. C'est le vrai enjeu à surveiller.
Article original publié par huggingface.co
Lire l'article original →Titre original : TAP (Fudan) : découpler le « comment bouger » du « quoi faire » pour pré-entraîner les modèles VLA sans démonstrations expertes coûteuses