huggingface.co détecté sur le web June 26th 2026

Les world models hallucinent là où les données sont rares

hallucinations robotics research agents world-models hallucinations robotics inference

TL;DR

Les hallucinations des world models viennent d'un déficit de couverture des données, pas d'un défaut d'architecture.
Trois signaux runtime sans étiquette prédisent l'erreur de rollout avec une corrélation ρ ≈ 0,80.
50 trajectoires suffisent pour adapter un modèle de 350M paramètres à dix tâches inconnues, approchant les performances expert.

Il est tentant de traiter les hallucinations dans les world models comme un problème d'architecture — un meilleur encodeur, plus de paramètres, et le problème disparaît. Un article publié sur Hugging Face Papers propose une lecture radicalement différente : ces erreurs ne sont pas un défaut de design, elles sont un problème de couverture des données d'entraînement.

Les auteurs identifient trois modes d'échec distincts. L'hallucination perceptuelle survient quand le tokenizer reconstruit des scènes hors distribution en les projetant sur des exemples connus — un labyrinthe non vu devient un autre labyrinthe partiellement familier. La marginalisation d'action se produit quand le modèle de dynamique prédit un futur visuellement plausible mais insensible aux actions réelles. La divergence de scène, enfin, accumule des erreurs sur plusieurs pas de temps jusqu'à produire des événements physiquement impossibles — une balle qui téléporte dans Pong est l'exemple cité. Chaque mode est lié à une étape spécifique du pipeline, ce qui rend leur diagnostic individuel possible.

Ce diagnostic ne nécessite ni étiquettes ni entraînement supplémentaire. Les chercheurs proposent trois signaux runtime : le résidu de round-trip du tokenizer, l'instabilité du flux de débruitage, et la variance inter-graine des prédictions latentes. Ces métriques corrèlent avec l'erreur de rollout réelle à ρ ≈ 0,80 — assez fort pour servir d'alerte opérationnelle sans supervision humaine.

Sur la remédiation, les résultats sont surprenants. Un simple rééquilibrage de l'échantillonnage d'entraînement, uniforme par tâche plutôt que par frame, réduit simultanément les trois modes d'hallucination sans données supplémentaires. Pour l'adaptation à des tâches entièrement inconnues, 50 trajectoires collectées par une politique de curiosité guidée par les signaux d'hallucination suffisent à approcher les performances d'une politique experte — 0,325 contre 0,362 selon les résultats rapportés — sur dix environnements inédits.

La caveat honnête : l'étude porte sur un modèle de 350 millions de paramètres dans des environnements simulés. Les auteurs eux-mêmes soulignent que la généralisation à des modèles de l'ordre du milliard de paramètres reste à établir, et que les données robotiques réelles — bruit de capteurs, observabilité partielle — n'ont pas été testées. Ce que l'article ne dit pas non plus : comment identifier en déploiement réel les régions sous-couvertes de l'espace état-action avant qu'une hallucination survienne, surtout sans accès aux simulateurs live. Pour les équipes qui construisent des modèles du monde pour la robotique ou la planification, l'implication pratique reste directe : avant d'agrandir l'architecture, vérifiez la couverture.

Article original publié par huggingface.co

Lire l'article original →

Titre original : Hallucinations dans les world models : trois modes d'échec prévisibles, détectables sans étiquette et corrigeables avec 50 trajectoires