huggingface.co détecté sur le web

NeuWorld remplace les frames vidéo par un état de scène implicite

TL;DR

  • NeuWorld déroule un état de scène neural implicite de longueur fixe (L=1024 tokens, D=64 canaux) et délègue le rendu à un décodeur figé.
  • Sur Re10K en boucle aller-retour, le système tourne en 3,24 minutes contre 47,62 pour VMem et Gen3C, soit environ 14× plus rapide.
  • Les deux modèles (NIS-VAE et NIS-DiT) sont entraînés from scratch sur Re10K et DL3DV-10K, 16 GPU A100 pendant environ une semaine, sans backbone vidéo préentraîné.

Un papier de Zhejiang University, Westlake University et Afari Intelligent Drive, publié sur Hugging Face, propose de regarder le problème des world models sous un angle qui paraît évident une fois posé : si les vidéos générées dérivent à long horizon, c'est peut-être parce qu'on déroule la mauvaise variable. NeuWorld remplace la trajectoire de latents vidéo qui grossit avec le temps par un état de scène neural implicite de longueur fixe, baptisé NIS, qu'un décodeur figé rend ensuite sous contrôle de caméra.

Le système se compose de deux modules entraînés from scratch sur Re10K et DL3DV-10K. Un VAE transformer (NIS-VAE) encode les vues posées en un set de 1024 tokens de dimension 64. Un diffusion transformer (NIS-DiT) échantillonne le prochain état NIS sous condition d'une trajectoire caméra, d'une image de référence et d'un historique récupéré géométriquement. L'entraînement décrit dans l'article tient en environ une semaine sur 16 GPU A100, sans backbone vidéo préentraîné ni reconstructeur 3D auxiliaire, ce qui est inhabituel pour ce type de système.

Les chiffres rapportés cherchent à montrer que ce découplage paie sur le long horizon. Sur le protocole cycle de Re10K, NeuWorld revendique une consistance LPIPS/SSIM de 0,208/0,692, une erreur de translation T_dist de 0,382 sur le retour, et surtout 3,24 minutes par trajectoire aller-retour, contre 47,62 minutes pour VMem et Gen3C dans le même runner, soit un facteur 14. Sur DL3DV, la trajectoire aller-retour tombe à 1,14 minute. Une ablation isole un détail intéressant : à conditions égales, le prior NIS atteint 50k pas d'entraînement en 17,2 heures contre 78,0 heures pour un baseline latent-vidéo.

L'honnête réserve à poser, c'est que l'évaluation est délibérément cantonnée aux scènes statiques sous contrôle caméra; les auteurs renvoient eux-mêmes les scènes dynamiques et la composition à plus grande échelle à des travaux futurs. Les erreurs de pose sont calculées via un estimateur externe et présentées comme des proxies, pas comme des mesures directes de contrôle. Et l'ablation Stage-1 contre un baseline latent-frame laisse subsister une légère régression en translation (T_dist 0,157 contre 0,141), signe que le compromis n'est pas indolore.

Pour qui construit du world model destiné à la navigation, à la simulation ou à la conduite, le levier à retenir est moins le score brut que la forme du rollout : un set de tokens de taille fixe et requêtable par pose, plutôt qu'une pile de latents vidéo qui s'allonge. Si la formule tient debout en dynamique, c'est exactement le type d'abstraction qui rend l'exploration interactive à long horizon pratiquable côté ingénierie.