huggingface.co détecté sur le web

MemLearner (Kling/HKU) apprend la mémoire des world models vidéo

TL;DR

  • MemLearner remplace les règles fixes de récupération de contexte (FOV chez CaM, point cloud chez VMem) par des query tokens apprenables.
  • Sur le dataset custom avec occlusions et objets dynamiques, la méthode atteint 21,23 PSNR contre 19,85 pour CaM et 19,59 pour VMem.
  • Dans un user study à 27 participants, MemLearner est préféré à 69,51% en qualité visuelle et 72,93% en cohérence de scène.

Un papier signé HKU, Fudan, Zhejiang et l'équipe Kling de Kuaishou, mis en avant sur Hugging Face Papers, s'attaque à un défaut bien connu des world models vidéo: passé quelques secondes, ils oublient la scène qu'ils viennent de générer. Le mur bouge, l'objet dynamique disparaît, la géométrie ne tient plus.

L'approche, baptisée MemLearner, remplace les règles de récupération de contexte (chevauchement de FOV chez CaM, matching de point cloud chez VMem) par des query tokens apprenables qui font le pont entre les tokens de contexte et les tokens prédits. Le twist architectural, c'est qu'aucun module séparé n'est ajouté: les mêmes couches du diffusion transformer pré-entraîné servent au context querying. Les auteurs montrent que l'alternative naïve, entraîner un module de query dédié depuis zéro, échoue, le modèle finit par l'ignorer et régresse en pratique vers un text-to-video.

Sur leur dataset custom Unreal Engine (100 vidéos, 13 scènes, 16,7 heures, avec occlusions et objets dynamiques), MemLearner sort 21,23 PSNR en GT Comparison contre 19,85 pour CaM et 19,59 pour VMem, et 18,57 contre 17,61 et 17,30 sur le test de revisite. Un user study à 27 participants place la méthode devant les SOTA à 69,51% de préférence en qualité visuelle et 72,93% en cohérence de scène. Les auteurs valident aussi la méthode en zero-shot sur Epic-Kitchens et sur le backbone open source Wan 2.1 (T2V-1.3B), ce qui suggère que le mécanisme n'est pas spécifique à leur backbone interne 1B paramètres, 28 couches dont 5 dédiées au query.

Le papier est honnête sur ses limites: le modèle sature au-delà de cinq personnages interagissant simultanément, et le stockage complet du contexte ne peut pas rester linéaire à mesure que la durée grandit. Ce que le rapport ne donne pas, c'est le coût d'inférence à l'échelle Kling en production, ni une comparaison directe avec les mémoires compressées, sujet cité comme complémentaire plutôt que confronté.

Pour un studio qui travaille du world model interactif ou de la prévisualisation, l'intérêt est concret: la mémoire cesse d'être un pipeline de retrieval bricolé à côté du modèle, elle vit dans les mêmes poids qu'on entraîne déjà, et elle survit aux occlusions et aux objets qui bougent. Reste à voir si Kuaishou intègre ce mécanisme dans les prochaines versions publiques de Kling.