AMVL améliore Qwen2.5-VL-7B de +10,83 points sur BLINK
TL;DR
- AMVL affiche +10,83 points de moyenne sur BLINK et un pic de +32,00 sur Jigsaw, à partir d'une base Qwen2.5-VL-7B-Instruct.
- Le cadre combine une KL forward alignant le prior et une KL reverse régularisant le posterior, corrigeant le désalignement entraînement-inférence des approches ELBO.
- L'entraînement tient sur 16 GPU A100 pendant environ 20 heures, avec 8 jetons latents de dimension 512 insérés entre prompt et cible.
Un papier posté sur Hugging Face par une équipe conjointe de Shanghai Jiao Tong University et d'Ant Group tente de sortir les modèles multimodaux d'un piège que la communauté connaît bien: forcer tout raisonnement visuel à transiter par des jetons de texte discrets fait perdre la nuance perceptuelle. Leur cadre, baptisé Asymmetric Mutual Variational Learning (AMVL), fait raisonner le modèle dans un espace latent continu, glissé entre le prompt et la réponse.
Le mécanisme mis en avant est un calibrage KL bidirectionnel. Une KL forward aligne le prior sur les états latents inférés par le posterior; une KL reverse régularise le posterior pour qu'il ne dérive pas vers des indices que le modèle ne verra pas à l'inférence. Les auteurs formalisent explicitement ce désalignement entraînement-inférence comme l'obstacle central des approches variationnelles standard basées sur l'ELBO, où le posterior d'entraînement voit la réponse et le prior d'inférence, non.
Les chiffres rapportés, sur une base Qwen2.5-VL-7B-Instruct, sont concrets. Sur le benchmark BLINK, AMVL-7B affiche une moyenne de 66,91, soit +10,83 points au-dessus du modèle de base, avec un pic à +32,00 points sur la tâche Jigsaw à forte composante topologique. Sur les tâches de perception fine (V*, HRBench4K, HRBench8K), la moyenne passe de 69,40 à 74,97. Sur VisualPuzzles, utilisé comme test hors distribution, AMVL-7B atteint 33,90 en global. L'entraînement, précisent les auteurs, tient sur 16 GPU A100 pendant environ 20 heures, avec 8 jetons latents insérés entre prompt et cible, en dimension 512.
Le caveat honnête est que les ablations montrent que ni la KL forward seule ni la KL reverse seule ne suffit (le forward seul s'effondre à 40,84 sur V*), et que la démonstration reste centrée sur des benchmarks académiques, pas sur des flux visuels ouverts. Ce que le papier ne dit pas non plus, c'est comment AMVL se comporte sur d'autres backbones que Qwen2.5-VL-7B, ni combien cette phase latente coûte réellement en latence à l'inférence.
Pour un praticien, la piste à surveiller est la suivante: si un raisonnement latent continu pré-target tient hors du régime d'entraînement, cela devient un moyen peu coûteux de muscler les MLLM ouverts de la classe 7B sans monter en paramètres.
Article original publié par huggingface.co
Lire l'article original →Titre original : Multimodal Continuous Reasoning : un cadre d'apprentissage variationnel asymétrique améliore le raisonnement multimodal