huggingface.co web signal

ViQ : représentations visuelles discrètes alignées sur le texte à résolution native, rivales des encodeurs continus haute dimension sur les benchmarks multimodaux

multimodal computer vision research generative ai visual-tokenization multimodal discrete-representations

Summary

ViQ (Tencent HY Vision + Tsinghua University) propose un cadre de quantification visuelle en deux étapes — pré-entraînement aligné sur le texte puis discrétisation par apprentissage proximal progressif — qui équilibre sémantique haute et détails bas-niveau dans des représentations discrètes à résolution native. Les résultats sur les benchmarks multimodaux rivalisent avec les encodeurs continus haute dimension de l'état de l'art tout en réduisant la complexité de la modélisation multimodale. La prise en charge de résolutions arbitraires en entrée le distingue des approches de quantification visuelle antérieures.

Shared on Bluesky by 1 AI expert