ViQ : représentations visuelles discrètes alignées sur le texte à résolution native, rivales des encodeurs continus haute dimension sur les benchmarks multimodaux
Summary
ViQ (Tencent HY Vision + Tsinghua University) propose un cadre de quantification visuelle en deux étapes — pré-entraînement aligné sur le texte puis discrétisation par apprentissage proximal progressif — qui équilibre sémantique haute et détails bas-niveau dans des représentations discrètes à résolution native. Les résultats sur les benchmarks multimodaux rivalisent avec les encodeurs continus haute dimension de l'état de l'art tout en réduisant la complexité de la modélisation multimodale. La prise en charge de résolutions arbitraires en entrée le distingue des approches de quantification visuelle antérieures.
Shared on Bluesky by 1 AI expert
Originally reported by huggingface.co
Read the original article →Original headline: ViQ : représentations visuelles discrètes alignées sur le texte à résolution native, rivales des encodeurs continus haute dimension sur les benchmarks multimodaux