huggingface.co détecté sur le web

GEAR: Peking et Tencent Hunyuan alignent tokenizer VQ et AR

generative ai ai photo ai-business

TL;DR

  • GEAR entraîne conjointement un tokenizer à quantification vectorielle et un générateur autoregressif, avec une convergence gFID environ 10× plus rapide sur ImageNet que la baseline LlamaGen-REPA.
  • Le mécanisme dual hard/soft contourne la non-différentiabilité de l'argmax du VQ, un straight-through estimator naïf provoquant l'effondrement de l'entraînement à gFID 104.9.
  • Sur ImageNet 256×256, GEAR-XL (775M) atteint gFID 6.76 sans CFG et 2.52 avec CFG, contre 8.20 et 2.68 pour LlamaGen-REPA-XL.

Un papier de Peking University et Tencent Hunyuan, référencé sur Hugging Face, s'attaque à un blocage de longue date dans la génération d'images autoregressive: le tokenizer à quantification vectorielle et le générateur qui consomme ses indices sont entraînés séparément, parce que l'argmax qui choisit un code dans le codebook n'est pas différentiable. Le résultat, GEAR (Guided End-to-End AutoRegression), revendique une convergence gFID environ dix fois plus rapide sur ImageNet que la baseline LlamaGen-REPA.

La combine tient en une phrase: deux lectures parallèles du même codebook. Une branche « hard » one-hot alimente la prédiction du prochain token comme d'habitude, et une branche « soft » softmax laisse remonter les gradients d'une perte d'alignement de représentations jusqu'au tokenizer. Les auteurs découpent ensuite les mises à jour: la perte de next-token prediction ne remonte jamais au tokenizer, ce qui évite l'effondrement du codebook que provoque un straight-through estimator naïf, mesuré à gFID 104.9 dans leur ablation.

Les chiffres sur ImageNet 256×256 à 300 époques placent GEAR-XL (775M paramètres) à gFID 6.76 sans classifier-free guidance et 2.52 avec, contre 8.20 et 2.68 pour LlamaGen-REPA-XL à taille égale. L'effet est présent aux trois échelles B, L, XL testées, et un tokenizer entraîné avec GEAR sur ImageNet se transfère à la génération text-to-image, avec un FDD amélioré de 8.4% à 100k pas sur GPIC.

L'observation la plus curieuse du papier n'est pas la vitesse, c'est ce que devient le tokenizer. Alors que les méthodes équivalentes côté diffusion (REPA-E, VA-VAE) poussent le tokenizer à ressembler davantage à DINOv2, GEAR fait l'inverse: la similarité CKA au niveau patch entre tokenizer et DINOv2 descend de 0.173 à 0.107. Le tokenizer se réorganise vers une distribution d'indices à plus faible entropie, plus prévisible, et c'est le générateur AR qui absorbe la structure sémantique. La lecture des auteurs: un modèle AR discret n'a pas besoin de latents sémantiques, il a besoin de tokens prédictibles.

La franchise à garder: GEAR reste derrière REPA-E côté diffusion, dont le gFID descend à 1.12, parce que sa reconstruction plafonne à rFID 1.64 contre 0.28, un écart imputé à la compression 16× du tokenizer. Le papier ne compare pas GEAR aux AR discrets récents en dehors de LlamaGen-REPA, et ne détaille pas le surcoût du double branche hard/soft en entraînement.

Pour les équipes qui pré-entraînent des générateurs AR d'images, le point à retenir est moins la course au gFID que la promesse d'un couplage tokenizer-générateur qui n'exige plus deux phases séparées, potentiellement réutilisable sur d'autres quantificateurs déjà testés dans le papier (VQVAE, LFQ, IBQ).