huggingface.co détecté sur le web

JetSpec franchit le plafond du décodage spéculatif avec 9,64×

inference research open source inference speculative-decoding llm-efficiency

TL;DR

  • JetSpec atteint 9,64× d'accélération sur MATH-500 et 6,75× en serving vLLM sur H100, avec un budget de 256 tokens de brouillon.
  • La tête causale parallèle de JetSpec préserve la cohérence par branche en une seule passe, là où les diffusion heads échouent.
  • L'entraînement mobilise 780K exemples du Nemotron Post-Training Dataset V2 sur 8 GPU H100, avec distillation par KL direct.

Le décodage spéculatif est l'une des approches les plus prometteuses pour accélérer l'inférence des grands modèles de langage : un modèle plus petit génère des tokens candidats que le modèle cible vérifie en parallèle. Le problème, c'est que les gains stagnent rapidement. Augmenter le budget de brouillon au-delà d'un certain seuil cesse d'améliorer les performances, parce que les méthodes séquentielles deviennent trop coûteuses, et que les méthodes bidirectionnelles rapides produisent des arbres de candidats mutuellement incohérents.

JetSpec, présenté dans un article disponible sur Hugging Face Papers par des chercheurs de l'UC San Diego, de l'Université de Zhejiang, de l'UIUC, de l'Université de Nanjing et de StepFun, propose une sortie à ce dilemme. Le système introduit une tête de brouillon causale parallèle qui conditionne chaque branche sur ses tokens ancêtres exacts via un masque d'attention en arbre, tout en calculant les logits de toutes les profondeurs en une seule passe vers l'avant. La cohérence autoregressive est ainsi préservée par branche, sans le surcoût des approches purement séquentielles.

Les chiffres avancés sont substantiels. Sur le benchmark MATH-500, JetSpec atteint 9,64× d'accélération sur GPU H100 avec un budget de 256 tokens de brouillon, face aux modèles Qwen3-8B et Qwen3-30B-A3B. En production, intégré à vLLM avec des noyaux Triton et une extension FlashAttention SM90 paginée, le système affiche 6,75× de gain en débit (968,2 tokens par seconde contre 443,3 en baseline) à taille de lot 1 et budget 256. Sur les tâches de code (HumanEval, MBPP), les accélérations se situent entre 7× et 10×.

La réserve honnête, c'est que ces chiffres concernent des charges faibles à modérées. Dès que la taille de lot monte à 32, le gain tombe à 2,85×, ce qui tempère l'enthousiasme pour les déploiements à forte concurrence. L'article évalue uniquement le mode non-thinking des modèles Qwen3, et reporte explicitement à des travaux futurs le mode thinking ainsi que la planification dynamique du budget de brouillon.

L'opportunité la plus directe concerne les équipes qui servent des workloads mathématiques ou de code à faible concurrence : un facteur 9,64× sur MATH-500 représente une réduction concrète du coût par token. L'intégration vLLM clé en main, combinée aux gains encore plus marqués annoncés sur GPU B200, positionne JetSpec comme un candidat sérieux pour les déploiements sur matériel NVIDIA de nouvelle génération.