huggingface.co détecté sur le web June 30th 2026

BlockPilot (Alibaba AMAP) pousse Qwen3-4B à 4,20× via bloc adaptatif

alibaba inference open source ai-research

TL;DR

BlockPilot atteint une longueur d'acceptation moyenne de 5,92 et une accélération de 4,20× sur Qwen3-4B à température 1.
Un MLP à deux couches et 2048 unités cachées prédit la taille de bloc à partir de la représentation de préremplissage, appelée une seule fois.
L'équipe AMAP d'Alibaba a publié le code sur GitHub ; les gains se confirment sur GSM8K, MATH-500, HumanEval, MBPP, SWE-Bench et MT-Bench.

Le décodage spéculatif à base de diffusion a un point aveugle : il fige la taille de bloc à l'entraînement, comme si un prompt de code et un tour de dialogue méritaient le même parallélisme. BlockPilot, publié par l'équipe AMAP d'Alibaba, s'attaque à cette hypothèse en apprenant à prédire, pour chaque échantillon, une taille de bloc adaptée.

Le principe tient en une observation : la taille de bloc optimale varie d'un prompt à l'autre, mais reste confinée à un petit voisinage autour de la valeur d'entraînement B. Les auteurs montrent que l'intervalle [B-3, B+3] couvre à peu près tous les cas, ce qui ramène le choix à un problème de classification discrète. Le prédicteur est un MLP à deux couches avec 2048 unités cachées, alimenté par la distribution du dernier jeton après le préremplissage, et appelé une seule fois. Rien n'est touché ni côté modèle cible, ni côté drafter à diffusion.

Côté chiffres, sur Qwen3-4B à température 1, BlockPilot atteint une longueur d'acceptation moyenne de 5,92 et une accélération de 4,20×, contre 3,80× pour la meilleure variante DFlash à bloc fixe. Sur Qwen3-8B, l'accélération est de 4,66× à température 0 et 3,94× à température 1, à comparer à 3,55× pour DFlash au meilleur bloc dans la même configuration. Les tests couvrent GSM8K, MATH-500, HumanEval, MBPP, SWE-Bench et MT-Bench, tournés sur NVIDIA H100 80 Go. Le code est mis en ligne sur GitHub.

Ce que le papier ne dit pas, c'est comment la brique se comporte hors H100 ou sur des modèles très différents de Qwen3 : Llama-3.1-8B-Instruct et Qwen3-Coder-30B-A3B sont mentionnés dans le protocole, mais les gains détaillés portent surtout sur la série Qwen3. Le coût de construction du jeu supervisé, qui suppose un balayage exhaustif des tailles de bloc candidates, mérite aussi d'être pesé avant industrialisation.

L'intérêt de fond dépasse la ligne du benchmark. Traiter la politique de décodage comme un composant apprenable plutôt qu'un hyperparamètre figé ouvre une catégorie d'optimisations que les moteurs d'inférence pourront intégrer sans toucher aux modèles servis. C'est là que ce genre de contribution devient utile en production.

Article original publié par huggingface.co

Lire l'article original →

Titre original : BlockPilot (Alibaba AMAP) : le décodage spéculatif à taille de bloc adaptative atteint 4,2× d'accélération sur Qwen3-4B