DeepSeek publie DeepSpec : DSpark booste l'inférence de 60 à 85 %
TL;DR
- DSpark améliore la vitesse d'inférence de 60 à 85 % sur le modèle Flash par rapport au benchmark de production MTP-1.
- DeepSpec regroupe sous licence MIT trois algorithmes (DSpark, DFlash, Eagle3) et neuf benchmarks d'évaluation standardisés.
- La configuration par défaut exige un nœud à 8 GPU et peut nécessiter environ 38 To de stockage pour la préparation des données.
Le décodage spéculatif consiste à faire générer rapidement des tokens candidats par un petit modèle 'brouillon', que le modèle principal vérifie ensuite par lot. La technique est connue depuis plusieurs années, mais la standardisation des outils d'entraînement et d'évaluation faisait défaut. C'est précisément ce que DeepSeek propose avec DeepSpec, publié sous licence MIT.
DSpark, le nouvel algorithme central du dépôt, est désormais actif dans DeepSeek-V4 Flash et Pro. Selon la documentation publiée par DeepSeek, il améliore la vitesse d'inférence de 60 à 85 % sur le modèle Flash et de 57 à 78 % sur le modèle Pro, par rapport au benchmark de production existant MTP-1. Les longueurs d'acceptation, indicateur clé de l'efficacité du décodage spéculatif, progressent de 26,7 à 30,9 % par rapport à Eagle3 et de 16,3 à 18,4 % par rapport à DFlash, les deux méthodes de référence précédemment disponibles dans l'écosystème DeepSeek.
DeepSpec lui-même est décrit comme 'a full-stack codebase for training and evaluating draft models for speculative decoding', et regroupe trois algorithmes (DSpark, DFlash, Eagle3) ainsi que neuf benchmarks standardisés : GSM8K, MATH500, AIME25, HumanEval, MBPP, LiveCodeBench, MT-Bench, Alpaca et Arena-Hard-v2. La licence MIT facilite une adoption commerciale directe sans restriction.
La caveat honnête : la configuration par défaut suppose un nœud à 8 GPU et la préparation du cache de données représente environ 38 To de stockage pour le réglage Qwen3-4B. Pour la plupart des équipes de recherche indépendantes, le code d'évaluation et les scripts seront plus exploitables que la boucle d'entraînement complète. Par ailleurs, les chiffres de performance proviennent des benchmarks internes de DeepSeek et n'ont pas encore fait l'objet d'une vérification indépendante.
La question ouverte pour les mois à venir est celle de l'extension : DeepSpec cible actuellement les familles Qwen3 et Gemma. L'adoption réelle dans la communauté dépendra largement de la capacité à porter DSpark sur des architectures comme Llama ou Mistral, et de la reproductibilité des gains sur des configurations matérielles plus modestes que le nœud 8-GPU de référence.
Shared on Bluesky by 4 AI experts
Article original publié par github.com
Lire l'article original →Titre original : DeepSeek met en open source DeepSpec/DSpark : 60 à 85 % d'accélération annoncée pour le décodage spéculatif des LLM, sous licence MIT