marktechpost.com détecté sur le web

Nvidia publie Nemotron-Labs-TwoTower, diffusion 60B à 2,42× débit

TL;DR

  • Nvidia sort Nemotron-Labs-TwoTower sous licence Nemotron Open Model, un LLM à diffusion d'environ 60B (3B actifs) bâti sur le backbone gelé Nemotron-3-Nano-30B-A3B.
  • Le modèle conserve 98,7 % de la qualité du baseline autoregressif pour un débit 2,42× supérieur avec γ=0,8, S=16, sur 2×H100.
  • HumanEval passe de 79,27 à 75,58 et GSM8K de 92,49 à 90,14, signalant une perte nette côté code et maths.

Le pari intéressant du dernier open weights Nvidia n'est pas la taille, c'est la manière de générer les tokens. Selon marktechpost.com, Nemotron-Labs-TwoTower est un modèle de diffusion de langage construit sur le backbone gelé Nemotron-3-Nano-30B-A3B, avec une seconde tour entraînée à débruiter des blocs de tokens en parallèle. Chaque tour compte 52 couches, dont 23 Mamba-2, 6 d'attention et 23 mixture-of-experts, pour environ 60 milliards de paramètres au total et 3 milliards actifs par token.

Le chiffre que retiennent les équipes d'inférence, c'est la formule annoncée par Nvidia : le modèle retains 98,7 % de la qualité du baseline autoregressif pour un débit 2,42× supérieur, mesuré avec un seuil de confiance γ=0,8, une taille de bloc S=16, sur 2 GPU H100. L'idée derrière la double tour est directe : la tour AR gelée maintient le contexte, la tour de diffusion émet plusieurs tokens simultanément quand elle en est assez sûre. Le denoiser a été entraîné sur environ 2,1 trillions de tokens, soit une fraction des 25 trillions qui avaient servi au pré-entraînement du backbone.

Pourquoi c'est un signal utile même sans le déployer tout de suite. Jusqu'ici, la diffusion pour le texte à cette échelle relevait surtout de papiers de recherche ou de démonstrations fermées. Un artefact open weights sous licence Nemotron Open Model, utilisable commercialement, avec du code qui expose trois modes de génération (mask diffusion, mock-AR et décodage AR standard), permet enfin de tester la thèse débit contre qualité sur du vrai matériel. Nvidia annonce en pratique un besoin de deux GPU avec environ 59 Go de mémoire chacun en BF16, ce qui reste haut de gamme mais accessible aux labos sérieux.

Le caveat honnête, c'est que le gain moyen cache des ruptures ciblées. HumanEval descend de 79,27 à 75,58 et GSM8K de 92,49 à 90,14 : sur le code et le raisonnement mathématique, la diffusion perd des points nets, alors que MMLU (78,24 contre 78,56) et ARC-Challenge (92,66 contre 91,72) sont quasi conservés. Ce que le billet ne détaille pas, c'est le comportement en batch multi-requêtes réelles ni la sensibilité du débit annoncé quand on change γ, S ou la classe de GPU. La direction reste celle à surveiller : si le two-tower tient sur des charges d'inférence non triviales, on peut imaginer d'autres denoisers spécialisés greffés sur le même backbone gelé, sans repayer les 25 trillions de tokens de préparation.