marktechpost.com détecté sur le web

DeepReinforce publie Ornith-1.0, modèles MIT à scaffold auto-appris

TL;DR

  • Ornith-1.0 comprend quatre variantes (9B dense, 31B dense, 35B MoE, 397B MoE), toutes sous licence MIT sur Hugging Face, construites sur Gemma 4 et Qwen 3.5.
  • Le modèle 397B obtient 77,5 sur Terminal-Bench 2.1 et 82,4 sur SWE-Bench Verified, en dessous de Claude Opus 4.8 (85 et 87,6 respectivement).
  • Ornith-1.0 génère son propre scaffold RL à chaque étape d'entraînement, éliminant le besoin de harnesses de test conçus manuellement.

L'approche habituelle pour entraîner un agent de codage consiste à concevoir à la main un harness de test, puis à faire apprendre le modèle à l'intérieur de cette structure fixe. Selon MarkTechPost, DeepReinforce propose avec Ornith-1.0 un renversement de cette logique : le modèle génère lui-même son scaffold à chaque étape de l'apprentissage par renforcement, avant d'utiliser ce scaffold pour produire ses solutions. Ce que l'article décrit comme une approche de "co-évolution" scaffold-solution élimine la nécessité d'une ingénierie manuelle des harnesses.

La famille comprend quatre variantes, 9B dense, 31B dense, 35B MoE et 397B MoE, toutes distribuées sous licence MIT via Hugging Face et construites sur les bases Gemma 4 et Qwen 3.5. Sur les benchmarks publiés, le modèle phare 397B obtient 77,5 sur Terminal-Bench 2.1 et 82,4 sur SWE-Bench Verified. Claude Opus 4.8 marque respectivement 85 et 87,6 sur ces mêmes épreuves, ce qui situe Ornith en dessous des meilleurs modèles propriétaires, tout en restant compétitif parmi les modèles open source. Le modèle 9B, qui tient en 19 Go au format bf16 et s'exécute sur un seul GPU 80 Go, atteint 43,1 sur Terminal-Bench 2.1 et 69,4 sur SWE-Bench Verified.

Pour contenir le reward hacking, DeepReinforce annonce trois couches de défense : un périmètre de confiance fixe qui verrouille l'accès aux outils, un moniteur déterministe qui attribue un score nul aux trajectoires enfreignant les règles, et un juge LLM gelé qui dispose d'un droit de veto final sur la sortie du vérificateur. La robustesse réelle de ce dispositif dans des déploiements hors benchmarks reste à démontrer.

Les modèles exposent des endpoints compatibles OpenAI et s'intègrent avec vLLM, SGLang et Transformers, avec des builds FP8 et GGUF pour le déploiement local. Pour les équipes qui cherchent un agent de codage capable de tourner sur leur propre infrastructure sans dépendre d'une API fermée, la combinaison licence MIT et petite empreinte du 9B représente une option concrète à évaluer.