SkillCoach fait évoluer ses rubriques pour juger les agents LLM
TL;DR
- SkillCoach fait évoluer des rubriques à partir de rollouts réels pour noter les trajectoires d'agents sur quatre dimensions plutôt que sur le seul succès final.
- Les dimensions notées sont la sélection de la compétence, son suivi, sa composition et la réflexion ancrée dans la compétence.
- Les rubriques évoluées servent aussi à sélectionner les trajectoires d'entraînement, avec selon les auteurs un signal plus fort qu'un filtrage par simple réussite.
Le verdict final « la tâche a réussi » est un bulletin scolaire pauvre pour un agent LLM qui a bricolé pendant cinq appels d'outil avant de tomber juste par hasard. C'est le point de départ de SkillCoach, mis en ligne début juillet 2026 sur Hugging Face : un cadre où les rubriques d'évaluation des trajectoires évoluent seules à partir de rollouts réels, plutôt que d'être figées à la main.
Le système note les trajectoires selon quatre dimensions : sélection de la compétence, suivi de la compétence, composition et réflexion ancrée dans la compétence. Le vérificateur externe qui juge du succès de la tâche reste, lui, un signal séparé. Ce découplage est le point de vue central des auteurs : dans un dépôt de compétences réaliste, où plusieurs skills se chevauchent, un agent peut passer alors qu'il a sélectionné une compétence de diversion, sauté une étape obligatoire, mal composé le workflow ou omis les contrôles finaux. Le résumé décrit cela comme une distinction entre qualité du processus et succès accidentel.
Les rubriques évoluées ne servent pas qu'à évaluer. Elles filtrent aussi les trajectoires d'entraînement, en offrant selon le papier un signal de supervision plus fort qu'un filtrage par simple réussite. Pour les équipes qui déploient des skills en production (le résumé les décrit comme codant des SOPs, règles métier, workflows d'outils, scripts et routines de validation), c'est un signal difficile à obtenir avec les benchmarks agent classiques.
Le caveat honnête : le résumé récupéré ne cite ni les modèles testés, ni les benchmarks, ni les gains chiffrés. Il parle d'améliorations « substantielles » et d'échecs « cachés par la précision finale », sans les quantifier au niveau du texte disponible. Il faudra le corps du papier pour juger de l'ampleur réelle et du coût des évaluations pilotées par un juge LLM lorsque les rubriques évoluent à chaque itération.
Ce qui vaut la peine d'être surveillé, c'est la direction : traiter la note de processus comme un citoyen de première classe, distinct du succès final, à la fois pour évaluer les agents et pour trier leurs données d'entraînement. Si l'approche tient sur des benchmarks agents publics, la question posée aux équipes ne sera plus seulement « ton agent réussit-il la tâche » mais « la réussit-il pour les bonnes raisons ».
Article original publié par huggingface.co
Lire l'article original →Titre original : SkillCoach (HKUST-GZ + JD.COM) : des rubriques auto-évolutives pour évaluer et améliorer l'utilisation des compétences par les agents LLM