huggingface.co détecté sur le web

Alaya Studio publie AgenticSTS, banc d'essai à mémoire bornée

agents ai-business

TL;DR

  • AgenticSTS, publié par Alaya Studio le 2 juillet 2026, propose un cadre à mémoire bornée qui reconstruit un prompt frais à chaque décision par récupération typée.
  • Testé sur Slay the Spire 2, le système passe de 3/10 à 6/10 victoires avec compétences stratégiques activées, contre 16 % pour les humains au même niveau.
  • Les auteurs publient 298 trajectoires complètes annotées, des snapshots figés de mémoire et des scripts d'analyse pour rendre l'ablation reproductible.

Un papier discret déposé le 2 juillet 2026 par Alaya Studio (le laboratoire de ShandaAI) mérite l'attention si vous suivez la question de la mémoire des agents LLM à long horizon. Il s'appelle AgenticSTS, et l'idée tient en une phrase: au lieu d'empiler les transcripts entiers de décision en décision, on assemble à chaque tour un prompt frais par récupération typée, en gardant la fenêtre bornée quelle que soit la durée de la partie.

Le banc d'essai est Slay the Spire 2, un jeu de deck-building stochastique à règles fermées qui exige plusieurs centaines de choix tactiques et stratégiques par partie. Les auteurs rappellent que les rapports publics antérieurs affichent zéro victoire au niveau de difficulté le plus bas sur cinq configurations, quand un joueur humain plafonne à 16 % de victoires au même palier. Leur propre baseline sans stockage remporte 3 parties sur 10, et la variante activant les compétences stratégiques monte à 6 sur 10.

Ce qui intéresse un praticien ici: la contrainte de fenêtre bornée n'est pas qu'une économie de tokens, c'est un préalable pour pouvoir tester chaque couche mémoire en isolation. Les auteurs livrent 298 trajectoires complètes avec étiquettes de condition, des snapshots figés de mémoire et de compétences, des enregistrements de prompts et des scripts d'analyse, ce qui rend l'ablation reproductible pour d'autres équipes.

Le bémol honnête est le volume: le test de Fisher exact donne p ≈ 0.37 pour l'écart entre 3/10 et 6/10, ce que les auteurs qualifient eux-mêmes de directionnel plutôt que statistiquement décisif. Ce que le papier ne détaille pas non plus, c'est quel modèle frontière est réellement derrière ces chiffres, ni comment l'approche se compare à d'autres stratégies mémoire courantes.

Ce qu'il faudra suivre, c'est la reprise du testbed par des équipes tierces. Un banc d'essai à contrat borné avec trajectoires publiées et convention d'ablation claire ferait plus pour la communauté des agents longs horizons qu'une énième course de leaderboard.