huggingface.co détecté sur le web

EvoPolicyGym : GPT-5.5 domine les 16 environnements RL testés

openai agents ai-business

TL;DR

  • EvoPolicyGym met quatre agents codeurs en compétition sur 16 environnements RL sous un budget fixe de 128 épisodes d'interaction, avec validation et hold-out cachés côté serveur.
  • GPT-5.5, exécuté via le harness Codex, obtient le meilleur score agrégé (0,891) avec neuf victoires et une place dans le top 2 sur les 16 environnements.
  • Claude Opus 4.7 arrive deuxième (0,750), remporte cinq environnements dont KeyCorridor et FourRooms, et signe le meilleur score de la famille MiniGrid (0,938).

Comparer des agents codeurs sur un score final finit par mesurer autre chose que ce qui compte vraiment: leur capacité à convertir un feedback limité en politique généralisable. C'est l'angle que revendique EvoPolicyGym, présenté sur Hugging Face Papers par un consortium piloté par l'USTC, la Chinese University of Hong Kong, l'Université de Macao et Shanghai Jiao Tong University. Le banc d'essai formalise ce que les auteurs appellent l'Autonomous Policy Evolution: un agent édite un système de politique exécutable, soumet des rollouts sous budget fixe, et voit son meilleur checkpoint jugé sur une validation cachée puis un ensemble de test réservé côté serveur.

Le protocole tient dans une contrainte simple. Chaque exécution donne 128 épisodes d'interaction, 16 cas de validation et 32 cas de test cachés par environnement. Quatre agents ont été mis en compétition sur la suite Core16 qui couvre quatre familles, Gym/Box2D, MuJoCo, MiniGrid et une famille robotique et conduite: GPT-5.5 via le harness Codex, puis Claude Opus 4.7, MiniMax-M3 et DeepSeek-V4-Pro via le harness Claude Code. Une politique aléatoire uniforme sert de point d'ancrage.

Sur ce dispositif, GPT-5.5 signe le meilleur score agrégé (0,891), avec neuf victoires et une place dans le top 2 sur les seize environnements. Claude Opus 4.7 termine deuxième (0,750), avec cinq victoires, douze podiums et le meilleur score de la famille MiniGrid (0,938), en s'imposant sur ContinuousCar, Ant, KeyCorridor, FourRooms et ObstructedMaze. MiniMax-M3 (0,531) et DeepSeek-V4-Pro (0,359) ne remportent qu'un environnement chacun (HalfCheetah, Roundabout), la politique aléatoire terminant à 0,109. L'écart se creuse surtout sur les tâches dites de synthèse structurelle: GPT-5.5 et Claude Opus 4.7 s'y approchent des meilleures politiques observées (0,98 et 1,00), quand MiniMax-M3 et DeepSeek-V4-Pro restent près de l'ancrage aléatoire (0,19 et 0,03). Le taux de conversion des éditions structurelles en nouveaux meilleurs de validation raconte la même histoire, 41% et 48% pour les deux premiers, 10% et 3% pour les suivants.

La caveat honnête est que ce classement mélange le modèle et son harness sans normalisation des tokens ni de la gestion de contexte, et repose sur des diagnostics que les auteurs qualifient eux-mêmes de proxies conservateurs plutôt que de preuves sémantiques. Ce que le papier ne donne pas: un coût de calcul comparable, ni une exploration systématique de budgets plus larges qui rendraient les baselines RL classiques compétitives.

Pour une équipe qui outille des agents itératifs, le signal utile n'est pas le podium mais les traces sous budget contraint, du type BipedalWalker où seul GPT-5.5 atteint un retour de validation-selected held-out de 248,874 quand les autres restent en territoire négatif. C'est cette granularité de diagnostic qui rend le protocole rejouable en interne.