arxiv.org via Hacker News

Qwen-AgentWorld simule sept environnements pour agents IA

alibaba agents world-models agents planning

TL;DR

  • Qwen-AgentWorld couvre sept domaines d'agents à partir de plus de 10 millions de trajectoires réelles en trois étapes d'entraînement.
  • Le modèle 397B-A17B dépasse GPT-5.4 sur AgentWorldBench avec un score de 58,71 contre 58,25, selon les auteurs.
  • Le système sert à la fois de simulateur pour l'entraînement RL et de modèle fondation améliorant sept benchmarks d'agents en aval.

La difficulté de construire des agents IA généraux tient en grande partie au coût de les faire interagir avec des environnements réels : chaque erreur consomme du temps et des ressources, parfois sensibles. L'équipe Qwen propose sur arXiv une approche différente avec Qwen-AgentWorld : entraîner un modèle de langage à simuler fidèlement ces environnements, puis utiliser cette simulation comme terrain d'entraînement pour les agents.

Le système couvre sept domaines d'interaction (MCP, Search, Terminal, Software Engineering, Android, Web et OS) à partir de plus de 10 millions de trajectoires réelles. L'architecture s'appuie sur un pipeline d'entraînement en trois étapes : pré-entraînement continu pour injecter la dynamique des transitions d'état, fine-tuning supervisé pour activer le raisonnement de prédiction d'état, puis apprentissage par renforcement pour affiner la fidélité de simulation via des récompenses hybrides. Deux modèles sont publiés : Qwen-AgentWorld-35B-A3B et Qwen-AgentWorld-397B-A17B.

Sur AgentWorldBench, le benchmark construit par l'équipe à partir d'interactions de cinq modèles frontière sur neuf benchmarks établis, le modèle 397B atteint un score global de 58,71, dépassant GPT-5.4 à 58,25. Dans le domaine Terminal, l'écart est plus marqué : 57,73 contre 53,69. L'honnêteté oblige à signaler que ce benchmark a été conçu par les auteurs eux-mêmes, ce qui invite à la prudence sur la portée des comparaisons.

Ce qui est peut-être plus convaincant que le score brut, c'est la double utilité démontrée. En tant que simulateur, Qwen-AgentWorld génère des environnements synthétiques pour entraîner d'autres agents via RL, avec des gains rapportés sur Tool Decathlon, MCPMark et WideSearch. En tant que modèle fondation, le warm-up par modèle de monde améliore les performances en aval sur sept benchmarks d'agents, dont Terminal-Bench 2.0 et SWE-Bench.

Shared on Bluesky by 1 AI expert