huggingface.co détecté sur le web

NatureBench : Claude Opus 4.7 surpasse le SOTA dans 17,8 % des cas

anthropic coding tools agents benchmarks coding-agents scientific-discovery

TL;DR

  • Claude Opus 4.7, meilleur agent testé sur NatureBench, ne dépasse le SOTA publié que dans 17,8 % des 90 tâches scientifiques.
  • 82,7 % des réussites d'agents reposent sur des stratégies ML génériques, non sur des méthodes propres au domaine scientifique.
  • La conception moléculaire (Match-SOTA 18,2 %) et la modélisation biomédicale (17,9 %) sont les domaines les plus résistants à l'automatisation.

Peut-on confier à un agent de codage IA une tâche scientifique tirée d'une revue Nature et espérer qu'il surpasse les chercheurs qui l'ont publiée ? La réponse, selon une étude publiée par des chercheurs de Frontis.AI et de Tsinghua University, est : rarement. Le benchmark NatureBench soumet dix agents à 90 tâches extraites de six revues de la famille Nature couvrant les années 2022 à 2025. Le meilleur agent testé, Claude Opus 4.7, ne dépasse le SOTA publié que dans 17,8 % des cas.

Ce score peut sembler décevant, mais la véritable leçon est ailleurs : quand un agent réussit, c'est rarement grâce à une innovation scientifique. L'analyse de 900 sessions agent-tâche révèle que 45,5 % des succès reposent sur une prédiction supervisée proxy et que 82,7 % des validations proviennent de stratégies d'ingénierie ML générique plutôt que de méthodes propres au domaine. Les agents sont de bons automaticiens ; ils ne sont pas encore des découvreurs.

La difficulté varie fortement selon le domaine. En raisonnement relationnel, les agents atteignent ou dépassent le SOTA dans 60 % des cas. En conception moléculaire et en modélisation biomédicale, ce taux chute à 18,2 % et 17,9 % respectivement, deux sous-disciplines qui résistent à tous les modèles testés. La première cause d'échec, identifiée dans 45,1 % des runs sous le seuil, est le mauvais choix de méthode, pas une incompréhension de l'énoncé. Autre source de défaillance notable : 24,4 % des runs échouent faute de budget de calcul suffisant dans la fenêtre de quatre heures allouée par tâche.

Ce que l'étude ne dit pas encore : le benchmark désactivait délibérément la recherche web pour tous les agents, ce qui correspond mal aux workflows scientifiques réels où la consultation de la littérature est omniprésente. La question de savoir si des agents ayant accès aux publications changeraient substantiellement le tableau reste entière.

Pour les équipes de recherche, la donnée clé est peut-être celle-ci : l'IA est déjà utile pour la fraction ingénierie d'un projet scientifique. Sur le segment découverte proprement dit, là où il faut choisir la bonne méthode, modéliser de nouveaux phénomènes ou croiser plusieurs disciplines, l'écart reste considérable. NatureBench donne enfin un repère chiffré et reproductible pour suivre comment cet écart évolue au fil des générations de modèles.