huggingface.co détecté sur le web

GauntletBench : les meilleurs agents IA plafonnent à 19 % de réussite sur des tâches professionnelles où des humains non experts dépassent les 80 %

agents hallucinations agents benchmark capabilities

Résumé

Des chercheurs d'Oxford publient GauntletBench, un benchmark web-based de 100 tâches réparties sur cinq applications professionnelles (montage vidéo, workflow builder, modélisation 3D, analyse de vol, conception de circuits) évaluant trois capacités sous-explorées : perception temporelle, compréhension graphique et raisonnement 3D. Résultat : les agents de l'état de l'art atteignent seulement 19,1 % de taux de réussite, contre plus de 80 % pour des annotateurs humains non experts — un écart qui invalide les affirmations courantes sur les capacités agentiques en conditions réelles. Les auteurs mettent à disposition un pipeline modulaire compatible avec les frameworks d'agents open-source et propriétaires pour reproduire les évaluations.