huggingface.co détecté sur le web

SWE-Together : le nouveau benchmark Meta des agents de codage en sessions interactives place Claude Opus 4.8 en tête, GPT-5.5 deuxième

Résumé

Meta publie SWE-Together, un benchmark de 109 tâches reconstruites à partir de 11 260 sessions réelles d'agents de codage, qui mesure non seulement la justesse finale mais aussi la quantité de corrections utilisateur requise. Sur sept modèles frontières, Claude Opus 4.8 domine avec 63 % de pass@1, 0,801 de score moyen et le moins d'interventions (1,38 corrections/run) ; GPT-5.5 suit à 58 % devant Claude Opus 4.6, puis GLM-5.2, GLM-5.1, DeepSeek-V4-Pro et MiniMax-2.7. La corrélation entre capacité et corrections est de -0,92 : les modèles plus forts exigent moins de pilotage humain.