SWE-Together : le nouveau benchmark Meta des agents de codage en sessions interactives place Claude Opus 4.8 en tête, GPT-5.5 deuxième
Summary
Meta publie SWE-Together, un benchmark de 109 tâches reconstruites à partir de 11 260 sessions réelles d'agents de codage, qui mesure non seulement la justesse finale mais aussi la quantité de corrections utilisateur requise. Sur sept modèles frontières, Claude Opus 4.8 domine avec 63 % de pass@1, 0,801 de score moyen et le moins d'interventions (1,38 corrections/run) ; GPT-5.5 suit à 58 % devant Claude Opus 4.6, puis GLM-5.2, GLM-5.1, DeepSeek-V4-Pro et MiniMax-2.7. La corrélation entre capacité et corrections est de -0,92 : les modèles plus forts exigent moins de pilotage humain.
Originally reported by huggingface.co
Read the original article →Original headline: SWE-Together : le nouveau benchmark Meta des agents de codage en sessions interactives place Claude Opus 4.8 en tête, GPT-5.5 deuxième