huggingface.co web signal June 29th 2026

SWE-Together : le nouveau benchmark Meta des agents de codage en sessions interactives place Claude Opus 4.8 en tête, GPT-5.5 deuxième

meta anthropic openai coding tools agents ai-research

Summary

Meta publie SWE-Together, un benchmark de 109 tâches reconstruites à partir de 11 260 sessions réelles d'agents de codage, qui mesure non seulement la justesse finale mais aussi la quantité de corrections utilisateur requise. Sur sept modèles frontières, Claude Opus 4.8 domine avec 63 % de pass@1, 0,801 de score moyen et le moins d'interventions (1,38 corrections/run) ; GPT-5.5 suit à 58 % devant Claude Opus 4.6, puis GLM-5.2, GLM-5.1, DeepSeek-V4-Pro et MiniMax-2.7. La corrélation entre capacité et corrections est de -0,92 : les modèles plus forts exigent moins de pilotage humain.

Originally reported by huggingface.co

Read the original article →

Original headline: SWE-Together : le nouveau benchmark Meta des agents de codage en sessions interactives place Claude Opus 4.8 en tête, GPT-5.5 deuxième