huggingface.co détecté sur le web

Josef Chen démontre que les routeurs LLM ont un plafond fixe

agents inference openai anthropic google deepseek multi-model routing mixture-of-agents inference

TL;DR

  • Pour tout système multi-LLM (routage, vote, cascade), la précision ne peut excéder 1−β, le taux de requêtes où tous les modèles échouent simultanément.
  • La corrélation par paires ρ, métrique standard du secteur, ne permet pas d'estimer β et sous-évalue la co-défaillance d'un facteur ~2,5 sur les mathématiques ouvertes.
  • Un certificat Clopper-Pearson sur β permet de quantifier à coût nul le gain maximal atteignable par tout routeur ou système de vote, avant même de l'entraîner.

L'industrie des LLM s'est dotée d'un réflexe : avant d'assembler plusieurs modèles en routeur, vote ou cascade, on mesure la corrélation des erreurs par paires (ρ). Faible corrélation signale de la diversité, et la diversité est supposée garantir un gain. Un article publié sur Hugging Face Papers par Josef Chen (KAIKAKU) casse cette intuition avec une mesure à grande échelle : le bon diagnostic n'est pas ρ, c'est β, le taux auquel tous les modèles du pool échouent simultanément sur la même requête. Et ρ ne permet tout simplement pas de retrouver β.

La démonstration formelle est directe : pour toute politique dont la réponse est nécessairement celle d'un modèle membre - routeur, vote majoritaire, cascade - la précision ne peut pas dépasser 1−β. Sur un pool de 67 modèles provenant de 21 fournisseurs, parmi lesquels GPT-5.5, Claude Opus 4.8, Gemini 3.1 Pro, Grok-4.3, DeepSeek V4, Qwen3.7-Max et Kimi K2.7, le taux observé de co-défaillance totale sur les mathématiques ouvertes (MATH-500) est β = 0,052. Un modèle à facteur unique correctement calibré en tétrachorique ne prédit que 0,023 : l'écart est d'environ 2,5 fois (intervalle de confiance à 90 % : 1,7 à 3,4). Sur le code évalué à l'exécution, β monte à 0,079 ; sur GPQA-Diamond posé en format libre plutôt qu'en QCM, il atteint 0,127 - ce qui signifie que les benchmarks en choix multiples sous-estiment structurellement la co-défaillance réelle.

Ce que cela implique pour les routeurs entraînés est sévère. Le gain oracle existe (0,044 sur un mix multi-domaines saturé, 0,120 sur MMLU-Pro), mais les routeurs déployables n'en capturent presque rien : un routeur logistique TF-IDF n'en réalise que 9 % (avec un intervalle de confiance qui couvre zéro), et un routeur LLM qui reçoit chaque requête avec un résumé des forces de chaque modèle route vers le meilleur modèle unique sur 100 % des cas et capture exactement 0 de G. La raison n'est pas un défaut de conception : c'est que la requête elle-même porte peu de signal sur quel modèle sera juste quand le groupe de tête est en désaccord.

La mise en garde honnête de l'étude : les comptages d'événements 'tous faux' sont petits (k=17 pour le pool de 67 modèles sur MATH-500), ce qui laisse des intervalles de confiance larges ; et les résultats reposent entièrement sur des tâches à notation programmatique. Ce que le papier ne couvre pas : les architectures de fusion qui génèrent des réponses synthétiques plutôt que de sélectionner parmi les réponses des membres échappent formellement au cadre, et leur plafond reste à définir.

Le bénéfice pratique immédiat tient en une procédure : une borne de Clopper-Pearson sur β transforme un seul jeu de requêtes notées en un certificat à coût nul sur le gain maximal que n'importe quelle politique de sélection peut offrir, avant même d'entraîner un routeur. Pour les équipes qui évaluent si une infrastructure multi-LLM vaut son surcoût, c'est un test de qualification préalable qui ne coûte rien.