theinformation.com détecté sur le web June 30th 2026

OpenAI affirme avoir divisé par deux son coût d'inférence

openai inference ai infrastructure ai-business

TL;DR

Des ingénieurs d'OpenAI auraient trouvé un moyen de diviser par plus de deux le coût d'inférence des modèles existants.
Appliquée au trafic ChatGPT des utilisateurs déconnectés, la méthode aurait ramené à quelques centaines le nombre de GPU Nvidia nécessaires.
Le gain proviendrait d'une meilleure utilisation des serveurs existants plutôt que du déploiement de nouvelles puces.

Le poste qui pèse le plus dans l'économie d'OpenAI, c'est l'inférence, le coût de faire tourner les modèles au quotidien. C'est pour ça que ce que vient de rapporter The Information mérite qu'on s'y arrête, même s'il manque les détails techniques. Selon le média, des ingénieurs d'OpenAI ont confié plus tôt en juin à des collègues qu'ils avaient identifié une optimisation qui divise par plus de deux le coût d'inférence des modèles existants.

Le test grandeur nature a porté sur le trafic ChatGPT des visiteurs déconnectés, ceux sans compte gratuit ou payant. Après application, le nombre de GPU Nvidia nécessaires pour servir ce trafic serait tombé à quelques centaines. Et le point intéressant, c'est d'où vient le gain. Pas de nouvelles puces, pas de nouveau hardware. Une meilleure utilisation des serveurs existants, dit le rapport.

Pourquoi ça compte au-delà du périmètre OpenAI: si une part importante de la facture d'inférence peut être absorbée par du logiciel plutôt que par plus de GPU, ça reconfigure plusieurs débats à la fois. Celui des marges, celui des tarifs API que les concurrents tirent vers le bas, celui des limites d'usage imposées aux utilisateurs, et indirectement celui de la dépendance à Nvidia. The Information note explicitement que la baisse de coût donne à OpenAI le choix entre améliorer ses marges, relever les plafonds d'usage de ChatGPT, ou desserrer la pression tarifaire côté API.

La précaution honnête, c'est que la méthode exacte n'a pas été divulguée. D'après le compte rendu, ça pourrait reposer sur de la quantization, du KV caching, du batching, ou un routage des requêtes simples vers des modèles moins chers. Ça pourrait aussi être un mélange de tout ça. Et le test n'a porté que sur le trafic déconnecté: ce qui se passe sur l'API payante ou sur les modèles de raisonnement reste ouvert. C'est un signal interne rapporté par voie de presse, pas un livre blanc, et il faut le prendre comme tel.

Si le gain résiste à un déploiement plus large, c'est OpenAI qui retrouve de la marge face à des challengers agressifs sur les prix, et ce sont les développeurs sur l'API qui pourraient en bénéficier en bout de chaîne. La direction d'effort qui mérite d'être suivie dans les prochains mois, c'est celle-là: ce qui sort de l'optimisation logicielle, pas uniquement ce qui arrive en nouvelles puces.

Article original publié par theinformation.com

Lire l'article original →

Titre original : OpenAI dit avoir trouvé comment diviser par plus de deux le coût d'inférence de ses modèles