oneusefulthing.org détecté sur le web

Mollick : le crépuscule des chatbots face aux agents autonomes

agents generative ai jobs ai-business

TL;DR

  • Opus 4.7 aurait produit en 14 heures un logiciel équivalent à 2-17 semaines de travail d'ingénierie humaine pour 251 $ de tokens.
  • Mollick affirme que le travail passe de l'échange avec un chatbot à la délégation à des agents autosupervisés qu'il faut gérer comme des collaborateurs.
  • Les gains d'usage dépendent davantage de l'expérience du domaine que du métier d'origine, selon une étude citée sur Claude Code.

Un modèle a travaillé seul pendant quatorze heures et livré, selon Ethan Mollick, un logiciel qu'une équipe humaine aurait mis entre deux et dix-sept semaines à construire, pour 251 $ de tokens. C'est le chiffre autour duquel tourne l'essai publié le 30 juin par Mollick sur One Useful Thing, et il en tire une thèse : la conversation avec un chatbot cesse d'être le mode d'usage principal des modèles de pointe.

Mollick s'appuie sur une mesure d'Epoch selon laquelle Opus 4.7, « working on its own for 14 hours, was able to build a software package that would take 2-17 weeks of human engineering work ». Il rapproche ce résultat de la logique du benchmark METR, qui cherche à estimer la quantité d'heures de développement humain qu'un modèle peut couvrir à partir d'un seul prompt. Là où l'usage courant d'il y a quelques mois tournait autour de quelques heures de travail par requête, on serait aujourd'hui, écrit-il, à « sixteen hours or more of work from a single prompt ».

Le glissement qu'il pointe n'est pas cosmétique. « Work is increasingly about assigning work to agents, rather than working together with chatbots », résume-t-il, et il en tire une consigne pratique : penser sa relation à ces systèmes comme celle d'un manager, pas d'un utilisateur. Une observation issue d'une étude sur Claude Code renforce l'argument : ce qui prédit le succès dans un domaine, ce n'est pas le métier d'origine mais l'expérience du domaine, un ingénieur logiciel n'ayant pas un meilleur taux de réussite qu'un autre professionnel une fois sorti de son terrain.

Le contrepoint honnête est que Mollick raisonne à partir de benchmarks contrôlés et d'expériences personnelles, pas d'un déploiement à grande échelle documenté. Le taux d'erreur réel de ces exécutions longues, la reproductibilité hors laboratoire, la manière dont une DSI peut vraiment relire un livrable produit en quatorze heures sans en avoir suivi le déroulé : le texte ne les traite pas.

Ce qui donne à l'essai sa charge, c'est le décalage temporel qu'il décrit, « institutions that move at the speed of people (or worse, committees) try to track a capability curve that is very much not human in nature ». Pour les équipes qui construisent autour de l'IA en 2026, l'enjeu se déplace vers l'outillage des agents, la revue de leur travail et la répartition des rôles quand un livrable de plusieurs semaines peut sortir dans la journée.

Shared on Bluesky by 1 AI expert