ycombinator.com via Hacker News

Willow lance Atlas 1, son modèle STT frontier pour la dictée

TL;DR

  • Willow revendique 1,2% de WER sur audio propre et 2,1% en conditions réelles pour Atlas 1, contre 5-7% et 10-15% affichés selon elle par les modèles concurrents.
  • La startup dit avoir comparé Atlas 1 à Whisper (OpenAI), Deepgram, ElevenLabs et AssemblyAI, avec un écart particulièrement marqué sur les accents asiatiques et asiatiques-américains.
  • Le modèle repose sur une infrastructure de transcription humaine à grande échelle dédiée à la dictée temps réel, et est déjà déployé à tous les utilisateurs de Willow.

Un nouvel entrant sur le marché saturé de la reconnaissance vocale mérite un coup d'œil, surtout quand il annonce des chiffres qui écrasent l'écart. Willow, l'éditeur d'une application de dictée pour Mac, Windows et iOS, a présenté Atlas 1, son propre modèle frontier de speech-to-text, mis en avant cette semaine sur Hacker News et sur X.

Les chiffres, communiqués par la startup elle-même, sont ce qui attire l'attention. Willow revendique un taux d'erreur mot (WER) de 1,2% sur audio propre et 2,1% en conditions réelles, là où la plupart des modèles concurrents se situeraient entre 5 et 7% sur du propre et entre 10 et 15% en usage réel. Dans un post LinkedIn publié pour l'occasion, Allan Guo, qui se présente comme « Chief Keyboard Killer » chez Willow, affirme qu'Atlas 1 dépasse Whisper, Deepgram, ElevenLabs et AssemblyAI sur les benchmarks ASR ouverts, avec un écart plus large en environnement bruyant et « particulièrement sur les accents asiatiques et asiatiques-américains ».

L'angle produit qui rend l'annonce intéressante n'est pas seulement le score, c'est la méthode revendiquée. Willow parle de « la première infrastructure de transcription humaine évolutive » conçue pour la dictée temps réel, et cite des bêta-testeurs disant que l'expérience donne l'impression que « quelqu'un est réellement assis là à écouter chaque mot ». Autrement dit, la promesse n'est pas seulement un meilleur modèle acoustique, c'est une boucle alimentée par des humains à l'arrière-plan.

La mise en garde honnête est que tout cela vient d'un communiqué produit. Aucun benchmark indépendant n'a encore reproduit les chiffres, la méthodologie précise (jeux de données, taille du modèle, latence, prix API) n'est pas détaillée dans les documents publics, et l'écart annoncé sur les accents asiatiques est présenté sans jeu de test nommé. Il faut donc lire ces performances comme la revendication qu'elles sont, pas comme un résultat consolidé.

Ce qu'il faut surveiller: si Willow expose Atlas 1 en dehors de son propre clavier vocal, l'annonce devient pertinente pour toute équipe qui construit un assistant vocal ou un outil de productivité, et pas seulement pour les utilisateurs actuels de l'app.