huggingface.co détecté sur le web

Xiaomi dévoile Xiaomi-GUI-0, agent mobile à 78,9% sur AndroidWorld

TL;DR

  • Xiaomi revendique 78,9 % de réussite sur AndroidWorld et 72,0 % sur son benchmark interne RealMobile pour l'agent Xiaomi-GUI-0.
  • L'entraînement combine SFT, apprentissage par renforcement au niveau de l'étape puis agentic RL, sur un parc de téléphones physiques.
  • Un flywheel de données recycle les trajectoires d'échec en actions corrigées, explications réflexives et démonstrations de récupération.

Un rapport technique publié par Xiaomi sur Hugging Face décrit Xiaomi-GUI-0, un agent multimodal conçu pour piloter des smartphones Android en tapant, glissant, saisissant du texte et naviguant dans les applications. La particularité revendiquée par les auteurs n'est pas tant l'architecture que l'infrastructure d'entraînement. Au lieu de dépendre majoritairement d'émulateurs, les équipes de Xiaomi ont fait tourner leur boucle d'apprentissage sur un parc de téléphones physiques, avec des sandbox en support auxiliaire.

Le pipeline se décompose en trois étapes selon le rapport : une phase de supervised fine-tuning, un apprentissage par renforcement au niveau de l'étape, puis une phase d'agentic reinforcement learning. Xiaomi y ajoute un error-driven data flywheel qui recycle les trajectoires d'échec en actions corrigées, explications réflexives et démonstrations de récupération. Les données annoncées couvrent des tâches à forte fréquence, une longue traîne d'intentions plus rares, et des capacités de réflexion et de mémoire.

Les chiffres avancés sont 72,0 % de réussite sur RealMobile, le benchmark interne de Xiaomi, et 78,9 % sur AndroidWorld, un benchmark public. Le rapport insiste également sur la capacité de l'agent à gérer des états concrets qui font tomber la plupart des systèmes automatisés : dialogues de permission, authentification de paiement, contrôle du risque et gestion des comptes. Ce genre d'états marginaux compte souvent plus que le score brut pour qui envisage de déployer un agent sur des appareils utilisateurs.

Ce que la publication ne détaille pas explicitement, c'est la taille du modèle, la latence d'inférence, ou si l'exécution est prévue sur l'appareil ou dans le cloud. La comparaison directe avec d'autres agents mobiles récents n'est pas non plus mise en avant, donc les 78,9 % sont à prendre comme un jalon revendiqué plutôt qu'un classement établi. Reste que ce type d'infrastructure hybride, parc de téléphones physiques plus sandbox, dessine une piste concrète pour les constructeurs Android qui voudraient embarquer nativement un assistant capable d'agir dans les applications, plutôt que se contenter de lire l'écran.