Google intègre le computer use directement dans Gemini 3.5 Flash
TL;DR
- Native integration replaces a two-model pipeline with a single Gemini 3.5 Flash call, cutting developer complexity and latency for agentic workflows.
- Both enterprise safeguards are opt-in, not defaults — a design choice security coverage reads as Google treating this launch as a preview, not a production-ready release.
- Google's sole published benchmark is 78.4% on OSWorld-Verified; no red-team evaluations or adversarial training disclosures accompany the launch.
Ce qui change avec cette annonce n'est pas l'existence du computer use chez Google, déjà disponible sous forme de modèle distinct (le Gemini 2.5 Computer Use), mais son intégration directe comme outil natif dans Gemini 3.5 Flash. Un développeur qui utilise déjà ce modèle pour du raisonnement peut désormais lui déléguer le contrôle d'un navigateur, d'un mobile ou d'un bureau sans passer par une API distincte.
Concrètement, le modèle fonctionne en boucle : il observe l'état de l'écran via des captures d'image, raisonne, puis génère des actions (clics, saisies au clavier, navigation). Google cite des cas d'usage allant des tests logiciels en continu à l'automatisation de tâches de gestion de la connaissance dans des applications professionnelles. La fonctionnalité est accessible via l'API Gemini et la Gemini Enterprise Agent Platform, avec une implémentation de référence sur GitHub et un environnement de démonstration hébergé par Browserbase.
Sur la sécurité, Google a intégré un entraînement adversarial ciblé pour réduire les risques d'injection de prompt. Deux mécanismes de protection optionnels s'ajoutent côté entreprise : l'arrêt automatique de la tâche si une injection de prompt indirecte est détectée, et la demande de confirmation explicite de l'utilisateur pour les actions sensibles ou irréversibles. Google recommande par ailleurs de combiner ces protections avec du sandboxing, une vérification humaine et des contrôles d'accès, ce qui suggère que les garde-fous intégrés ne sont pas conçus pour fonctionner seuls.
L'annonce mentionne des améliorations sur le benchmark OSWorld sans en divulguer les chiffres précis, ce qui rend toute comparaison avec les offres concurrentes difficile à établir. Pour les équipes qui ne disposent pas encore d'infrastructure de sandboxing, la recommandation de Google implique un investissement préalable avant tout déploiement en production.
Pour les développeurs déjà sur l'API Gemini et pour les partenaires d'infrastructure cités, Browserbase, Browser Use et UiPath, la consolidation simplifie l'architecture des agents. La question que l'annonce ne tranche pas encore : que devient le modèle Gemini 2.5 Computer Use standalone, et pour combien de temps reste-t-il supporté ?
What others are reporting
-
The Next Web Read →
Examines the enterprise trust gap: opt-in safeguards framed as an admission the technology is not ready unsupervised; compares Google's reach unfavorably to Anthropic's more capable Claude.
"No individual safeguard is sufficient on its own," acknowledging that layered protections matter more than single mechanisms.
-
Cybersecurity News Read →
Security-first framing: native computer use expands the enterprise attack surface and demands defense-in-depth strategies beyond Google's opt-in guardrails.
Autonomous agents "could introduce new exploitation vectors, particularly if improperly configured."
-
Cyberpress Read →
Focuses on prompt injection risk at enterprise scale, where agents with access to sensitive data or irreversible actions amplify the stakes of misconfigured deployments.
"The risk escalates further in enterprise settings where agents may have access to sensitive data, internal systems, or the ability to execute irreversible actions."
Originally reported by blog.google
Read the original article →Original headline: Google intègre nativement le « computer use » dans Gemini 3.5 Flash, disponible via l'API et la plateforme Enterprise Agent