Puntos clave
- Gemini 3.5 Flash Computer Use es una señal de producción. Google coloca la interacción con pantalla dentro de un modelo Flash principal.
- El reto no es hacer clic. El reto es decidir qué puede hacer el agent, qué requiere aprobación, cómo resistir prompt injection y cómo probar lo ocurrido.
- La infraestructura converge. Google habla de sandbox y human-in-the-loop; Vercel eve empaqueta durable execution, sandboxed compute, approvals, subagents y evals; Dapr 1.18 añade provenance verificable.
Gemini 3.5 Flash Computer Use: guía para agents de producción
El titular fácil es que Gemini ahora puede usar un ordenador. Para un equipo de ingeniería, la pregunta real es si puede entrar en flujos de trabajo reales sin abrir riesgos innecesarios.
Google anunció que Computer Use ya es una herramienta integrada en Gemini 3.5 Flash. Los desarrolladores pueden usar Gemini API y Gemini Enterprise Agent Platform para crear agents que observan, razonan y actúan en navegador, móvil y escritorio. Google también menciona una demo con Browserbase, una implementación de referencia y guardrails empresariales: confirmación para acciones sensibles o irreversibles y parada automática si se detecta indirect prompt injection.
Computer use no es lo mismo que function calling. Function calling invoca APIs explícitas como run_tests o create_ticket. Computer use utiliza interfaces ya existentes: paneles de administración, dashboards, aplicaciones legacy y previews. Es más flexible, pero también más frágil: una página puede contener instrucciones maliciosas, un botón puede ser ambiguo y un modal puede cambiar el contexto.
Por qué importa para AI coding
Los primeros usos son claros: UI QA, pruebas de regresión, accesibilidad y formularios. El cambio mayor está en agentic software delivery. Las herramientas de AI coding pasan de escribir funciones a tomar issues, modificar repositorios, ejecutar tests, abrir PRs y esperar revisión. Cuando un agent necesita usar previews, logs, Stripe, consolas cloud o trackers de issues, computer use se vuelve parte del ciclo de desarrollo.
Codex Remote GA apunta en la misma dirección. Las release notes de OpenAI indican que la app móvil de ChatGPT puede iniciar o continuar trabajo de Codex en un host Mac o Windows, revisar progreso y aprobar acciones. El móvil se convierte en panel de control para trabajo asíncrono, no en sustituto del IDE.
Diseño de producción
Empieza con una tarea precisa. "Revisa el checkout en staging y reporta problemas" es útil. "Arregla el sitio" no lo es. Define dominios, cuentas, entornos y condiciones de parada.
Aísla el entorno. Ejecuta el agent en navegador controlado, VM, device farm o sandbox. Usa cuentas staging, tenants de prueba, sesiones cortas y datos descartables. No reutilices la sesión personal del fundador o del ingeniero.
Reduce permisos. Un agent que lee logs no debe poder desplegar. Un agent que crea tickets borrador no debe enviar correos a clientes. Los permisos amplios hacen demos mejores y accidentes peores.
Define action policy. Lecturas pueden automatizarse. Escrituras reversibles pueden permitirse con logging. Acciones de riesgo requieren aprobación. Acciones irreversibles deben bloquearse hasta que existan evals, auditoría y rollback maduros.
Guarda evidencia. Capturas, tool calls, decisiones del modelo, aprobaciones y cambios de estado deben quedar en un audit stream. Para flujos regulados, Dapr 1.18 aporta Workflow History Signing, Propagation y Attestation. Los logs cuentan lo que pasó; Verifiable Execution ayuda a probarlo.
Gemini, eve, Dapr y Codex
Gemini 3.5 Flash Computer Use es una capacidad de modelo y API. Codex Remote es una superficie de control para desarrolladores. Vercel eve es framework y runtime de agents. Dapr 1.18 es infraestructura para provenance verificable. Un stack serio puede necesitar las cuatro capas.
Vercel eve muestra que los frameworks de agents ya no compiten solo en prompts, sino en runtime: durable execution, sandbox, approvals, subagents y evals. Dapr responde otra pregunta: de dónde vino una acción, qué workflow la produjo y si el historial fue alterado.
Conclusión
Gemini 3.5 Flash Computer Use acerca los computer-use agents al stack normal de automatización. Pero un agent de producción es un worker dentro del sistema. Necesita permisos, supervisión, auditoría y un historial ejecutable que se pueda probar.
Sources
- Google: Introducing computer use in Gemini 3.5 Flash
- Vercel: Introducing eve
- CNCF: Introducing Verifiable Execution in Dapr 1.18
- OpenAI Help Center: ChatGPT release notes