MirrorCode y agentes de programación de largo horizonte: qué deben cambiar los equipos

MirrorCode, de Epoch AI y METR, lleva la evaluación de agentes de programación a un terreno más realista. No se limita a pedir un pequeño bug fix: pide reconstruir programas completos desde especificaciones. Un caso destacado costó unos 2600 dólares en una sola ejecución y mantuvo al agente trabajando 19 días.

Eso no significa que todos deban dejar un agente corriendo durante semanas. Significa que los benchmarks cortos y baratos ya no bastan para medir capacidad de ingeniería real.

Cree un benchmark interno

El paso práctico es reunir 20 a 50 tareas reales ya resueltas: bugs, tests, pequeñas funcionalidades, actualizaciones de dependencias, migraciones y documentación. Cada tarea debe incluir objetivo, criterios de aceptación, restricciones y comandos de validación.

Luego compare Codex, Claude Code, Cursor, Copilot Agents, NxCode workflows o su harness interno con las mismas tareas. Mida éxito, tiempo, coste en tokens, tool calls, archivos modificados, tests ejecutados, reintentos fallidos y esfuerzo de revisión.

Los agentes largos necesitan presupuesto

El ejemplo de 2600 dólares hace visible el coste. Un agente consume tokens, CI, APIs externas, entornos cloud y tiempo humano de revisión. Un bug simple puede tener 10 minutos. Una migración puede tener más, pero necesita plan aprobado y checkpoints.

Divida el trabajo en explore, plan, implement, verify. Cada fase debe producir evidencia: archivos relevantes, riesgos, plan, diff y resultados de tests. Una pull request de agente sin evidencia no debería fusionarse.

El harness importa más que el prompt

Los prompts siguen siendo útiles, pero el trabajo largo depende del harness. El harness decide qué contexto ve el agente, qué herramientas puede usar, cuándo pide aprobación, cómo recupera errores y cuándo se detiene.

El model routing también será clave. Las decisiones de arquitectura pueden usar un modelo fuerte; las ediciones repetitivas, uno barato; los resúmenes de logs, uno rápido. Pero eso solo funciona si el workflow entiende el riesgo de cada paso.

Qué debe seguir en manos humanas

Las personas deben conservar definición del problema, criterios de aceptación, límites de arquitectura, seguridad, decisiones de producto y aprobación final. Los agentes pueden explorar, implementar, probar y resumir, pero no deben redefinir el objetivo ni desplegar sin revisión.

La lección de MirrorCode es clara: AI coding está pasando de generar código a delegar ingeniería con límites. Para aprovecharlo se necesitan task suites, presupuestos, logs, validación y revisión rigurosa.

NxCode

MirrorCode y agentes de programación de largo horizonte: qué deben cambiar los equipos

MirrorCode y agentes de programación de largo horizonte: qué deben cambiar los equipos

Cree un benchmark interno

Los agentes largos necesitan presupuesto

El harness importa más que el prompt

Qué debe seguir en manos humanas

Fuentes

Related Tools

Construir con NxCode

Construye tu idea con IA

Related Articles

Claude Tag y los agentes de programación en equipo: por qué el desarrollo sale del IDE

Ingeniería Agéntica: La guía completa para el desarrollo de software AI-First más allá del Vibe Coding (2026)

Cursor Cloud Agents: Codificación autónoma en máquinas virtuales que realizan pruebas automáticas, graban demos y envían PRs

Construyendo aplicaciones con Gemini 3.1 Pro: Guía para desarrolladores sobre API, codificación y Vibe Coding (2026)