MirrorCode y agentes de programación de largo horizonte: qué deben cambiar los equipos
MirrorCode, de Epoch AI y METR, lleva la evaluación de agentes de programación a un terreno más realista. No se limita a pedir un pequeño bug fix: pide reconstruir programas completos desde especificaciones. Un caso destacado costó unos 2600 dólares en una sola ejecución y mantuvo al agente trabajando 19 días.
Eso no significa que todos deban dejar un agente corriendo durante semanas. Significa que los benchmarks cortos y baratos ya no bastan para medir capacidad de ingeniería real.
Cree un benchmark interno
El paso práctico es reunir 20 a 50 tareas reales ya resueltas: bugs, tests, pequeñas funcionalidades, actualizaciones de dependencias, migraciones y documentación. Cada tarea debe incluir objetivo, criterios de aceptación, restricciones y comandos de validación.
Luego compare Codex, Claude Code, Cursor, Copilot Agents, NxCode workflows o su harness interno con las mismas tareas. Mida éxito, tiempo, coste en tokens, tool calls, archivos modificados, tests ejecutados, reintentos fallidos y esfuerzo de revisión.
Los agentes largos necesitan presupuesto
El ejemplo de 2600 dólares hace visible el coste. Un agente consume tokens, CI, APIs externas, entornos cloud y tiempo humano de revisión. Un bug simple puede tener 10 minutos. Una migración puede tener más, pero necesita plan aprobado y checkpoints.
Divida el trabajo en explore, plan, implement, verify. Cada fase debe producir evidencia: archivos relevantes, riesgos, plan, diff y resultados de tests. Una pull request de agente sin evidencia no debería fusionarse.
El harness importa más que el prompt
Los prompts siguen siendo útiles, pero el trabajo largo depende del harness. El harness decide qué contexto ve el agente, qué herramientas puede usar, cuándo pide aprobación, cómo recupera errores y cuándo se detiene.
El model routing también será clave. Las decisiones de arquitectura pueden usar un modelo fuerte; las ediciones repetitivas, uno barato; los resúmenes de logs, uno rápido. Pero eso solo funciona si el workflow entiende el riesgo de cada paso.
Qué debe seguir en manos humanas
Las personas deben conservar definición del problema, criterios de aceptación, límites de arquitectura, seguridad, decisiones de producto y aprobación final. Los agentes pueden explorar, implementar, probar y resumir, pero no deben redefinir el objetivo ni desplegar sin revisión.
La lección de MirrorCode es clara: AI coding está pasando de generar código a delegar ingeniería con límites. Para aprovecharlo se necesitan task suites, presupuestos, logs, validación y revisión rigurosa.

