MirrorCode et agents de code longue durée : ce que les équipes doivent changer
MirrorCode, publié par Epoch AI et METR, rend l'évaluation des agents de code plus proche du vrai travail logiciel. Au lieu de corriger un petit bug, l'agent doit reconstruire des programmes complets à partir de spécifications. Un exemple marquant a coûté environ 2600 dollars pour une seule exécution et a tourné pendant 19 jours.
Ce n'est pas une invitation à laisser un agent travailler trois semaines sans contrôle. Le message est plus pragmatique : les benchmarks courts et bon marché ne suffisent plus pour juger une capacité d'ingénierie réelle.
Évaluer avec vos propres tâches
Une équipe devrait créer un benchmark interne avec 20 à 50 tâches déjà résolues : bug fixes, tests, petites fonctionnalités, mises à jour de dépendances, migrations et documentation. Chaque tâche doit contenir l'objectif, les critères d'acceptation, les contraintes et les commandes de validation.
Comparez ensuite Codex, Claude Code, Cursor, Copilot Agents, NxCode workflows ou votre harness interne sur les mêmes tâches. Mesurez le taux de réussite, mais aussi le temps, le coût en tokens, les tool calls, les fichiers modifiés, les tests lancés, les échecs et l'effort de revue.
Les agents longue durée ont besoin de budgets
Le cas à 2600 dollars rend le coût visible. Un agent consomme des tokens, du CI, des API externes, des environnements cloud et du temps de revue humain. Les tâches simples peuvent avoir un budget court. Les migrations peuvent avoir plus de temps, mais avec un plan approuvé et des checkpoints.
Découpez les grands travaux en explore, plan, implement, verify. Chaque phase doit laisser une preuve : fichiers concernés, risques, plan, diff, résultats de tests. Une pull request générée par agent sans preuves ne doit pas être traitée comme fiable.
Le harness compte plus que le prompt
Les prompts comptent encore, mais le travail long dépend surtout du harness. Il détermine le contexte visible, les outils autorisés, les validations humaines, la récupération après erreur et les conditions d'arrêt.
Le model routing devient également utile. Un modèle premium peut servir aux décisions d'architecture, un modèle moins cher aux modifications répétitives, un modèle rapide aux résumés de logs. Mais cela exige un workflow qui connaît le niveau de risque de chaque étape.
Ce que les humains doivent garder
Les humains doivent conserver la définition du problème, les critères d'acceptation, les limites d'architecture, la sécurité, les arbitrages produit et l'approbation finale. Les agents peuvent explorer, implémenter, tester et résumer, mais ne doivent pas changer l'objectif ni déployer sans revue.
La leçon de MirrorCode est simple : le AI coding devient une délégation d'ingénierie encadrée. Pour en tirer parti, il faut des tâches de référence, des budgets, des logs, de la validation et une revue sérieuse.

