MirrorCode et agents de code longue durée : ce que les équipes doivent changer

MirrorCode, publié par Epoch AI et METR, rend l'évaluation des agents de code plus proche du vrai travail logiciel. Au lieu de corriger un petit bug, l'agent doit reconstruire des programmes complets à partir de spécifications. Un exemple marquant a coûté environ 2600 dollars pour une seule exécution et a tourné pendant 19 jours.

Ce n'est pas une invitation à laisser un agent travailler trois semaines sans contrôle. Le message est plus pragmatique : les benchmarks courts et bon marché ne suffisent plus pour juger une capacité d'ingénierie réelle.

Évaluer avec vos propres tâches

Une équipe devrait créer un benchmark interne avec 20 à 50 tâches déjà résolues : bug fixes, tests, petites fonctionnalités, mises à jour de dépendances, migrations et documentation. Chaque tâche doit contenir l'objectif, les critères d'acceptation, les contraintes et les commandes de validation.

Comparez ensuite Codex, Claude Code, Cursor, Copilot Agents, NxCode workflows ou votre harness interne sur les mêmes tâches. Mesurez le taux de réussite, mais aussi le temps, le coût en tokens, les tool calls, les fichiers modifiés, les tests lancés, les échecs et l'effort de revue.

Les agents longue durée ont besoin de budgets

Le cas à 2600 dollars rend le coût visible. Un agent consomme des tokens, du CI, des API externes, des environnements cloud et du temps de revue humain. Les tâches simples peuvent avoir un budget court. Les migrations peuvent avoir plus de temps, mais avec un plan approuvé et des checkpoints.

Découpez les grands travaux en explore, plan, implement, verify. Chaque phase doit laisser une preuve : fichiers concernés, risques, plan, diff, résultats de tests. Une pull request générée par agent sans preuves ne doit pas être traitée comme fiable.

Le harness compte plus que le prompt

Les prompts comptent encore, mais le travail long dépend surtout du harness. Il détermine le contexte visible, les outils autorisés, les validations humaines, la récupération après erreur et les conditions d'arrêt.

Le model routing devient également utile. Un modèle premium peut servir aux décisions d'architecture, un modèle moins cher aux modifications répétitives, un modèle rapide aux résumés de logs. Mais cela exige un workflow qui connaît le niveau de risque de chaque étape.

Ce que les humains doivent garder

Les humains doivent conserver la définition du problème, les critères d'acceptation, les limites d'architecture, la sécurité, les arbitrages produit et l'approbation finale. Les agents peuvent explorer, implémenter, tester et résumer, mais ne doivent pas changer l'objectif ni déployer sans revue.

La leçon de MirrorCode est simple : le AI coding devient une délégation d'ingénierie encadrée. Pour en tirer parti, il faut des tâches de référence, des budgets, des logs, de la validation et une revue sérieuse.

NxCode

MirrorCode et agents de code longue durée : ce que les équipes doivent changer

MirrorCode et agents de code longue durée : ce que les équipes doivent changer

Évaluer avec vos propres tâches

Les agents longue durée ont besoin de budgets

Le harness compte plus que le prompt

Ce que les humains doivent garder

Sources

Related Tools

Construire avec NxCode

Construisez votre idée avec l'IA

Related Articles

Claude Tag et les agents de code en équipe : pourquoi la programmation dépasse l IDE

Cursor Cloud Agents : codage autonome sur des machines virtuelles qui s'auto-testent, enregistrent des démos et déploient des PR

L'ingénierie agentique : Le guide complet du développement logiciel AI-First au-delà du vibe coding (2026)

Construire des applications avec Gemini 3.1 Pro : Guide du développeur pour l'API, le codage et le Vibe Coding (2026)