MirrorCode en langdurige AI coding agents: wat teams nu moeten veranderen
← Back to news

MirrorCode en langdurige AI coding agents: wat teams nu moeten veranderen

N

NxCode Team

2 min read

MirrorCode en langdurige AI coding agents: wat teams nu moeten veranderen

MirrorCode van Epoch AI en METR maakt de evaluatie van AI coding agents realistischer. Het gaat niet om een kleine bugfix, maar om het opnieuw bouwen van volledige programma's vanuit specificaties. Een opvallend voorbeeld kostte ongeveer 2600 dollar voor één run en liep 19 dagen.

Dat betekent niet dat teams agents wekenlang onbeheerd moeten laten draaien. Het betekent dat korte en goedkope benchmarks niet genoeg zijn om echte engineeringcapaciteit te beoordelen.

Bouw een interne benchmark

Kies 20 tot 50 echte taken die al zijn opgelost: bug fixes, tests, kleine features, dependency updates, migraties en documentatie. Leg per taak doel, acceptatiecriteria, beperkingen en validatiecommando's vast.

Vergelijk daarna Codex, Claude Code, Cursor, Copilot Agents, NxCode workflows of interne harnesses op dezelfde taken. Meet niet alleen succes, maar ook tijd, tokenkosten, tool calls, gewijzigde bestanden, uitgevoerde tests, mislukte pogingen en reviewlast.

Langdurige agents hebben budgetten nodig

Het voorbeeld van 2600 dollar maakt kosten concreet. Een agent verbruikt tokens, CI, externe API's, cloudomgevingen en menselijke reviewtijd. Een simpele bug kan 10 minuten krijgen. Een migratie mag langer duren, maar heeft een goedgekeurd plan en checkpoints nodig.

Splits groot werk in explore, plan, implement, verify. Elke fase moet bewijs leveren: relevante bestanden, risico's, plan, diff en testresultaten. Een agent pull request zonder bewijs is niet klaar om te mergen.

Harness is belangrijker dan prompt

Prompts blijven nuttig, maar langdurig werk draait om de harness. Die bepaalt context, tools, approvals, foutafhandeling en stopvoorwaarden.

Model routing wordt ook belangrijker. Architectuurbeslissingen kunnen een sterk model vragen, repetitieve edits een goedkoper model, logsamenvattingen een snel model. Dat werkt alleen als de workflow het risico van elke stap begrijpt.

Mensen houden het oordeel

Mensen moeten probleemdefinitie, acceptatiecriteria, architectuurgrenzen, beveiliging, productkeuzes en finale goedkeuring behouden. Agents kunnen onderzoeken, implementeren, testen en samenvatten, maar mogen niet stilzwijgend het doel veranderen of zonder review deployen.

De les van MirrorCode is duidelijk: AI coding wordt gecontroleerde engineeringdelegatie. Teams hebben task suites, budgetten, logs, validatie en serieuze reviews nodig.

Bronnen

Back to all news
Enjoyed this article?

Bouw met NxCode

Verander je idee in een werkende app — geen coderen nodig.

46.000+ ontwikkelaars bouwden deze maand met NxCode

Bouw je idee met AI

Beschrijf wat je wilt — NxCode bouwt het voor je.

46.000+ ontwikkelaars bouwden deze maand met NxCode