MirrorCode en langdurige AI coding agents: wat teams nu moeten veranderen

MirrorCode van Epoch AI en METR maakt de evaluatie van AI coding agents realistischer. Het gaat niet om een kleine bugfix, maar om het opnieuw bouwen van volledige programma's vanuit specificaties. Een opvallend voorbeeld kostte ongeveer 2600 dollar voor één run en liep 19 dagen.

Dat betekent niet dat teams agents wekenlang onbeheerd moeten laten draaien. Het betekent dat korte en goedkope benchmarks niet genoeg zijn om echte engineeringcapaciteit te beoordelen.

Bouw een interne benchmark

Kies 20 tot 50 echte taken die al zijn opgelost: bug fixes, tests, kleine features, dependency updates, migraties en documentatie. Leg per taak doel, acceptatiecriteria, beperkingen en validatiecommando's vast.

Vergelijk daarna Codex, Claude Code, Cursor, Copilot Agents, NxCode workflows of interne harnesses op dezelfde taken. Meet niet alleen succes, maar ook tijd, tokenkosten, tool calls, gewijzigde bestanden, uitgevoerde tests, mislukte pogingen en reviewlast.

Langdurige agents hebben budgetten nodig

Het voorbeeld van 2600 dollar maakt kosten concreet. Een agent verbruikt tokens, CI, externe API's, cloudomgevingen en menselijke reviewtijd. Een simpele bug kan 10 minuten krijgen. Een migratie mag langer duren, maar heeft een goedgekeurd plan en checkpoints nodig.

Splits groot werk in explore, plan, implement, verify. Elke fase moet bewijs leveren: relevante bestanden, risico's, plan, diff en testresultaten. Een agent pull request zonder bewijs is niet klaar om te mergen.

Harness is belangrijker dan prompt

Prompts blijven nuttig, maar langdurig werk draait om de harness. Die bepaalt context, tools, approvals, foutafhandeling en stopvoorwaarden.

Model routing wordt ook belangrijker. Architectuurbeslissingen kunnen een sterk model vragen, repetitieve edits een goedkoper model, logsamenvattingen een snel model. Dat werkt alleen als de workflow het risico van elke stap begrijpt.

Mensen houden het oordeel

Mensen moeten probleemdefinitie, acceptatiecriteria, architectuurgrenzen, beveiliging, productkeuzes en finale goedkeuring behouden. Agents kunnen onderzoeken, implementeren, testen en samenvatten, maar mogen niet stilzwijgend het doel veranderen of zonder review deployen.

De les van MirrorCode is duidelijk: AI coding wordt gecontroleerde engineeringdelegatie. Teams hebben task suites, budgetten, logs, validatie en serieuze reviews nodig.

NxCode

MirrorCode en langdurige AI coding agents: wat teams nu moeten veranderen

MirrorCode en langdurige AI coding agents: wat teams nu moeten veranderen

Bouw een interne benchmark

Langdurige agents hebben budgetten nodig

Harness is belangrijker dan prompt

Mensen houden het oordeel

Bronnen

Related Tools

Bouw met NxCode

Bouw je idee met AI

Related Articles

Claude Tag en AI coding agents voor teams: waarom programmeren buiten de IDE groeit

Agentic Engineering: De complete gids voor AI-first softwareontwikkeling voorbij Vibe Coding (2026)

Cursor Cloud Agents: Autonoom programmeren op virtuele machines die zichzelf testen, demo's opnemen en PR's verzenden

Apps bouwen met Gemini 3.1 Pro: Handleiding voor ontwikkelaars over API, coderen & Vibe Coding (2026)