MirrorCode und langfristige AI Coding Agents: Was Teams jetzt ändern sollten
MirrorCode von Epoch AI und METR verschiebt die Diskussion über AI Coding Agents. Es geht nicht mehr nur darum, ob ein Modell einen kleinen Bug fixen kann. Der Benchmark prüft, ob ein Agent komplette Programme anhand von Spezifikationen rekonstruieren kann. Ein besonders auffälliges Beispiel kostete etwa 2600 Dollar für einen einzelnen Lauf und lief 19 Tage ohne menschliche Eingriffe.
Das ist keine Empfehlung, Agenten wochenlang unbeaufsichtigt laufen zu lassen. Es ist ein Signal: Kurze, günstige Benchmarks reichen nicht mehr aus, um reale Engineering-Fähigkeit zu bewerten.
Interne Benchmarks statt Demo-Vergleiche
Teams sollten 20 bis 50 echte, bereits abgeschlossene Aufgaben aus dem eigenen Backlog auswählen. Dazu gehören Bugfixes, Tests, kleine Features, Dependency Updates, Migrationen und Dokumentation. Jede Aufgabe braucht ein Ziel, Akzeptanzkriterien, Einschränkungen und Validierungsbefehle.
Danach können Codex, Claude Code, Cursor, Copilot Agents, NxCode Workflows oder interne Harnesses unter denselben Bedingungen verglichen werden. Wichtig sind nicht nur Erfolgsraten, sondern auch Laufzeit, Token-Kosten, Tool Calls, geänderte Dateien, Tests, Fehlversuche und Review-Aufwand.
Langfristige Agents brauchen Budgets
Der 2600-Dollar-Fall macht klar: Ein Agent ist keine kostenlose Arbeitskraft. Er verbraucht Modell-Tokens, CI, externe APIs, Cloud-Umgebungen und menschliche Review-Zeit. Ein einfacher Bugfix kann ein kleines Budget haben, eine Migration ein größeres, aber längere Läufe brauchen Genehmigung und Checkpoints.
Eine gute Struktur ist explore, plan, implement, verify. Jede Phase sollte ein Artefakt erzeugen: relevante Dateien und Risiken, Umsetzungsplan, Diff sowie Test- und Validierungsergebnisse. Ein Agent Pull Request ohne Evidenz ist schwer zu vertrauen.
Harness schlägt Prompting
Prompts bleiben wichtig, aber langfristige Softwarearbeit ist vor allem ein Harness-Problem. Der Harness entscheidet, welchen Kontext der Agent sieht, welche Tools erlaubt sind, wann Genehmigung nötig ist, wie Fehler behandelt werden und wann der Lauf stoppt.
Auch Model Routing wird wichtiger. Architekturentscheidungen können ein starkes Modell brauchen, repetitive Änderungen ein günstigeres, Log-Zusammenfassungen ein schnelles. Das funktioniert aber nur, wenn der Workflow Risiko und Aufgabentyp kennt.
Menschen behalten die Verantwortung
Menschen sollten Problemdefinition, Akzeptanzkriterien, Architekturgrenzen, Sicherheitsregeln, Produktentscheidungen und finale Freigabe besitzen. Agents können untersuchen, implementieren, testen und zusammenfassen. Sie sollten aber weder das Ziel stillschweigend ändern noch ungeprüft in Produktion deployen.
Die praktische Lehre aus MirrorCode lautet: AI Coding wird zu kontrollierter Engineering-Delegation. Dafür brauchen Teams Task Suites, Budgets, Logs, Validierung und ernsthafte Reviews.

