Harness-Engineering: Der vollständige Leitfaden zum Aufbau von Systemen, mit denen KI-Agenten tatsächlich funktionieren (2026)
← Back to news

Harness-Engineering: Der vollständige Leitfaden zum Aufbau von Systemen, mit denen KI-Agenten tatsächlich funktionieren (2026)

N

NxCode Team

10 min read

Harness-Engineering: Der vollständige Leitfaden zum Aufbau von Systemen, mit denen KI-Agenten tatsächlich funktionieren

März 2026 — Wenn 2025 das Jahr war, in dem KI-Agenten bewiesen, dass sie Code schreiben können, dann ist 2026 das Jahr, in dem wir gelernt haben, dass nicht der Agent der schwierige Teil ist – sondern der Harness.

Das Codex-Team von OpenAI hat gerade eine Produktionsanwendung mit über 1 Million Zeilen Code erstellt, bei der keine einzige Zeile von Menschenhand geschrieben wurde. Die Ingenieure schrieben keinen Code. Sie entwarfen das System, das es der KI ermöglichte, Code zuverlässig zu schreiben. Dieses System – die Einschränkungen, Feedbackschleifen, Dokumentationen, Linter und das Lifecycle-Management – ist das, was die Branche heute als Harness bezeichnet.

Harness-Engineering ist die neue Disziplin des Entwerfens dieser Systeme. Und es verändert die Bedeutung dessen, was es heißt, ein Softwareentwickler zu sein.


Was ist Harness-Engineering?

Die Pferde-Metapher

Der Begriff "Harness" (Geschirr) stammt aus dem Reitsport – Zügel, Sattel, Gebiss – die komplette Ausrüstung, um ein kraftvolles, aber unvorhersehbares Tier in die richtige Richtung zu lenken. Die Metapher ist bewusst gewählt:

  • Das Pferd ist das KI-Modell – kraftvoll, schnell, aber es weiß von allein nicht, wohin es gehen soll.
  • Der Harness ist die Infrastruktur – Einschränkungen, Leitplanken, Feedbackschleifen, die die Kraft des Modells produktiv kanalisieren.
  • Der Reiter ist der menschliche Ingenieur – er gibt die Richtung vor, rennt aber nicht selbst.

Ohne einen Harness ist ein KI-Agent wie ein Vollblut auf offenem Feld. Schnell, beeindruckend und völlig nutzlos, um irgendetwas zu erledigen.

Die formale Definition

Harness-Engineering ist das Design und die Implementierung von Systemen, die:

  1. Beschränken, was ein KI-Agent tun kann (architektonische Grenzen, Abhängigkeitsregeln).
  2. Den Agenten darüber Informieren, was er tun soll (Context-Engineering, Dokumentation).
  3. Verifizieren, dass der Agent es korrekt ausgeführt hat (Tests, Linting, CI-Validierung).
  4. Den Agenten Korrigieren, wenn etwas schiefgeht (Feedbackschleifen, Selbstreparaturmechanismen).

Martin Fowler beschreibt es als "die Werkzeuge und Praktiken, die wir verwenden können, um KI-Agenten unter Kontrolle zu halten" – aber es ist mehr als nur Sicherheit. Ein guter Harness macht Agenten leistungsfähiger, nicht nur kontrollierter.


Warum Harness-Engineering jetzt wichtig ist

Das Modell ist Massenware. Der Harness ist der Wettbewerbsvorteil.

Hier ist die unbequeme Wahrheit, mit der die KI-Branche konfrontiert wird: Das zugrunde liegende Modell ist weniger wichtig als das System darum herum.

LangChain hat dies definitiv bewiesen. Ihr Coding-Agent verbesserte sich bei Terminal Bench 2.0 von 52,8 % auf 66,5 % – ein Sprung von den Top 30 in die Top 5 –, ohne dass am Modell etwas geändert wurde. Sie änderten nur den Harness:

ÄnderungMaßnahmeAuswirkung
SelbstverifizierungsschleifePre-Completion-Checklist-Middleware hinzugefügtFehler vor der Übermittlung abgefangen
Context-EngineeringVerzeichnisstrukturen beim Start gemapptAgent verstand die Codebasis von Anfang an
SchleifenerkennungWiederholte Dateiänderungen verfolgt"Doom Loops" verhindert
Reasoning-SandwichHohes Reasoning für Planung/Verifizierung, mittleres für ImplementierungBessere Qualität innerhalb des Zeitbudgets

Gleiches Modell. Unterschiedlicher Harness. Dramatisch bessere Ergebnisse.

OpenAIs 1-Million-Zeilen-Beweis

Das Experiment von OpenAI ist der bisher überzeugendste Beweis:

  • 5 Monate Entwicklungszeit
  • Über 1 Million Zeilen Code im Endprodukt
  • Null manuell geschriebene Zeilen — jede Zeile wurde von Codex-Agenten produziert
  • Erstellt in ~1/10 der Zeit, die Menschen benötigt hätten
  • Das Produkt hat interne tägliche Nutzer und externe Alpha-Tester
  • Es wird ausgeliefert, bereitgestellt, geht kaputt und wird repariert — alles durch Agenten innerhalb des Harness

Der Job der Ingenieure? Den Harness entwerfen. Absichten spezifizieren. Feedback geben. Keinen Code schreiben.


Die drei Säulen des Harness-Engineerings

Das Framework von OpenAI unterteilt Harness-Engineering in drei Kernkategorien:

1. Context-Engineering

Beim Context-Engineering geht es darum, sicherzustellen, dass der Agent zur richtigen Zeit über die richtigen Informationen verfügt.

Statischer Kontext:

  • Repository-lokale Dokumentation (Architekturspezifikationen, API-Verträge, Styleguides)
  • AGENTS.md- oder CLAUDE.md-Dateien, die projektspezifische Regeln kodieren
  • Querverlinkte Designdokumente, die von Lintern validiert werden

Dynamischer Kontext:

  • Observability-Daten (Logs, Metriken, Traces), auf die Agenten zugreifen können
  • Mapping der Verzeichnisstruktur beim Start des Agenten
  • CI/CD-Pipeline-Status und Testergebnisse

Die entscheidende Regel: Aus der Sicht des Agenten existiert nichts, auf das er nicht im Kontext zugreifen kann. Wissen in Google Docs, Slack-Threads oder in den Köpfen der Leute ist für das System unsichtbar. Das Repository muss die "Single Source of Truth" sein.

2. Architektonische Einschränkungen

Hier unterscheidet sich Harness-Engineering am deutlichsten vom traditionellen KI-Prompting. Anstatt dem Agenten zu sagen "schreibe guten Code", erzwingen Sie mechanisch, wie guter Code aussieht.

Abhängigkeitsschichten:

Types → Config → Repo → Service → Runtime → UI

Jede Schicht darf nur aus Schichten zu ihrer Linken importieren. Dies ist kein Vorschlag – es wird durch Strukturtests und CI-Validierung erzwungen.

Tools zur Durchsetzung von Einschränkungen:

  • Deterministische Linter — Benutzerdefinierte Regeln, die Verstöße automatisch markieren
  • LLM-basierte Auditoren — Agenten, die den Code anderer Agenten auf architektonische Konformität prüfen
  • Strukturtests — Wie ArchUnit, aber für KI-generierten Code
  • Pre-commit Hooks — Automatisierte Prüfungen, bevor Code festgeschrieben wird

Warum Einschränkungen die Ergebnisse verbessern: Paradoxerweise macht die Einschränkung des Lösungsraums Agenten produktiver, nicht weniger. Wenn ein Agent alles generieren kann, verschwendet er Token mit dem Erkunden von Sackgassen. Wenn der Harness klare Grenzen definiert, konvergiert der Agent schneller bei korrekten Lösungen.

3. Entropie-Management ("Garbage Collection")

Dies ist die am meisten unterschätzte Komponente. Im Laufe der Zeit sammeln KI-generierte Codebasen Entropie an – Dokumentation weicht von der Realität ab, Namenskonventionen divergieren, toter Code sammelt sich an.

Harness-Engineering adressiert dies mit periodischen Cleanup-Agenten:

  • Dokumentations-Konsistenz-Agenten — Überprüfen, ob die Dokumente zum aktuellen Code passen
  • Scans auf Verstöße gegen Einschränkungen — Finden von Code, der durch frühere Prüfungen geschlüpft ist
  • Pattern-Enforcement-Agenten — Identifizieren und Beheben von Abweichungen von etablierten Mustern
  • Abhängigkeits-Auditoren — Verfolgen und Auflösen von zirkulären oder unnötigen Abhängigkeiten

Diese Agenten laufen nach Zeitplan – täglich, wöchentlich oder ausgelöst durch bestimmte Ereignisse – und halten die Codebasis sowohl für menschliche Reviewer als auch für zukünftige KI-Agenten gesund.


Harness-Engineering in der Praxis: Wie Teams es tatsächlich machen

Der OpenAI-Ansatz: Null menschlicher Code

Die Teamstruktur von OpenAI für das Harness-Engineering:

RolleTraditionellHarness-Engineering
Code schreibenHauptaufgabeNie
Architektur entwerfenTeil der AufgabeHauptaufgabe
Dokumentation schreibenNebensacheKritische Infrastruktur
PRs reviewenCode-ReviewReview des Agenten-Outputs + Harness-Effektivität
DebuggingCode lesenAnalyse von Agenten-Verhaltensmustern
TestenTests schreibenEntwurf von Teststrategien, die Agenten ausführen

Der Stripe-Ansatz: Minions in großem Maßstab

Die internen Coding-Agenten von Stripe, genannt Minions, produzieren mittlerweile über 1.000 gemergte Pull Requests pro Woche:

  1. Entwickler postet eine Aufgabe in Slack
  2. Minion schreibt den Code
  3. Minion besteht die CI
  4. Minion öffnet einen PR
  5. Mensch reviewt und mergt

Keine Interaktion des Entwicklers zwischen Schritt 1 und Schritt 5. Der Harness erledigt alles – Testausführung, CI-Validierung, Einhaltung des Stils und Aktualisierung der Dokumentation.

Der LangChain-Ansatz: Middleware-First

LangChain strukturiert seinen Harness als zusammensetzbare Middleware-Schichten:

Agent Request
  → LocalContextMiddleware (maps codebase)
  → LoopDetectionMiddleware (prevents repetition)
  → ReasoningSandwichMiddleware (optimizes compute)
  → PreCompletionChecklistMiddleware (enforces verification)
  → Agent Response

Jede Middleware-Schicht fügt eine spezifische Fähigkeit hinzu, ohne die Kernlogik des Agenten zu ändern. Dieser modulare Ansatz macht den Harness testbar und entwicklungsfähig.


Aufbau Ihres ersten Harness: Ein praktisches Framework

Level 1: Basis-Harness (Einzelentwickler)

Wenn Sie Claude Code, Cursor oder Codex für einzelne Projekte verwenden:

Was einzurichten ist:

  • CLAUDE.md- oder .cursorrules-Datei mit Projektkonventionen
  • Pre-commit Hooks für Linting und Formatierung
  • Eine Testsuite, die der Agent zur Selbstverifizierung ausführen kann
  • Klare Verzeichnisstruktur mit konsistenter Benennung

Einrichtungszeit: 1-2 Stunden Auswirkung: Verhindert die häufigsten Fehler von Agenten

Level 2: Team-Harness (Kleines Team)

Für Teams von 3-10 Entwicklern, die sich eine Codebasis teilen:

Zusätzlich zu Level 1:

  • AGENTS.md mit teamweiten Konventionen
  • Architektonische Einschränkungen, die durch CI erzwungen werden
  • Gemeinsame Prompt-Vorlagen für Standardaufgaben
  • Dokumentation-als-Code, validiert durch Linter
  • Checklisten für Code-Reviews speziell für von Agenten generierte PRs

Einrichtungszeit: 1-2 Tage Auswirkung: Konsistentes Agentenverhalten im gesamten Team

Level 3: Produktions-Harness (Engineering-Organisation)

Für Organisationen, die Dutzende von gleichzeitigen Agenten einsetzen:

Zusätzlich zu Level 2:

  • Benutzerdefinierte Middleware-Schichten (Schleifenerkennung, Reasoning-Optimierung)
  • Observability-Integration (Agenten lesen Logs und Metriken)
  • Entropie-Management-Agenten in geplanten Läufen
  • Harness-Versionierung und A/B-Tests
  • Dashboards zur Überwachung der Agentenleistung
  • Eskalationsrichtlinien für den Fall, dass Agenten feststecken

Einrichtungszeit: 1-2 Wochen Auswirkung: Agenten agieren als autonome Mitarbeiter


Häufige Fehler beim Harness-Engineering

1. Über-Engineering des Control-Flows

"Wenn Sie den Control-Flow über-engineeren, wird das nächste Modell-Update Ihr System zerstören."

Modelle verbessern sich rasant. Fähigkeiten, die 2024 komplexe Pipelines erforderten, werden heute durch einen einzigen Prompt im Kontextfenster erledigt. Bauen Sie Ihren Harness so auf, dass er modular ("rippable") ist – Sie sollten in der Lage sein, "smarte" Logik zu entfernen, wenn das Modell intelligent genug wird, um sie nicht mehr zu benötigen.

2. Den Harness als statisch betrachten

Der Harness muss sich mit dem Modell weiterentwickeln. Wenn ein neues Modell-Release das Reasoning verbessert, könnte Ihre Middleware zur Reasoning-Optimierung kontraproduktiv werden. Überprüfen und aktualisieren Sie Harness-Komponenten bei jedem größeren Modell-Update.

3. Ignorieren der Dokumentationsschicht

Die wirkungsvollste Harness-Verbesserung ist oft die einfachste: bessere Dokumentation. Wenn Ihre AGENTS.md vage ist, wird auch der Output Ihres Agenten vage sein. Investieren Sie in präzise, maschinenlesbare Dokumentation, die dem Agenten als "Ground Truth" dient.

4. Fehlende Feedbackschleife

Ein Harness ohne Feedback ist ein Käfig, kein Wegweiser. Der Agent muss wissen, wann er erfolgreich ist und wann er scheitert. Bauen Sie ein:

  • Selbstverifizierungsschritte vor dem Abschluss der Aufgabe
  • Testausführung als Teil des Agenten-Workflows
  • Metriken über die Erfolgsraten der Agenten nach Aufgabentyp

5. Rein menschliche Dokumentation

Wenn Ihre architektonischen Entscheidungen in den Köpfen der Leute oder auf Confluence-Seiten leben, auf die der Agent nicht zugreifen kann, hat der Harness eine Lücke. Alles, was der Agent benötigt, muss sich im Repository befinden.


Harness-Engineering vs. verwandte Konzepte

KonzeptUmfangFokus
Prompt-EngineeringEinzelne InteraktionErstellung effektiver Prompts
Context-EngineeringModell-KontextfensterWelche Informationen das Modell sieht
Harness-EngineeringGesamtes AgentensystemUmgebung, Einschränkungen, Feedback, Lebenszyklus
Agent-EngineeringAgenten-ArchitekturInternes Agenten-Design und Routing
Platform-EngineeringInfrastrukturBereitstellung, Skalierung, Betrieb

Harness-Engineering beinhaltet Context-Engineering und nutzt Erkenntnisse aus dem Prompt-Engineering, operiert aber auf einer höheren Ebene – es geht um das vollständige System, das Agenten zuverlässig macht, nicht nur um die Eingaben für eine einzelne Interaktion.


Was das für Softwareentwickler bedeutet

Das Berufsbild ändert sich

Harness-Engineering stellt eine echte Evolution in der Tätigkeit von Softwareentwicklern dar:

VorherNachher
Code schreibenUmgebungen entwerfen, in denen KI Code schreibt
Code debuggenAgentenverhalten debuggen
Code reviewenAgenten-Output + Harness-Effektivität reviewen
Tests schreibenTeststrategien entwerfen
Dokumentation pflegenDokumentation als maschinenlesbare Infrastruktur aufbauen

Dies bedeutet nicht, dass Ingenieure weniger technisch werden. Im Gegenteil, Harness-Engineering erfordert tieferes architektonisches Denken – Sie entwerfen Systeme, die ohne Ihr ständiges Eingreifen funktionieren müssen.

Die Fähigkeiten, auf die es ankommt

Basierend auf unseren Erfahrungen beim Aufbau von KI-gestützten Produkten bei NxCode:

  1. Systemdenken — Verstehen, wie Einschränkungen, Feedbackschleifen und Dokumentation interagieren
  2. Architektur-Design — Definieren von Grenzen, die durchsetzbar und produktiv sind
  3. Schreiben von Spezifikationen — Absichten so präzise formulieren, dass Agenten sie ausführen können
  4. Observability — Aufbau von Monitoring, das Agenten-Verhaltensmuster offenbart
  5. Iterationsgeschwindigkeit — Schnelles Testen und Verfeinern von Harness-Konfigurationen

Unsere Erfahrung: Was in der Praxis funktioniert

Wir haben KI-gestützte Webanwendungen mit verschiedenen Agentensystemen (Claude Code, Codex, Cursor) entwickelt. Die Muster, die für uns den größten Unterschied gemacht haben:

  • Repository-First-Dokumentation: Jede architektonische Entscheidung, Namenskonvention und jeder Deployment-Prozess steht im Repo. Nichts lebt in Slack oder Google Docs.
  • Inkrementeller Aufbau von Einschränkungen: Beginnen Sie mit einfachem Linting, fügen Sie architektonische Einschränkungen hinzu, wenn sich Muster abzeichnen, und versuchen Sie nicht, den perfekten Harness im Voraus zu entwerfen.
  • Agenten-spezifische Review-Checklisten: KI-generierter Code hat andere Fehlermuster als menschlicher Code. Unser Review-Prozess berücksichtigt häufige Agenten-Muster (Überabstraktion, unnötige Fehlerbehandlung, Dokumentations-Drift).
  • Multi-Provider-Harness-Design: Unser Harness funktioniert mit Claude-, GPT- und Gemini-Modellen. Provider-agnostisches Design bedeutet, dass wir Modelle wechseln können, ohne das gesamte System neu aufbauen zu müssen.

Wichtigste Erkenntnisse

  1. Harness-Engineering ist die neue Disziplin des Entwerfens von Systemen, die KI-Agenten zuverlässig machen – Einschränkungen, Feedbackschleifen, Dokumentation und Lebenszyklusmanagement.
  2. Das Modell ist Massenware; der Harness ist der Wettbewerbsvorteil — LangChain sprang in Benchmarks von den Top 30 in die Top 5, indem nur der Harness geändert wurde.
  3. OpenAI erstellte über 1 Mio. Zeilen ohne menschlichen Code — ein Beweis dafür, dass Harness-Engineering im Produktionsmaßstab funktioniert.
  4. Drei Säulen: Context-Engineering, architektonische Einschränkungen und Entropie-Management.
  5. Einfach anfangen: Eine gute AGENTS.md und Pre-commit Hooks sind wirkungsvoller als komplexe Middleware.
  6. Die Rolle des Ingenieurs entwickelt sich weiter — vom Schreiben von Code zum Entwerfen von Umgebungen, in denen KI Code schreibt.
  7. Modularität bewahren — Über-Engineering rächt sich, wenn Modelle besser werden; halten Sie das System anpassungsfähig.

Verwandte Ressourcen

Back to all news
Enjoyed this article?

Mit NxCode bauen

Verwandle deine Idee in eine funktionierende App — kein Programmieren nötig.

46.000+ Entwickler haben diesen Monat mit NxCode gebaut

Jetzt selbst ausprobieren

Beschreibe, was du willst — NxCode baut es für dich.

46.000+ Entwickler haben diesen Monat mit NxCode gebaut