Hur skiljer sig harness engineering från context engineering?

Context engineering fokuserar på vilken information du matar in i AI-modellens kontextfönster — systeminstruktioner, hämtade dokument, konversationshistorik. Harness engineering är bredare: det inkluderar context engineering plus arkitektoniska begränsningar, feedback-loopar, CI/CD-integration, linting-regler och livscykelhantering. Context engineering är en komponent i seldonet (the harness); seldonet är det kompletta systemet.

Vilka är de tre komponenterna i harness engineering?

Enligt OpenAIs ramverk har harness engineering tre kärnkomponenter: (1) Context Engineering — förbättrade kunskapsbaser och dynamisk tillgång till observerbarhetsdata, (2) Arkitektoniska begränsningar — deterministiska linters och LLM-baserade agenter som upprätthåller strukturella regler, och (3) Entropihantering — periodiska 'garbage collection'-agenter som hittar inkonsekvenser, dokumentationsavvikelser och regelöverträdelser.

Förbättrar harness engineering faktiskt AI-agenters prestanda?

Ja. LangChains kodningsagent förbättrades från 52,8 % till 66,5 % på Terminal Bench 2.0 — vilket innebar ett hopp från Topp 30 till Topp 5 — enbart genom att ändra seldonet (the harness), inte den underliggande modellen. OpenAIs team byggde en produkt på över 1 miljon rader på 1/10 av tiden det skulle ha tagit manuellt. Bevisen visar att optimering av seldonet betyder mer än optimering av modellen.

Behöver jag harness engineering för mitt projekt?

Om du använder AI-agenter för något utöver redigering av enstaka filer — flerstegsarbetsflöden, autonom kodning, testgenerering eller CI-integrerad utveckling — behöver du någon form av harness engineering. Seldonets komplexitet bör matcha uppgiftens komplexitet. Enkla projekt behöver enkla seldon; produktionssystem behöver omfattande sådana.

Vilka verktyg stöder harness engineering?

Viktiga verktyg inkluderar: OpenAI Codex (inbyggd harness-arkitektur), Claude Code (CLAUDE.md och hooks-system), Cursor (regler och .cursorrules-filer), LangChain/LangGraph (middleware och verktygskonfiguration), och anpassade implementeringar som använder AGENTS.md-filer. Ekosystemet utvecklas snabbt i takt med att harness engineering blir en erkänd disciplin.

Harness Engineering: Den kompletta guiden till att bygga system som får AI-agenter att faktiskt fungera

Q: Vad är harness engineering?

Harness engineering är disciplinen att utforma den infrastruktur, de begränsningar och de feedback-loopar som omger AI-agenter för att göra dem pålitliga i stor skala. Istället för att skriva kod direkt, designar ingenjörer miljöer där AI-agenter skriver kod inom noggrant definierade ramar. Termen populariserades av OpenAIs Codex-team i februari 2026 efter att ha byggt en applikation med över 1 miljon rader kod utan någon mänskligt skriven kod.

Mars 2026 — Om 2025 var året då AI-agenter bevisade att de kunde skriva kod, är 2026 året då vi lärde oss att agenten inte är den svåra delen – seldonet (the harness) är det.

OpenAIs Codex-team byggde precis en produktionsapplikation med över 1 miljon rader kod där noll rader skrevs av mänskliga händer. Ingenjörerna skrev inte kod. De designade systemet som lät AI skriva kod pålitligt. Det systemet — begränsningarna, feedback-looparna, dokumentationen, linters och livscykelhanteringen — är vad branschen nu kallar ett harness (seldon).

Harness engineering är den nya disciplinen för att designa dessa system. Och det förändrar vad det innebär att vara en mjukvaruingenjör.

Vad är Harness Engineering?

Hästmetaforen

Termen "harness" kommer från hästutrustning — tyglar, sadel, bett — den kompletta uppsättningen utrustning för att kanalisera ett kraftfullt men oförutsägbart djur i rätt riktning. Metaforen är avsiktlig:

Hästen är AI-modellen — kraftfull, snabb, men den vet inte vart den ska på egen hand.
Seldonet (the harness) är infrastrukturen — begränsningar, skyddsräcken, feedback-loopar som kanaliserar modellens kraft produktivt.
Ryttaren är den mänskliga ingenjören — som ger riktning, men som inte sköter själva löpningen.

Utan ett seldon är en AI-agent som ett fullblod på ett öppet fält. Snabb, imponerande och helt oanvändbar för att få något gjort.

Den formella definitionen

Harness engineering är design och implementering av system som:

Begränsar vad en AI-agent kan göra (arkitektoniska gränser, beroenderegler).
Informerar agenten om vad den ska göra (context engineering, dokumentation).
Verifierar att agenten gjorde det korrekt (testning, linting, CI-validering).
Korrigerar agenten när den gör fel (feedback-loopar, självläkningsmekanismer).

Martin Fowler beskriver det som "de verktyg och metoder vi kan använda för att hålla AI-agenter i schack" — men det handlar om mer än bara säkerhet. Ett bra seldon gör agenter mer kapabla, inte bara mer kontrollerade.

Varför Harness Engineering är viktigt nu

Modellen är en dussinvara. Seldonet är vallgraven.

Här är den obekväma sanningen som AI-industrin nu står inför: den underliggande modellen betyder mindre än systemet runt den.

LangChain bevisade detta definitivt. Deras kodningsagent gick från 52,8 % till 66,5 % på Terminal Bench 2.0 — ett hopp från Topp 30 till Topp 5 — utan att ändra något i modellen. De ändrade bara seldonet:

Förändring	Vad de gjorde	Effekt
Självverifieringsloop	Lade till middleware för checklistor före slutförande	Fångade fel före inlämning
Context engineering	Kartlade katalogstrukturer vid start	Agenten förstod kodbasen från början
Loop-detektering	Spårade upprepade filredigeringar	Förhindrade "doom loops"
Resonemangssandwich	Högt resonemang för planering/verifiering, medium för implementering	Bättre kvalitet inom tidsbudgetar

Samma modell. Annat seldon. Dramatiskt bättre resultat.

OpenAIs bevis på 1 miljon rader

OpenAIs experiment är det hittills mest övertygande beviset:

5 månaders utveckling
1 miljon+ rader kod i slutprodukten
Noll manuellt skrivna rader — varje rad producerades av Codex-agenter
Byggdes på ~1/10 av tiden det skulle ha tagit människor
Produkten har interna dagliga användare och externa alfa-testare
Den skeppas, distribueras, går sönder och lagas — allt av agenter inom seldonet

Ingenjörernas jobb? Att designa seldonet. Specificera avsikt. Ge feedback. Inte att skriva kod.

De tre pelarna i Harness Engineering

OpenAIs ramverk organiserar harness engineering i tre kärnkategorier:

1. Context Engineering

Context engineering handlar om att säkerställa att agenten har rätt information vid rätt tidpunkt.

Statisk kontext:

Dokumentation lokal i kodförrådet (arkitekturspecifikationer, API-kontrakt, stilguider).
AGENTS.md eller CLAUDE.md-filer som kodar projektspecifika regler.
Korslänkade designdokument validerade av linters.

Dynamisk kontext:

Observerbarhetsdata (loggar, mätvärden, spårningar) tillgängliga för agenter.
Kartläggning av katalogstruktur vid agentstart.
CI/CD-pipelinestatus och testresultat.

Den kritiska regeln: Ur agentens perspektiv existerar inget som den inte kan komma åt i sin kontext. Kunskap i Google Docs, Slack-trådar eller människors huvuden är osynlig för systemet. Kodförrådet (the repository) måste vara den enda källan till sanning.

2. Arkitektoniska begränsningar

Det är här harness engineering skiljer sig mest markant från traditionell AI-prompting. Istället för att säga till agenten "skriv bra kod", tvingar du mekaniskt fram hur bra kod ser ut.

Beroendelager:

Types → Config → Repo → Service → Runtime → UI

Varje lager kan bara importera från lager till vänster om sig. Detta är inte ett förslag — det upprätthålls genom strukturella tester och CI-validering.

Verktyg för att upprätthålla begränsningar:

Deterministiska linters — Anpassade regler som flaggar överträdelser automatiskt.
LLM-baserade granskare — Agenter som granskar andra agenters kod för arkitektonisk efterlevnad.
Strukturella tester — Som ArchUnit, men för AI-genererad kod.
Pre-commit hooks — Automatiserade kontroller innan någon kod checkas in.

Varför begränsningar förbättrar resultatet: Paradoxalt nog gör begränsningar av lösningsutrymmet agenter mer produktiva, inte mindre. När en agent kan generera vad som helst, slösar den tokens på att utforska återvändsgränder. När seldonet definierar tydliga gränser, konvergerar agenten snabbare mot korrekta lösningar.

3. Entropihantering ("Garbage Collection")

Detta är den mest underskattade komponenten. Över tid ackumulerar AI-genererade kodbaser entropi — dokumentation glider ifrån verkligheten, namnkonventioner går isär, död kod samlas på hög.

Harness engineering hanterar detta med periodiska städningsagenter:

Agenter för dokumentationskonsistens — Verifierar att dokument matchar nuvarande kod.
Skannrar för regelöverträdelser — Hittar kod som sluppit förbi tidigare kontroller.
Mönsterupprätthållande agenter — Identifierar och fixar avvikelser från etablerade mönster.
Beroendegranskare — Spårar och löser cirkulära eller onödiga beroenden.

Dessa agenter körs enligt scheman — dagligen, veckovis eller utlösta av specifika händelser — vilket håller kodbasen hälsosam för både mänskliga granskare och framtida AI-agenter.

Harness Engineering i praktiken: Hur team faktiskt gör det

OpenAIs metod: Noll mänsklig kod

OpenAIs teamstruktur för harness engineering:

Roll	Traditionell	Harness Engineering
Skriva kod	Primärt jobb	Aldrig
Designa arkitektur	En del av jobbet	Primärt jobb
Skriva dokumentation	Eftertanke	Kritisk infrastruktur
Granska PR:er	Kodgranskning	Granska agenters output + seldonets effektivitet
Felsökning	Läsa kod	Analysera agenters beteendemönster
Testning	Skriva tester	Designa teststrategier som agenter utför

Stripes metod: Minions i stor skala

Stripes interna kodningsagenter, kallade Minions, producerar nu över 1 000 godkända pull requests per vecka:

Utvecklaren postar en uppgift i Slack.
En Minion skriver koden.
Minionen passerar CI.
Minionen öppnar en PR.
En människa granskar och mergar.

Ingen utvecklarinteraktion mellan steg 1 och steg 5. Seldonet hanterar allt — testkörning, CI-validering, stilregler och dokumentationsuppdateringar.

LangChains metod: Middleware-först

LangChain strukturerar sitt seldon som komponerbara middleware-lager:

Agent Request
  → LocalContextMiddleware (kartlägger kodbasen)
  → LoopDetectionMiddleware (förhindrar upprepning)
  → ReasoningSandwichMiddleware (optimerar beräkning)
  → PreCompletionChecklistMiddleware (tvingar fram verifiering)
  → Agent Response

Varje middleware-lager lägger till en specifik förmåga utan att modifiera den centrala agentlogiken. Detta modulära tillvägagångssätt gör seldonet testbart och utvecklingsbart.

Bygg ditt första seldon: Ett praktiskt ramverk

Nivå 1: Grundläggande seldon (Enskild utvecklare)

Om du använder Claude Code, Cursor eller Codex för individuella projekt:

Vad du ska sätta upp:

En CLAUDE.md eller .cursorrules-fil med projektkonventioner.
Pre-commit hooks för linting och formatering.
En testsvit som agenten kan köra för att självverifiera.
Tydlig katalogstruktur med konsekvent namngivning.

Tid att sätta upp: 1–2 timmar Effekt: Förhindrar de vanligaste agentfelen.

Nivå 2: Team-seldon (Litet team)

För team med 3–10 utvecklare som delar en kodbas:

Lägg till i Nivå 1:

AGENTS.md med team-gemensamma konventioner.
Arkitektoniska begränsningar som upprätthålls av CI.
Delade prompt-mallar för vanliga uppgifter.
Dokumentation-som-kod validerad av linters.
Checklistor för kodgranskning specifikt för agentgenererade PR:er.

Tid att sätta upp: 1–2 dagar Effekt: Konsekvent agentbeteende över hela teamet.

Nivå 3: Produktions-seldon (Ingenjörsorganisation)

För organisationer som kör dussintals agenter samtidigt:

Lägg till i Nivå 2:

Anpassade middleware-lager (loop-detektering, resonemangsoptimering).
Integration av observerbarhet (agenter läser loggar och mätvärden).
Agenter för entropihantering på schemalagda körningar.
Versionering av seldonet och A/B-testning.
Dashboards för övervakning av agentprestanda.
Eskaleringspolicyer för när agenter kör fast.

Tid att sätta upp: 1–2 veckor Effekt: Agenter fungerar som autonoma bidragsgivare.

Vanliga misstag inom Harness Engineering

1. Överkonstruktion av kontrollflödet

"Om du överkonstruerar kontrollflödet kommer nästa modelluppdatering att förstöra ditt system."

Modeller förbättras snabbt. Förmågor som krävde komplexa pipelines 2024 hanteras nu av en enda prompt i kontextfönstret. Bygg ditt seldon för att vara utbytbart — du ska kunna ta bort "smart" logik när modellen blir tillräckligt smart för att inte behöva den.

2. Att behandla seldonet som statiskt

Seldonet måste utvecklas tillsammans med modellen. När en ny modellrelease förbättrar resonemangsförmågan, kan ditt middleware för resonemangsoptimering bli kontraproduktivt. Granska och uppdatera seldonets komponenter vid varje större modelluppdatering.

3. Ignorera dokumentationslagret

Den mest effektfulla förbättringen av ett seldon är ofta den enklaste: bättre dokumentation. Om din AGENTS.md är vag, kommer agentens output att vara vag. Investera i exakt, maskinläsbar dokumentation som fungerar som agentens absoluta sanning.

4. Ingen feedback-loop

Ett seldon utan feedback är en bur, inte en guide. Agenten behöver veta när den lyckas och när den misslyckas. Bygg in:

Självverifieringssteg före slutförande av uppgift.
Testkörning som en del av agentens arbetsflöde.
Mätvärden på agentens framgångsgrad per uppgiftstyp.

5. Dokumentation endast för människor

Om dina arkitektoniska beslut bara finns i människors huvuden eller på Confluence-sidor som agenten inte kan komma åt, har seldonet ett glapp. Allt agenten behöver måste finnas i kodförrådet.

Harness Engineering vs. relaterade koncept

Koncept	Omfattning	Fokus
Prompt Engineering	Enstaka interaktion	Skapa effektiva instruktioner
Context Engineering	Modellens kontextfönster	Vilken information modellen ser
Harness Engineering	Hela agentsystemet	Miljö, begränsningar, feedback, livscykel
Agent Engineering	Agentarkitektur	Intern agentdesign och routing
Platform Engineering	Infrastruktur	Distribution, skalning, drift

Harness engineering inkluderar context engineering och hämtar element från prompt engineering, men det verkar på en högre nivå — det handlar om det kompletta systemet som gör agenter pålitliga, inte bara indata till en enskild interaktion.

Vad detta innebär för mjukvaruingenjörer

Yrket förändras

Harness engineering representerar en genuin utveckling av vad mjukvaruingenjörer gör:

Förr	Nu
Skriva kod	Designa miljöer där AI skriver kod
Felsöka kod	Felsöka agenters beteende
Granska kod	Granska agenters output + seldonets effektivitet
Skriva tester	Designa teststrategier
Underhålla dokumentation	Bygga dokumentation som maskinläsbar infrastruktur

Detta betyder inte att ingenjörer blir mindre tekniska. Om något kräver harness engineering djupare arkitektoniskt tänkande — du designar system som måste fungera utan din ständiga inblandning.

Färdigheter som räknas

Baserat på vad vi har sett när vi bygger AI-drivna produkter på NxCode:

Systemtänkande — Förstå hur begränsningar, feedback-loopar och dokumentation samverkar.
Arkitekturdesign — Definiera gränser som är genomförbara och produktiva.
Skrivande av specifikationer — Formulera avsikter tillräckligt exakt för att agenter ska kunna utföra dem.
Observerbarhet — Bygga övervakning som avslöjar agenters beteendemönster.
Iterationshastighet — Snabbt testa och förfina seldonets konfigurationer.

Vår erfarenhet: Vad som fungerar i praktiken

Vi har byggt AI-drivna webbapplikationer med hjälp av flera agentsystem (Claude Code, Codex, Cursor). De mönster som har gjort störst skillnad för oss är:

Kodförråds-först dokumentation: Varje arkitektoniskt beslut, namnkonvention och distributionsprocess finns i repot. Inget lever i Slack eller Google Docs.
Inkrementellt byggande av begränsningar: Börja med grundläggande linting, lägg till arkitektoniska begränsningar när mönster dyker upp, försök inte designa det perfekta seldonet från början.
Agentspecifika checklistor för granskning: AI-genererad kod har andra feltyper än mänsklig kod. Vår granskningsprocess tar hänsyn till vanliga agentmönster (överabstraktion, onödig felhantering, dokumentationsglidning).
Design av seldon för flera leverantörer: Vårt seldon fungerar med Claude-, GPT- och Gemini-modeller. En leverantörsoberoende design innebär att vi kan byta modeller utan att bygga om hela systemet.

Sammanfattning

Harness engineering är den nya disciplinen för att designa system som gör AI-agenter pålitliga — begränsningar, feedback-loopar, dokumentation och livscykelhantering.
Modellen är en dussinvara; seldonet är vallgraven — LangChain hoppade från Topp 30 till Topp 5 på benchmarks enbart genom att ändra seldonet.
OpenAI byggde 1M+ rader utan mänsklig kod — vilket bevisar att harness engineering fungerar i produktionsskala.
Tre pelare: Context engineering, arkitektoniska begränsningar och entropihantering.
Börja enkelt: En bra AGENTS.md och pre-commit hooks gör mer nytta än komplext middleware.
Ingenjörens jobb utvecklas — från att skriva kod till att designa miljöer där AI skriver kod.
Bygg utbytbara seldon — överkonstruktion blir ett hinder när modeller förbättras; håll det anpassningsbart.

Relaterade resurser

The Agentic Web förklarat: AGENTS.md, MCP vs A2A — Det protokollager som harness engineering bygger på.
Cursor Cloud Agents: Autonom kodning på virtuella maskiner — Molnbaserade agent-seldon i praktiken.
Claude Code Remote Control: Guide för terminal-överlämning — Hantering av agentsessioner på distans.
Bygg din webbplats med NxCode — AI-driven webbutveckling med harness-arkitektur för flera leverantörer.

Harness Engineering: Den kompletta guiden till att bygga system som får AI-agenter att faktiskt fungera (2026)