Harness Engineering: Den kompletta guiden till att bygga system som får AI-agenter att faktiskt fungera (2026)
← Back to news

Harness Engineering: Den kompletta guiden till att bygga system som får AI-agenter att faktiskt fungera (2026)

N

NxCode Team

10 min read

Harness Engineering: Den kompletta guiden till att bygga system som får AI-agenter att faktiskt fungera

Mars 2026 — Om 2025 var året då AI-agenter bevisade att de kunde skriva kod, är 2026 året då vi lärde oss att agenten inte är den svåra delen – seldonet (the harness) är det.

OpenAIs Codex-team byggde precis en produktionsapplikation med över 1 miljon rader kod där noll rader skrevs av mänskliga händer. Ingenjörerna skrev inte kod. De designade systemet som lät AI skriva kod pålitligt. Det systemet — begränsningarna, feedback-looparna, dokumentationen, linters och livscykelhanteringen — är vad branschen nu kallar ett harness (seldon).

Harness engineering är den nya disciplinen för att designa dessa system. Och det förändrar vad det innebär att vara en mjukvaruingenjör.


Vad är Harness Engineering?

Hästmetaforen

Termen "harness" kommer från hästutrustning — tyglar, sadel, bett — den kompletta uppsättningen utrustning för att kanalisera ett kraftfullt men oförutsägbart djur i rätt riktning. Metaforen är avsiktlig:

  • Hästen är AI-modellen — kraftfull, snabb, men den vet inte vart den ska på egen hand.
  • Seldonet (the harness) är infrastrukturen — begränsningar, skyddsräcken, feedback-loopar som kanaliserar modellens kraft produktivt.
  • Ryttaren är den mänskliga ingenjören — som ger riktning, men som inte sköter själva löpningen.

Utan ett seldon är en AI-agent som ett fullblod på ett öppet fält. Snabb, imponerande och helt oanvändbar för att få något gjort.

Den formella definitionen

Harness engineering är design och implementering av system som:

  1. Begränsar vad en AI-agent kan göra (arkitektoniska gränser, beroenderegler).
  2. Informerar agenten om vad den ska göra (context engineering, dokumentation).
  3. Verifierar att agenten gjorde det korrekt (testning, linting, CI-validering).
  4. Korrigerar agenten när den gör fel (feedback-loopar, självläkningsmekanismer).

Martin Fowler beskriver det som "de verktyg och metoder vi kan använda för att hålla AI-agenter i schack" — men det handlar om mer än bara säkerhet. Ett bra seldon gör agenter mer kapabla, inte bara mer kontrollerade.


Varför Harness Engineering är viktigt nu

Modellen är en dussinvara. Seldonet är vallgraven.

Här är den obekväma sanningen som AI-industrin nu står inför: den underliggande modellen betyder mindre än systemet runt den.

LangChain bevisade detta definitivt. Deras kodningsagent gick från 52,8 % till 66,5 % på Terminal Bench 2.0 — ett hopp från Topp 30 till Topp 5 — utan att ändra något i modellen. De ändrade bara seldonet:

FörändringVad de gjordeEffekt
SjälvverifieringsloopLade till middleware för checklistor före slutförandeFångade fel före inlämning
Context engineeringKartlade katalogstrukturer vid startAgenten förstod kodbasen från början
Loop-detekteringSpårade upprepade filredigeringarFörhindrade "doom loops"
ResonemangssandwichHögt resonemang för planering/verifiering, medium för implementeringBättre kvalitet inom tidsbudgetar

Samma modell. Annat seldon. Dramatiskt bättre resultat.

OpenAIs bevis på 1 miljon rader

OpenAIs experiment är det hittills mest övertygande beviset:

  • 5 månaders utveckling
  • 1 miljon+ rader kod i slutprodukten
  • Noll manuellt skrivna rader — varje rad producerades av Codex-agenter
  • Byggdes på ~1/10 av tiden det skulle ha tagit människor
  • Produkten har interna dagliga användare och externa alfa-testare
  • Den skeppas, distribueras, går sönder och lagas — allt av agenter inom seldonet

Ingenjörernas jobb? Att designa seldonet. Specificera avsikt. Ge feedback. Inte att skriva kod.


De tre pelarna i Harness Engineering

OpenAIs ramverk organiserar harness engineering i tre kärnkategorier:

1. Context Engineering

Context engineering handlar om att säkerställa att agenten har rätt information vid rätt tidpunkt.

Statisk kontext:

  • Dokumentation lokal i kodförrådet (arkitekturspecifikationer, API-kontrakt, stilguider).
  • AGENTS.md eller CLAUDE.md-filer som kodar projektspecifika regler.
  • Korslänkade designdokument validerade av linters.

Dynamisk kontext:

  • Observerbarhetsdata (loggar, mätvärden, spårningar) tillgängliga för agenter.
  • Kartläggning av katalogstruktur vid agentstart.
  • CI/CD-pipelinestatus och testresultat.

Den kritiska regeln: Ur agentens perspektiv existerar inget som den inte kan komma åt i sin kontext. Kunskap i Google Docs, Slack-trådar eller människors huvuden är osynlig för systemet. Kodförrådet (the repository) måste vara den enda källan till sanning.

2. Arkitektoniska begränsningar

Det är här harness engineering skiljer sig mest markant från traditionell AI-prompting. Istället för att säga till agenten "skriv bra kod", tvingar du mekaniskt fram hur bra kod ser ut.

Beroendelager:

Types → Config → Repo → Service → Runtime → UI

Varje lager kan bara importera från lager till vänster om sig. Detta är inte ett förslag — det upprätthålls genom strukturella tester och CI-validering.

Verktyg för att upprätthålla begränsningar:

  • Deterministiska linters — Anpassade regler som flaggar överträdelser automatiskt.
  • LLM-baserade granskare — Agenter som granskar andra agenters kod för arkitektonisk efterlevnad.
  • Strukturella tester — Som ArchUnit, men för AI-genererad kod.
  • Pre-commit hooks — Automatiserade kontroller innan någon kod checkas in.

Varför begränsningar förbättrar resultatet: Paradoxalt nog gör begränsningar av lösningsutrymmet agenter mer produktiva, inte mindre. När en agent kan generera vad som helst, slösar den tokens på att utforska återvändsgränder. När seldonet definierar tydliga gränser, konvergerar agenten snabbare mot korrekta lösningar.

3. Entropihantering ("Garbage Collection")

Detta är den mest underskattade komponenten. Över tid ackumulerar AI-genererade kodbaser entropi — dokumentation glider ifrån verkligheten, namnkonventioner går isär, död kod samlas på hög.

Harness engineering hanterar detta med periodiska städningsagenter:

  • Agenter för dokumentationskonsistens — Verifierar att dokument matchar nuvarande kod.
  • Skannrar för regelöverträdelser — Hittar kod som sluppit förbi tidigare kontroller.
  • Mönsterupprätthållande agenter — Identifierar och fixar avvikelser från etablerade mönster.
  • Beroendegranskare — Spårar och löser cirkulära eller onödiga beroenden.

Dessa agenter körs enligt scheman — dagligen, veckovis eller utlösta av specifika händelser — vilket håller kodbasen hälsosam för både mänskliga granskare och framtida AI-agenter.


Harness Engineering i praktiken: Hur team faktiskt gör det

OpenAIs metod: Noll mänsklig kod

OpenAIs teamstruktur för harness engineering:

RollTraditionellHarness Engineering
Skriva kodPrimärt jobbAldrig
Designa arkitekturEn del av jobbetPrimärt jobb
Skriva dokumentationEftertankeKritisk infrastruktur
Granska PR:erKodgranskningGranska agenters output + seldonets effektivitet
FelsökningLäsa kodAnalysera agenters beteendemönster
TestningSkriva testerDesigna teststrategier som agenter utför

Stripes metod: Minions i stor skala

Stripes interna kodningsagenter, kallade Minions, producerar nu över 1 000 godkända pull requests per vecka:

  1. Utvecklaren postar en uppgift i Slack.
  2. En Minion skriver koden.
  3. Minionen passerar CI.
  4. Minionen öppnar en PR.
  5. En människa granskar och mergar.

Ingen utvecklarinteraktion mellan steg 1 och steg 5. Seldonet hanterar allt — testkörning, CI-validering, stilregler och dokumentationsuppdateringar.

LangChains metod: Middleware-först

LangChain strukturerar sitt seldon som komponerbara middleware-lager:

Agent Request
  → LocalContextMiddleware (kartlägger kodbasen)
  → LoopDetectionMiddleware (förhindrar upprepning)
  → ReasoningSandwichMiddleware (optimerar beräkning)
  → PreCompletionChecklistMiddleware (tvingar fram verifiering)
  → Agent Response

Varje middleware-lager lägger till en specifik förmåga utan att modifiera den centrala agentlogiken. Detta modulära tillvägagångssätt gör seldonet testbart och utvecklingsbart.


Bygg ditt första seldon: Ett praktiskt ramverk

Nivå 1: Grundläggande seldon (Enskild utvecklare)

Om du använder Claude Code, Cursor eller Codex för individuella projekt:

Vad du ska sätta upp:

  • En CLAUDE.md eller .cursorrules-fil med projektkonventioner.
  • Pre-commit hooks för linting och formatering.
  • En testsvit som agenten kan köra för att självverifiera.
  • Tydlig katalogstruktur med konsekvent namngivning.

Tid att sätta upp: 1–2 timmar Effekt: Förhindrar de vanligaste agentfelen.

Nivå 2: Team-seldon (Litet team)

För team med 3–10 utvecklare som delar en kodbas:

Lägg till i Nivå 1:

  • AGENTS.md med team-gemensamma konventioner.
  • Arkitektoniska begränsningar som upprätthålls av CI.
  • Delade prompt-mallar för vanliga uppgifter.
  • Dokumentation-som-kod validerad av linters.
  • Checklistor för kodgranskning specifikt för agentgenererade PR:er.

Tid att sätta upp: 1–2 dagar Effekt: Konsekvent agentbeteende över hela teamet.

Nivå 3: Produktions-seldon (Ingenjörsorganisation)

För organisationer som kör dussintals agenter samtidigt:

Lägg till i Nivå 2:

  • Anpassade middleware-lager (loop-detektering, resonemangsoptimering).
  • Integration av observerbarhet (agenter läser loggar och mätvärden).
  • Agenter för entropihantering på schemalagda körningar.
  • Versionering av seldonet och A/B-testning.
  • Dashboards för övervakning av agentprestanda.
  • Eskaleringspolicyer för när agenter kör fast.

Tid att sätta upp: 1–2 veckor Effekt: Agenter fungerar som autonoma bidragsgivare.


Vanliga misstag inom Harness Engineering

1. Överkonstruktion av kontrollflödet

"Om du överkonstruerar kontrollflödet kommer nästa modelluppdatering att förstöra ditt system."

Modeller förbättras snabbt. Förmågor som krävde komplexa pipelines 2024 hanteras nu av en enda prompt i kontextfönstret. Bygg ditt seldon för att vara utbytbart — du ska kunna ta bort "smart" logik när modellen blir tillräckligt smart för att inte behöva den.

2. Att behandla seldonet som statiskt

Seldonet måste utvecklas tillsammans med modellen. När en ny modellrelease förbättrar resonemangsförmågan, kan ditt middleware för resonemangsoptimering bli kontraproduktivt. Granska och uppdatera seldonets komponenter vid varje större modelluppdatering.

3. Ignorera dokumentationslagret

Den mest effektfulla förbättringen av ett seldon är ofta den enklaste: bättre dokumentation. Om din AGENTS.md är vag, kommer agentens output att vara vag. Investera i exakt, maskinläsbar dokumentation som fungerar som agentens absoluta sanning.

4. Ingen feedback-loop

Ett seldon utan feedback är en bur, inte en guide. Agenten behöver veta när den lyckas och när den misslyckas. Bygg in:

  • Självverifieringssteg före slutförande av uppgift.
  • Testkörning som en del av agentens arbetsflöde.
  • Mätvärden på agentens framgångsgrad per uppgiftstyp.

5. Dokumentation endast för människor

Om dina arkitektoniska beslut bara finns i människors huvuden eller på Confluence-sidor som agenten inte kan komma åt, har seldonet ett glapp. Allt agenten behöver måste finnas i kodförrådet.


Harness Engineering vs. relaterade koncept

KonceptOmfattningFokus
Prompt EngineeringEnstaka interaktionSkapa effektiva instruktioner
Context EngineeringModellens kontextfönsterVilken information modellen ser
Harness EngineeringHela agentsystemetMiljö, begränsningar, feedback, livscykel
Agent EngineeringAgentarkitekturIntern agentdesign och routing
Platform EngineeringInfrastrukturDistribution, skalning, drift

Harness engineering inkluderar context engineering och hämtar element från prompt engineering, men det verkar på en högre nivå — det handlar om det kompletta systemet som gör agenter pålitliga, inte bara indata till en enskild interaktion.


Vad detta innebär för mjukvaruingenjörer

Yrket förändras

Harness engineering representerar en genuin utveckling av vad mjukvaruingenjörer gör:

FörrNu
Skriva kodDesigna miljöer där AI skriver kod
Felsöka kodFelsöka agenters beteende
Granska kodGranska agenters output + seldonets effektivitet
Skriva testerDesigna teststrategier
Underhålla dokumentationBygga dokumentation som maskinläsbar infrastruktur

Detta betyder inte att ingenjörer blir mindre tekniska. Om något kräver harness engineering djupare arkitektoniskt tänkande — du designar system som måste fungera utan din ständiga inblandning.

Färdigheter som räknas

Baserat på vad vi har sett när vi bygger AI-drivna produkter på NxCode:

  1. Systemtänkande — Förstå hur begränsningar, feedback-loopar och dokumentation samverkar.
  2. Arkitekturdesign — Definiera gränser som är genomförbara och produktiva.
  3. Skrivande av specifikationer — Formulera avsikter tillräckligt exakt för att agenter ska kunna utföra dem.
  4. Observerbarhet — Bygga övervakning som avslöjar agenters beteendemönster.
  5. Iterationshastighet — Snabbt testa och förfina seldonets konfigurationer.

Vår erfarenhet: Vad som fungerar i praktiken

Vi har byggt AI-drivna webbapplikationer med hjälp av flera agentsystem (Claude Code, Codex, Cursor). De mönster som har gjort störst skillnad för oss är:

  • Kodförråds-först dokumentation: Varje arkitektoniskt beslut, namnkonvention och distributionsprocess finns i repot. Inget lever i Slack eller Google Docs.
  • Inkrementellt byggande av begränsningar: Börja med grundläggande linting, lägg till arkitektoniska begränsningar när mönster dyker upp, försök inte designa det perfekta seldonet från början.
  • Agentspecifika checklistor för granskning: AI-genererad kod har andra feltyper än mänsklig kod. Vår granskningsprocess tar hänsyn till vanliga agentmönster (överabstraktion, onödig felhantering, dokumentationsglidning).
  • Design av seldon för flera leverantörer: Vårt seldon fungerar med Claude-, GPT- och Gemini-modeller. En leverantörsoberoende design innebär att vi kan byta modeller utan att bygga om hela systemet.

Sammanfattning

  1. Harness engineering är den nya disciplinen för att designa system som gör AI-agenter pålitliga — begränsningar, feedback-loopar, dokumentation och livscykelhantering.
  2. Modellen är en dussinvara; seldonet är vallgraven — LangChain hoppade från Topp 30 till Topp 5 på benchmarks enbart genom att ändra seldonet.
  3. OpenAI byggde 1M+ rader utan mänsklig kod — vilket bevisar att harness engineering fungerar i produktionsskala.
  4. Tre pelare: Context engineering, arkitektoniska begränsningar och entropihantering.
  5. Börja enkelt: En bra AGENTS.md och pre-commit hooks gör mer nytta än komplext middleware.
  6. Ingenjörens jobb utvecklas — från att skriva kod till att designa miljöer där AI skriver kod.
  7. Bygg utbytbara seldon — överkonstruktion blir ett hinder när modeller förbättras; håll det anpassningsbart.

Relaterade resurser

Back to all news
Enjoyed this article?

Bygg med NxCode

Förvandla din idé till en fungerande app — ingen kodning krävs.

46 000+ utvecklare byggde med NxCode den här månaden

Prova själv

Beskriv vad du vill — NxCode bygger det åt dig.

46 000+ utvecklare byggde med NxCode den här månaden