Harness Engineering: O Guia Completo para Construir Sistemas que Fazem Agentes de IA Realmente Funcionarem (2026)
← Back to news

Harness Engineering: O Guia Completo para Construir Sistemas que Fazem Agentes de IA Realmente Funcionarem (2026)

N

NxCode Team

12 min read

Harness Engineering: O Guia Completo para Construir Sistemas que Fazem Agentes de IA Realmente Funcionarem

Março de 2026 — Se 2025 foi o ano em que os agentes de IA provaram que podiam escrever código, 2026 é o ano em que aprendemos que o agente não é a parte difícil — o harness (harness) é.

A equipe Codex da OpenAI acaba de construir uma aplicação de produção com mais de 1 milhão de linhas de código onde zero linhas foram escritas por mãos humanas. Os engenheiros não escreveram código. Eles projetaram o sistema que permitiu à IA escrever código de forma confiável. Esse sistema — as restrições, loops de feedback, documentação, linters e gestão de ciclo de vida — é o que a indústria agora chama de harness.

Harness engineering é a nova disciplina de projetar esses sistemas. E está mudando o que significa ser um engenheiro de software.


O Que É Harness Engineering?

A Metáfora do Cavalo

O termo "harness" vem da selaria de cavalos — rédeas, sela, freio — o conjunto completo de equipamentos para canalizar um animal poderoso, mas imprevisível, na direção certa. A metáfora é deliberada:

  • O cavalo é o modelo de IA — poderoso, rápido, mas não sabe para onde ir sozinho
  • O harness (arreio) é a infraestrutura — restrições, proteções, loops de feedback que canalizam o poder do modelo de forma produtiva
  • O cavaleiro é o engenheiro humano — fornecendo direção, não fazendo a corrida

Sem um harness, um agente de IA é um puro-sangue em um campo aberto. Rápido, impressionante e completamente inútil para realizar qualquer tarefa.

A Definição Formal

Harness engineering é o design e a implementação de sistemas que:

  1. Restringem o que um agente de IA pode fazer (limites arquiteturais, regras de dependência)
  2. Informam o agente sobre o que ele deve fazer (engenharia de contexto, documentação)
  3. Verificam se o agente o fez corretamente (testes, linting, validação de CI)
  4. Corrigem o agente quando ele erra (loops de feedback, mecanismos de autoreparação)

Martin Fowler descreve isso como "as ferramentas e práticas que podemos usar para manter os agentes de IA sob controle" — mas é mais do que apenas segurança. Um bom harness torna os agentes mais capazes, não apenas mais controlados.


Por Que a Harness Engineering Importa Agora

O Modelo é Commodity. O Harness é o Diferencial.

Aqui está a verdade desconfortável que a indústria de IA está enfrentando: o modelo subjacente importa menos do que o sistema ao seu redor.

A LangChain provou isso definitivamente. O agente de codificação deles passou de 52,8% para 66,5% no Terminal Bench 2.0 — saltando do Top 30 para o Top 5 — sem mudar nada no modelo. Eles apenas mudaram o harness:

MudançaO Que Eles FizeramImpacto
Loop de autoverificaçãoAdicionado middleware de checklist pré-conclusãoErros capturados antes da submissão
Engenharia de contextoMapeamento de estruturas de diretório na inicializaçãoO agente entendeu a base de código desde o início
Detecção de loopRastreamento de edições de arquivos repetidasEvitou "loops de perdição"
Sanduíche de raciocínioAlto raciocínio para planejamento/verificação, médio para implementaçãoMelhor qualidade dentro dos orçamentos de tempo

Mesmo modelo. Harness diferente. Resultados drasticamente melhores.

O Ponto de Prova de 1 Milhão de Linhas da OpenAI

O experimento da OpenAI é a evidência mais convincente até agora:

  • 5 meses de desenvolvimento
  • Mais de 1 milhão de linhas de código no produto final
  • Zero linhas escritas manualmente — cada linha foi produzida por agentes Codex
  • Construído em ~1/10 do tempo que levaria para humanos
  • O produto tem usuários internos diários e testadores alfa externos
  • Ele é enviado, implantado, quebra e é consertado — tudo por agentes dentro do harness

O trabalho dos engenheiros? Projetar o harness. Especificar a intenção. Fornecer feedback. Não escrever código.


Os Três Pilares da Harness Engineering

O framework da OpenAI organiza a harness engineering em três categorias principais:

1. Engenharia de Contexto

A engenharia de contexto trata de garantir que o agente tenha a informação certa no momento certo.

Contexto estático:

  • Documentação local do repositório (especificações de arquitetura, contratos de API, guias de estilo)
  • Arquivos AGENTS.md ou CLAUDE.md que codificam regras específicas do projeto
  • Documentos de design interligados validados por linters

Contexto dinâmico:

  • Dados de observabilidade (logs, métricas, rastreamentos) acessíveis aos agentes
  • Mapeamento da estrutura de diretórios na inicialização do agente
  • Status do pipeline de CI/CD e resultados de testes

A regra crítica: Do ponto de vista do agente, qualquer coisa que ele não possa acessar no contexto não existe. O conhecimento no Google Docs, threads do Slack ou na cabeça das pessoas é invisível para o sistema. O repositório deve ser a única fonte de verdade.

2. Restrições Arquiteturais

É aqui que a harness engineering diverge mais drasticamente do prompting tradicional de IA. Em vez de dizer ao agente "escreva um código bom", você impõe mecanicamente como deve ser um código bom.

Camadas de dependência:

Types → Config → Repo → Service → Runtime → UI

Cada camada só pode importar de camadas à sua esquerda. Isso não é uma sugestão — é imposto por testes estruturais e validação de CI.

Ferramentas de imposição de restrições:

  • Linters determinísticos — Regras personalizadas que sinalizam violações automaticamente
  • Auditores baseados em LLM — Agentes que revisam o código de outros agentes para conformidade arquitetural
  • Testes estruturais — Como o ArchUnit, mas para código gerado por IA
  • Hooks de pré-commit — Verificações automatizadas antes que qualquer código seja commitado

Por que as restrições melhoram o resultado: Paradoxalmente, restringir o espaço de solução torna os agentes mais produtivos, não menos. Quando um agente pode gerar qualquer coisa, ele desperdiça tokens explorando becos sem saída. Quando o harness define limites claros, o agente converge mais rápido para soluções corretas.

3. Gestão de Entropia ("Coleta de Lixo")

Este é o componente mais subestimado. Com o tempo, bases de código geradas por IA acumulam entropia — a documentação se desvia da realidade, as convenções de nomenclatura divergem, o código morto se acumula.

A harness engineering aborda isso com agentes de limpeza periódica:

  • Agentes de consistência de documentação — Verificam se os docs correspondem ao código atual
  • Scanners de violação de restrições — Encontram códigos que passaram por verificações anteriores
  • Agentes de imposição de padrões — Identificam e corrigem desvios de padrões estabelecidos
  • Auditores de dependência — Rastreiam e resolvem dependências circulares ou desnecessárias

Esses agentes rodam em cronogramas — diários, semanais ou acionados por eventos específicos — mantendo a saúde da base de código tanto para revisores humanos quanto para futuros agentes de IA.


Harness Engineering na Prática: Como as Equipes Realmente Fazem

A Abordagem da OpenAI: Zero Código Humano

Estrutura da equipe da OpenAI para harness engineering:

FunçãoTradicionalHarness Engineering
Escrever códigoTrabalho principalNunca
Projetar arquiteturaParte do trabalhoTrabalho principal
Escrever documentaçãoPensado depoisInfraestrutura crítica
Revisar PRsRevisão de códigoRevisar saída do agente + eficácia do harness
DepuraçãoLendo códigoAnalisando padrões de comportamento do agente
TestesEscrevendo testesProjetando estratégias de teste que os agentes executam

A Abordagem da Stripe: Minions em Escala

Os agentes de codificação internos da Stripe, chamados Minions, agora produzem mais de 1.000 pull requests mesclados por semana:

  1. O desenvolvedor posta uma tarefa no Slack
  2. O Minion escreve o código
  3. O Minion passa pelo CI
  4. O Minion abre um PR
  5. Um humano revisa e mescla

Nenhuma interação do desenvolvedor entre o passo 1 e o passo 5. O harness cuida de tudo — execução de testes, validação de CI, conformidade de estilo e atualizações de documentação.

A Abordagem da LangChain: Middleware em Primeiro Lugar

A LangChain estrutura seu harness como camadas de middleware combináveis:

Requisição do Agente
  → LocalContextMiddleware (mapeia a base de código)
  → LoopDetectionMiddleware (previne repetição)
  → ReasoningSandwichMiddleware (otimiza computação)
  → PreCompletionChecklistMiddleware (impõe verificação)
  → Resposta do Agente

Cada camada de middleware adiciona uma capacidade específica sem modificar a lógica central do agente. Essa abordagem modular torna o harness testável e evoluível.


Construindo Seu Primeiro Harness: Um Framework Prático

Nível 1: Harness Básico (Desenvolvedor Individual)

Se você está usando Claude Code, Cursor ou Codex para projetos individuais:

O que configurar:

  • Arquivo CLAUDE.md ou .cursorrules com convenções do projeto
  • Hooks de pré-commit para linting e formatação
  • Uma suíte de testes que o agente possa rodar para se autoverificar
  • Estrutura de diretórios clara com nomenclatura consistente

Tempo para configurar: 1-2 horas Impacto: Evita os erros mais comuns dos agentes

Nível 2: Harness de Equipe (Pequena Equipe)

Para equipes de 3 a 10 desenvolvedores compartilhando uma base de código:

Adicione ao Nível 1:

  • AGENTS.md com convenções de toda a equipe
  • Restrições arquiteturais impostas pelo CI
  • Templates de prompt compartilhados para tarefas comuns
  • Documentação como código validada por linters
  • Checklists de revisão de código especificamente para PRs gerados por agentes

Tempo para configurar: 1-2 dias Impacto: Comportamento consistente do agente em toda a equipe

Nível 3: Harness de Produção (Organização de Engenharia)

Para organizações que executam dezenas de agentes simultâneos:

Adicione ao Nível 2:

  • Camadas de middleware personalizadas (detecção de loop, otimização de raciocínio)
  • Integração de observabilidade (agentes leem logs e métricas)
  • Agentes de gestão de entropia em execuções agendadas
  • Versionamento de harness e testes A/B
  • Dashboards de monitoramento de desempenho do agente
  • Políticas de escalonamento para quando os agentes ficarem presos

Tempo para configurar: 1-2 semanas Impacto: Agentes operam como contribuidores autônomos


Erros Comuns em Harness Engineering

1. Superengenharia do Fluxo de Controle

"Se você fizer uma superengenharia no fluxo de controle, a próxima atualização do modelo quebrará seu sistema."

Os modelos melhoram rapidamente. Capacidades que exigiam pipelines complexos em 2024 são agora tratadas por um único prompt de janela de contexto. Construa seu harness para ser substituível — você deve ser capaz de remover a lógica "inteligente" quando o modelo ficar inteligente o suficiente para não precisar mais dela.

2. Tratar o Harness como Estático

O harness precisa evoluir com o modelo. Quando uma nova versão do modelo melhora o raciocínio, seu middleware de otimização de raciocínio pode se tornar contraproducente. Revise e atualize os componentes do harness a cada atualização importante do modelo.

3. Ignorar a Camada de Documentação

A melhoria mais impactante no harness é frequentemente a mais simples: melhor documentação. Se o seu AGENTS.md for vago, a saída do seu agente será vaga. Invista em documentação precisa e legível por máquina que sirva como a fonte da verdade para o agente.

4. Falta de Loop de Feedback

Um harness sem feedback é uma gaiola, não um guia. O agente precisa saber quando está tendo sucesso e quando está falhando. Construa:

  • Etapas de autoverificação antes da conclusão da tarefa
  • Execução de testes como parte do fluxo de trabalho do agente
  • Métricas sobre taxas de sucesso do agente por tipo de tarefa

5. Documentação Apenas para Humanos

Se suas decisões arquiteturais vivem na cabeça das pessoas ou em páginas do Confluence que o agente não pode acessar, o harness tem uma lacuna. Tudo o que o agente precisa deve estar no repositório.


Harness Engineering vs. Conceitos Relacionados

ConceitoEscopoFoco
Prompt EngineeringInteração únicaCriar prompts eficazes
Engenharia de ContextoJanela de contexto do modeloQuais informações o modelo vê
Harness EngineeringSistema de agente completoAmbiente, restrições, feedback, ciclo de vida
Engenharia de AgenteArquitetura do agenteDesign interno do agente e roteamento
Engenharia de PlataformaInfraestruturaImplantação, escalonamento, operações

A harness engineering inclui a engenharia de contexto e bebe da engenharia de prompt, mas opera em um nível superior — trata-se do sistema completo que torna os agentes confiáveis, não apenas as entradas para uma única interação.


O Que Isso Significa para Engenheiros de Software

O Trabalho Está Mudando

A harness engineering representa uma evolução genuína no que os engenheiros de software fazem:

AntesDepois
Escrever códigoProjetar ambientes onde a IA escreve código
Depurar códigoDepurar o comportamento do agente
Revisar códigoRevisar a saída do agente + eficácia do harness
Escrever testesProjetar estratégias de teste
Manter docsConstruir documentação como infraestrutura legível por máquina

Isso não significa que os engenheiros se tornem menos técnicos. Pelo contrário, a harness engineering exige um pensamento arquitetural mais profundo — você está projetando sistemas que devem funcionar sem sua intervenção constante.

As Habilidades que Importam

Com base no que vimos construindo produtos movidos a IA na NxCode:

  1. Pensamento sistêmico — Entender como restrições, loops de feedback e documentação interagem
  2. Design de arquitetura — Definir limites que sejam aplicáveis e produtivos
  3. Escrita de especificações — Articular a intenção com precisão suficiente para que os agentes executem
  4. Observabilidade — Construir monitoramento que revele padrões de comportamento do agente
  5. Velocidade de iteração — Testar e refinar rapidamente as configurações do harness

Nossa Experiência: O Que Funciona na Prática

Temos construído aplicações web movidas a IA usando múltiplos sistemas de agentes (Claude Code, Codex, Cursor). Os padrões que fizeram a maior diferença para nós:

  • Documentação focada no repositório: Cada decisão arquitetural, convenção de nomenclatura e processo de implantação está no repositório. Nada vive no Slack ou Google Docs.
  • Construção de restrições incrementais: Comece com linting básico, adicione restrições arquiteturais à medida que os padrões surgem, não tente projetar o harness perfeito logo de cara.
  • Checklists de revisão específicos para agentes: O código gerado por IA tem modos de falha diferentes do código humano. Nosso processo de revisão leva em conta padrões comuns de agentes (superabstração, tratamento de erros desnecessário, desvio de documentação).
  • Design de harness multi-provedor: Nosso harness funciona com modelos Claude, GPT e Gemini. O design agnóstico de provedor significa que podemos trocar de modelo sem reconstruir todo o sistema.

Principais Conclusões

  1. Harness engineering é a nova disciplina de projetar sistemas que tornam os agentes de IA confiáveis — restrições, loops de feedback, documentação e gestão de ciclo de vida.
  2. O modelo é commodity; o harness é o diferencial — A LangChain saltou do Top 30 para o Top 5 em benchmarks apenas mudando o harness.
  3. A OpenAI construiu mais de 1 milhão de linhas com zero código humano — provando que a harness engineering funciona em escala de produção.
  4. Três pilares: Engenharia de contexto, restrições arquiteturais e gestão de entropia.
  5. Comece simples: Um bom AGENTS.md e hooks de pré-commit são mais impactantes do que middlewares complexos.
  6. O trabalho do engenheiro está evoluindo — de escrever código para projetar ambientes onde a IA escreve código.
  7. Construa harnesses substituíveis — a superengenharia quebra quando os modelos melhoram; mantenha-o adaptável.

Recursos Relacionados

Back to all news
Enjoyed this article?

Construir com NxCode

Transforme sua ideia em um app funcional — sem programação.

Mais de 46.000 desenvolvedores construíram com NxCode neste mês

Experimente você mesmo

Descreva o que você quer — NxCode constrói para você.

Mais de 46.000 desenvolvedores construíram com NxCode neste mês