MirrorCode i długohoryzontowe agenty kodujące AI: co zespoły powinny zmienić

MirrorCode od Epoch AI i METR przybliża ocenę agentów kodujących do prawdziwej pracy programistycznej. Nie chodzi o małą poprawkę błędu, lecz o odbudowanie pełnych programów na podstawie specyfikacji. Jeden głośny przykład kosztował około 2600 dolarów za pojedyncze uruchomienie i trwał 19 dni.

To nie znaczy, że zespół powinien zostawiać agenta bez nadzoru na tygodnie. To znaczy, że krótkie i tanie benchmarki nie wystarczają do oceny realnych możliwości inżynierskich.

Zbuduj benchmark z własnych zadań

Wybierz 20-50 prawdziwych, już zakończonych zadań: bug fixy, testy, małe funkcje, aktualizacje zależności, migracje i dokumentację. Każde zadanie powinno mieć cel, kryteria akceptacji, ograniczenia i komendy walidacyjne.

Porównaj Codex, Claude Code, Cursor, Copilot Agents, workflow NxCode albo wewnętrzny harness na tych samych zadaniach. Mierz nie tylko sukces, ale też czas, koszt tokenów, tool calls, zmienione pliki, testy, nieudane próby i koszt review.

Długie zadania wymagają budżetu

Przykład za 2600 dolarów pokazuje koszt. Agent zużywa tokeny, CI, zewnętrzne API, środowiska cloud i czas ludzi. Prosty bug może mieć 10 minut. Migracja może mieć więcej, ale wymaga planu, zgody i checkpointów.

Podziel większą pracę na explore, plan, implement, verify. Każda faza powinna zostawić dowody: pliki, ryzyka, plan, diff i wyniki testów. Pull request agenta bez dowodów nie powinien być merge'owany.

Harness ważniejszy niż prompt

Prompty nadal pomagają, ale długie zadania zależą od harnessu. Harness decyduje, jaki kontekst widzi agent, jakich narzędzi używa, kiedy potrzebna jest akceptacja, jak obsłużyć błędy i kiedy zakończyć pracę.

Model routing też ma sens, ale dopiero w mierzalnym workflow. Decyzje architektoniczne mogą wymagać mocnego modelu, powtarzalne edycje tańszego, a podsumowania logów szybkiego. System musi jednak znać ryzyko danego kroku.

Ludzie zachowują odpowiedzialność

Ludzie powinni utrzymać definicję problemu, kryteria akceptacji, granice architektury, bezpieczeństwo, decyzje produktowe i ostateczną zgodę. Agenty mogą badać, implementować, testować i streszczać, ale nie powinny zmieniać celu ani wdrażać bez review.

Lekcja z MirrorCode jest prosta: AI coding staje się kontrolowaną delegacją inżynierską. Potrzebne są task suites, budżety, logi, walidacja i poważne review.

NxCode

MirrorCode i długohoryzontowe agenty kodujące AI: co zespoły powinny zmienić

MirrorCode i długohoryzontowe agenty kodujące AI: co zespoły powinny zmienić

Zbuduj benchmark z własnych zadań

Długie zadania wymagają budżetu

Harness ważniejszy niż prompt

Ludzie zachowują odpowiedzialność

Źródła

Related Tools

Buduj z NxCode

Zbuduj swój pomysł z AI

Related Articles

Claude Tag i zespołowe agenty AI do kodowania: dlaczego programowanie wychodzi poza IDE

Inżynieria agentowa: Kompletny przewodnik po rozwoju oprogramowania AI-First wykraczającym poza vibe coding (2026)

Cursor Cloud Agents: Autonomiczne kodowanie na maszynach wirtualnych, które same się testują, nagrywają dema i dostarczają PR

Budowanie aplikacji z Gemini 3.1 Pro: Przewodnik dla programistów po API, kodowaniu i vibe codingu (2026)