MirrorCode 與長週期 AI 編程 Agent：團隊現在該改變什麼

Epoch AI 與 METR 的 MirrorCode 讓 AI 編程評測更接近真實工程：它不是要求模型修補一個小 issue，而是讓 Agent 根據規格重建完整程式。其中一個大型任務單次執行約花費 2600 美元，連續運作 19 天。這不是建議每個團隊都放任 Agent 跑三週，而是提醒我們：短時間、小預算的 benchmark 已經不足以判斷 AI coding 工具的真實價值。

對 NxCode 使用者來說，重點不是「AI 會不會取代工程師」，而是「AI 能不能在明確邊界內持續完成可審查的工程工作」。真實任務包含需求釐清、環境設定、測試失敗、依賴問題、安全邊界、成本控制與 review。只看 patch 是否通過測試，會低估這些環節。

建立自己的評測集

團隊應從過去已完成的工作中挑出 20 到 50 個任務，涵蓋 bug fix、測試補齊、小功能、依賴升級、遷移與文件修正。每個任務都要有目標、驗收標準、限制條件與驗證命令。再用同一組任務比較 Codex、Claude Code、Cursor、Copilot Agents、NxCode workflow 或內部 harness。

不要只看成功率。還要記錄 wall-clock time、token 成本、工具呼叫、修改檔案數、測試命令、重試次數、review 意見，以及最終說明是否符合 diff。這樣衡量的是 Agent 系統能否交付可 review 的工程成果。

長週期 Agent 需要預算與檢查點

MirrorCode 的 2600 美元案例把成本說清楚了。Agent 會消耗模型 token、CI、外部 API、雲端環境與人工 review 時間。團隊應依任務類型設定預算：簡單 bug 可以限制在 10 分鐘，小型測試 20 分鐘，遷移任務可更長，但必須先有人批准計畫。

大任務要拆成探索、計畫、實作、驗證四階段。探索輸出相關檔案與風險；計畫輸出步驟與驗收標準；實作輸出 diff；驗證輸出測試結果與證據。沒有證據的 Agent PR 不應直接合併。

Harness 比提示詞更重要

提示詞仍然有用，但長週期工程主要是 harness 問題。Harness 決定 Agent 看得到什麼、能用哪些工具、何時要審批、如何從錯誤恢復、如何停止。模型越強，越需要好的權限與流程控制。

模型路由也要建立在可測量 workflow 之上。架構判斷可能需要旗艦模型，重複編輯可用便宜模型，日誌摘要可用快速模型。前提是系統知道每一步的風險等級。

人類仍要掌握判斷

人類應負責問題定義、驗收標準、架構邊界、安全策略、產品取捨與最終批准。Agent 可以探索、實作、測試與總結，但不應自行改寫目標或未經審查上線。MirrorCode 的真正啟示是：AI coding 正從「產生程式碼」走向「受約束的工程委託」。

NxCode

MirrorCode 與長週期 AI 編程 Agent：團隊現在該改變什麼

MirrorCode 與長週期 AI 編程 Agent：團隊現在該改變什麼

建立自己的評測集

長週期 Agent 需要預算與檢查點

Harness 比提示詞更重要

人類仍要掌握判斷

參考來源

Related Tools

用 NxCode 建構

用 AI 建構您的想法

Related Articles

Claude Tag 與團隊級 AI 編程 Agent：為什麼編程正在離開單一 IDE

代理工程 (Agentic Engineering)：超越氣氛編程 (Vibe Coding) 的 AI 優先軟體開發全指南 (2026)

Cursor Cloud Agents：在可自我測試、紀錄示範並發送 PR 的虛擬機上進行自主程式開發

使用 Gemini 3.1 Pro 構建應用程式：API、Coding 與 Vibe Coding 開發者指南 (2026)