MirrorCode 與長週期 AI 編程 Agent:團隊現在該改變什麼
Epoch AI 與 METR 的 MirrorCode 讓 AI 編程評測更接近真實工程:它不是要求模型修補一個小 issue,而是讓 Agent 根據規格重建完整程式。其中一個大型任務單次執行約花費 2600 美元,連續運作 19 天。這不是建議每個團隊都放任 Agent 跑三週,而是提醒我們:短時間、小預算的 benchmark 已經不足以判斷 AI coding 工具的真實價值。
對 NxCode 使用者來說,重點不是「AI 會不會取代工程師」,而是「AI 能不能在明確邊界內持續完成可審查的工程工作」。真實任務包含需求釐清、環境設定、測試失敗、依賴問題、安全邊界、成本控制與 review。只看 patch 是否通過測試,會低估這些環節。
建立自己的評測集
團隊應從過去已完成的工作中挑出 20 到 50 個任務,涵蓋 bug fix、測試補齊、小功能、依賴升級、遷移與文件修正。每個任務都要有目標、驗收標準、限制條件與驗證命令。再用同一組任務比較 Codex、Claude Code、Cursor、Copilot Agents、NxCode workflow 或內部 harness。
不要只看成功率。還要記錄 wall-clock time、token 成本、工具呼叫、修改檔案數、測試命令、重試次數、review 意見,以及最終說明是否符合 diff。這樣衡量的是 Agent 系統能否交付可 review 的工程成果。
長週期 Agent 需要預算與檢查點
MirrorCode 的 2600 美元案例把成本說清楚了。Agent 會消耗模型 token、CI、外部 API、雲端環境與人工 review 時間。團隊應依任務類型設定預算:簡單 bug 可以限制在 10 分鐘,小型測試 20 分鐘,遷移任務可更長,但必須先有人批准計畫。
大任務要拆成探索、計畫、實作、驗證四階段。探索輸出相關檔案與風險;計畫輸出步驟與驗收標準;實作輸出 diff;驗證輸出測試結果與證據。沒有證據的 Agent PR 不應直接合併。
Harness 比提示詞更重要
提示詞仍然有用,但長週期工程主要是 harness 問題。Harness 決定 Agent 看得到什麼、能用哪些工具、何時要審批、如何從錯誤恢復、如何停止。模型越強,越需要好的權限與流程控制。
模型路由也要建立在可測量 workflow 之上。架構判斷可能需要旗艦模型,重複編輯可用便宜模型,日誌摘要可用快速模型。前提是系統知道每一步的風險等級。
人類仍要掌握判斷
人類應負責問題定義、驗收標準、架構邊界、安全策略、產品取捨與最終批准。Agent 可以探索、實作、測試與總結,但不應自行改寫目標或未經審查上線。MirrorCode 的真正啟示是:AI coding 正從「產生程式碼」走向「受約束的工程委託」。

