Cursor Cloud Agents:在可自我測試、紀錄示範並發送 PR 的虛擬機上進行自主程式開發
2026 年 2 月 24 日,Cursor 推出了將 AI 編碼從「副駕駛 (Copilot)」推向「同事 (Colleague)」的功能:Cloud Agents —— 這是在隔離虛擬機上運行的全自主 AI 開發代理程式,它們可以構建軟體、自行測試、錄製示範影片,並產出可供合併的拉取請求 (PR)。
這不是自動補全。這甚至不是結對編程 (Pair Programming)。這是委派開發 (Delegated Engineering) —— 您描述您的需求,AI 在它自己的電腦上完成工作,而您則去處理其他事情。
Cursor 自身 30% 已合併的拉取請求現在是由這些代理程式建立的。 這個數字說明了軟體開發未來的走向。
Cloud Agents 究竟在做什麼
核心概念
每個 Cloud Agent 都會獲得:
- 獨立的虛擬機 (VM):配備完整的開發環境
- 您的程式碼庫:透過閱讀您的倉庫自行熟悉環境
- 一項任務:以自然語言描述
- 自主性:獨立工作直到完成
- 自我測試:構建並實際使用它所創建的軟體
- 證據:附在 PR 上的影片、截圖和日誌
當它完成時,您會得到一個包含證明更改有效的產出物、可供合併的 PR。審查、合併、發佈。
實踐中的「自我測試」意味著什麼
這是將 Cloud Agents 與其他工具區分開來的關鍵細節。代理程式不僅僅是寫完程式碼並祈禱它能運作,它還會:
- 在其虛擬機中啟動應用程式
- 像用戶一樣操作 UI
- 從視覺和功能上驗證更改
- 錄製一段自己使用該軟體的影片
- 拍攝關鍵狀態的截圖
- 擷取日誌以便除錯
當您審查 PR 時,您不是在盲目閱讀程式碼。您是在觀看代理程式演示功能正常的影片。這從根本上改變了審查工作流程 —— 您可以在幾秒鐘內驗證 UI 更改,而無需拉取分支並在本地運行。
如何使用 Cloud Agents
從 Cursor (桌面版/網頁版)
- 在 Cursor 中打開任何專案
- 描述您想要完成的任務
- 選擇「Run as Cloud Agent」
- 代理程式進入您的程式碼庫,創建虛擬機並開始工作
- 隨著進度推進,您會收到通知
- 完成後,審查附帶產出物的 PR
從 Slack
這對於團隊工作流來說非常有趣:
- 在 Slack 頻道中標記 Cursor 代理程式並給予自然語言任務
- 代理程式接手任務,創建雲端會話並開始工作
- 它會在 Slack 討論串中回覆已完成工作的摘要
- PR 已在 GitHub 上準備好供審查
從 GitHub
直接從 GitHub Issues 或評論中觸發代理程式。代理程式會閱讀 Issue,建立分支,進行開發並提交 PR —— 全程無需任何人打開 IDE。
從行動裝置
與桌面版相同 —— 描述任務、監控進度,並在完成後審查產出物。
Cursor 演示的真實應用案例
1. 包含測試的功能實現
任務:「在設定頁面添加深色模式切換開關。」
代理程式會:
- 閱讀程式碼庫以理解設計系統
- 實現切換開關組件
- 添加深色模式的 CSS 變數
- 編寫單元測試
- 啟動應用程式,切換深色模式開關
- 錄製一段顯示切換功能的影片
- 提交包含所有產出物的 PR
2. 安全漏洞修復
任務:「重現並修復評論區中的 XSS 漏洞。」
代理程式會:
- 閱讀漏洞報告
- 在其沙盒中重現漏洞利用
- 實現輸入過濾 (Sanitization)
- 透過重新測試漏洞來驗證修復
- 使用修復前後的截圖記錄過程
3. 文件網站巡檢
代理程式花了 45 分鐘 自主導覽一個文件網站,識別損壞的連結,修復格式問題,並更新過時的程式碼範例 —— 且附帶完整的導覽影片紀錄。
數據解密:Cursor 正在發生什麼
| 指標 | 數值 |
|---|---|
| 來自 Cloud Agents 的 PR | 佔 Cursor 已合併 PR 的 30% |
| 估值 | 293 億美元 |
| 年化營收 | 10 億美元以上 (截至 2025 年 11 月) |
| 每個用戶的並行代理程式 | 可同時運行 10–20 個 |
| 平台支援 | 桌面、網頁、行動裝置、Slack、GitHub |
Cursor 非同步代理程式工程共同負責人 Alexi Robbins 表示:
「與其一次只能運行一到三件事,你現在可以同時運行 10 或 20 個這樣的任務。」
Cloud Agents vs. Claude Code vs. GitHub Copilot:老實說的對比
我們廣泛使用了這三者。以下是我們誠實的評估:
| 性能 | Cursor Cloud Agents | Claude Code + 遠端控制 | GitHub Copilot |
|---|---|---|---|
| 程式碼運行位置 | 雲端虛擬機 | 您的本地機器 | 雲端 |
| 並行性 | 10–20 個代理程式 | 單一會話 (可透過遠端控制多開) | 單一工作區 |
| 自我測試 | 是,附帶影片證據 | 否 (會運行測試但無視覺驗證) | 否 |
| PR 產出物 | 影片、截圖、日誌 | Diff 和對話內容 | Diff |
| 推理深度 | 良好 | 極佳 (Claude 的強項) | 良好 |
| Slack 整合 | 是 | 否 | 有限 |
| GitHub 整合 | 是 | 透過 MCP | 原生 |
| 程式碼保留在本地 | 否 (雲端虛擬機) | 是 | 否 |
| 行動存取 | 是 | 是 (遠端控制) | 僅限網頁 |
什麼時候該用哪一個?
在以下情況使用 Cursor Cloud Agents:
- 您有許多獨立任務需要並行處理
- 您想要更改生效的視覺證明(影片產出物)
- 您的團隊重度使用 Slack/GitHub 工作
- 您能接受程式碼在雲端虛擬機中運行
在以下情況使用 Claude Code:
- 您需要在大型程式碼庫上進行深度、複雜的推理
- 您希望程式碼保留在本地機器上(出於安全/合規性考量)
- 您正在處理一項需要反覆溝通迭代的專注任務
- 您需要 MCP 伺服器與本地工具整合
同時使用兩者:
- 使用 Cursor Cloud Agents 處理大量、定義明確的任務(例如同時修復 10 個 Bug)
- 使用 Claude Code 處理需要仔細考慮的單一複雜架構重構
這對開發團隊意味著什麼
「自動駕駛程式碼庫」的願景
Cursor 的長期願景非常明確:代理程式管理 PR 合併、部署和生產監控 —— 他們稱之為「自動駕駛程式碼庫」。Cloud Agents 是邁向該願景的第一個真正腳步。
生產力數學
如果一位開發者可以指導 10–20 個並行代理程式:
- 功能開發速度 將呈數量級增長
- 程式碼審查 變成瓶頸(這就是為什麼影片產出物很重要)
- 定義明確的任務(Bug 修復、功能添加、測試編寫)將委派給代理程式
- 創意/架構工作 仍由人類負責
質量問題
Cursor 自身 30% 的 PR 來自代理程式。這意味著 Cursor 非常信任這些代理程式,足以將它們的程式碼合併到被數百萬人使用的產品中。但 Cursor 同時也擁有強大的 CI/CD、程式碼審查文化和測試套件。代理程式是在工程流程中工作的,而不是繞過流程。
對於沒有強大審查實踐的團隊來說,自主代理程式引入問題的速度可能比解決問題的速度還快。Cloud Agents 會放大您的工程文化,無論它是好是壞。
來自我們測試的實用建議
-
編寫清晰、具體的任務描述 —— 「修復登入按鈕」太模糊了。「/auth/signin 上的登入按鈕在行動版 Safari 上不會觸發表單驗證」則好得多。
-
先建立良好的 CI —— Cloud Agents 會產生 PR,但您的 CI 流水線負責驗證它們。如果您的測試不穩定,您將浪費時間審核錯誤的失敗報告。
-
用於定義明確的任務,而非探索性工作 —— 「為用戶列表 API 添加分頁功能」效果很好。「找出為什麼 App 感覺很慢」則不然。
-
審核影片產出物 —— 它們的存在是有原因的。30 秒的影片審查能捕捉到程式碼審查可能會遺漏的視覺回歸 (Visual Regressions)。
-
從一個代理程式開始 —— 在擴展到 10 個之前先熟悉工作流程。同時審查 10 個 PR 需要高度的紀律。
重點總結
- Cloud Agents 在隔離虛擬機上運行 —— 每個代理程式都有自己完整的開發環境。
- 帶有影片證據的自我測試 是最突出的功能 —— 代理程式能證明其程式碼有效。
- Cursor 30% 的 PR 來自代理程式 —— 這不是理論,而是現實。
- 每位用戶 10–20 個並行代理程式 —— 吞吐量實現數量級增長。
- 可從桌面、網頁、行動裝置、Slack 和 GitHub 存取 —— 在開發者所在之處提供服務。
- Cursor 293 億美元的估值 反映了市場對自主開發的信心。
- 最適合定義明確、可並行化的任務 —— 並非取代人類對架構的判斷。
相關資源
- Claude Sonnet 4.6:完整指南 —— 競爭模型在深度推理方面的優勢。
- 代理網路 (Agentic Web) 解析:AGENTS.md, MCP vs A2A —— 實現多代理工作流的協議層。
- 使用 NxCode 構建您的網站 —— 透過 AI 驅動的網頁開發加速上線。

