GPT-5.4 vs GPT-5.3 Codex:该升级吗?
2026 年 3 月 9 日 — 四天前,OpenAI 发布了 GPT-5.4。一个月前,他们推出了 GPT-5.3 Codex,这款许多开发者刚完成集成的专用编码模型。现在的问题是:你该抛弃 Codex 转向 5.4,还是 Codex 仍然更适合你的工作?
答案并非简单的「新的就更好」。GPT-5.4 将编码、推理和计算机操控合并到单一模型中。GPT-5.3 Codex 则专为代码而生,这种专精在某些工作流中依然重要。
以下是涵盖基准测试、定价与实用迁移指南的完整对比。
简要总结:各场景谁更优?
| 使用场景 | 优胜者 | 原因 |
|---|---|---|
| 常规编码(SWE-bench) | 平手 | 两者在 SWE-bench Verified 上均达到约 80% |
| 终端任务 | GPT-5.3 Codex | Terminal-Bench 2.0 上 77.3% vs 75.1% |
| 桌面自动化 | GPT-5.4 | OSWorld 75%——超过人类基线 |
| 知识工作 | GPT-5.4 | GDPval 覆盖 44 个职业达 83% |
| 大型代码库分析 | GPT-5.4 | 1.05M 上下文 vs 400K token |
| Token 效率 | GPT-5.4 | 复杂任务减少 47% token 用量 |
| 原始速度 | GPT-5.3 Codex | 61.9 tokens/sec 吞吐量 |
| 更低输入成本 | GPT-5.3 Codex | $1.75 vs $2.50 每百万输入 token |
| 工具使用/智能体 | GPT-5.4 | Toolathlon 上 54.6% vs 51.9% |
简评: 如果需要计算机操控、大上下文窗口或一个全能模型,升级到 GPT-5.4。如果你的工作主要在终端且对速度敏感,继续使用 GPT-5.3 Codex。
基准测试深度解析
以下是各项数据的并排对比。由于许多开发者仍在使用 GPT-5.2,因此在有数据的地方也纳入了该模型。
| 基准测试 | GPT-5.4 | GPT-5.3 Codex | GPT-5.2 | 测试内容 |
|---|---|---|---|---|
| SWE-Bench Pro | 57.7% | 56.8% | -- | 复杂多步骤软件工程 |
| SWE-Bench Verified | ~80% | ~80% | -- | 真实 GitHub issue 解决 |
| Terminal-Bench 2.0 | 75.1% | 77.3% | -- | 自主终端操作 |
| OSWorld-Verified | 75% | 64% | -- | 桌面计算机操控任务 |
| GDPval | 83% | 未测试 | 70.9% | 专业知识工作(44 个职业) |
| Toolathlon | 54.6% | 51.9% | -- | 多工具智能体任务 |
| 人类基线(OSWorld) | 72.4% | -- | -- | 人类专家表现 |
数据解读
SWE-Bench 基本上是平手。两个模型都能解决约 80% 的已验证 GitHub issue,意味着标准开发工作中你不会感受到编码质量差异。GPT-5.4 在更难的 SWE-Bench Pro 变体中略胜(57.7% vs 56.8%),但差距不大。
Terminal-Bench 2.0 是 GPT-5.3 Codex 仍然胜出的领域。2.2 个百分点的领先(77.3% vs 75.1%)对于终端密集型工作流很重要——git 操作、构建系统、Shell 脚本、CLI 调试。这体现了 Codex 的专精优势。
OSWorld 是 GPT-5.4 的亮眼成绩。75% 的得分超过了人类专家基线 72.4%。这是原生计算机操控:点击按钮、填写表单、在桌面应用间导航。GPT-5.3 Codex 得分 64%——可用,但未达到人类水平。
GDPval 在非编码任务上差距明显。GPT-5.4 以 83% 大幅超越 GPT-5.2 的 70.9%。如果你的开发者需要撰写文档、分析需求或进行跨职能工作,这一点很重要。
定价:真实成本对比
单纯看 token 价格并不能反映全貌。还需要考虑 token 效率和上下文附加费。
每 Token 定价
| 模型 | 输入(每百万) | 输出(每百万) | 上下文窗口 | 最大输出 |
|---|---|---|---|---|
| GPT-5.4 | $2.50 | $15.00 | 1,050,000 token | 128K token |
| GPT-5.4 Pro | $30.00 | $180.00 | 1,050,000 token | 128K token |
| GPT-5.3 Codex | $1.75 | $14.00 | 400,000 token | -- |
隐藏的计算
GPT-5.3 Codex 表面上更便宜:输入 $1.75 vs $2.50 每百万 token,输出 $14 vs $15 每百万 token。但需考虑两个因素:
-
Token 效率。 OpenAI 表示 GPT-5.4 在复杂任务上减少 47% 的 token 用量。如果 Codex 请求消耗 10,000 个 token,GPT-5.4 上同样的任务可能只消耗 5,300 个。按此比例,GPT-5.4 尽管单价更高,每任务成本反而可能更低。
-
上下文附加费。 GPT-5.4 在超过 272K token 后输入成本翻倍。如果你经常填满大型上下文,有效输入价格将跳至 $5.00 每百万 token。对于大规模代码库载入,这笔费用会快速累积。
按工作负载估算成本
| 工作负载类型 | 更便宜的选择 | 备注 |
|---|---|---|
| 小任务(<10K token) | GPT-5.3 Codex | 更低的基础价格胜出 |
| 复杂推理任务 | GPT-5.4 | 47% token 节省抵消价格差异 |
| 大上下文(>272K) | GPT-5.3 Codex | 避免 GPT-5.4 附加费 |
| 编码 + 知识工作混合 | GPT-5.4 | 一个模型替代两个 |
GPT-5.4 更强的领域
1. 原生计算机操控
这是标志性功能。GPT-5.4 可以自主操控桌面应用——导航界面、点击元素、填写表单、切换窗口。在 OSWorld-Verified 上达到 75%,超过人类专家基线 72.4%。
对开发者意味着:
- 与真实 UI 交互的自动化 QA 测试,而非仅限无头浏览器
- 将桌面工作流自动化(Jira、Slack、电子表格)纳入编码流水线
- 模拟真实用户行为的端到端测试
GPT-5.3 Codex 在 OSWorld 上得分 64%。能用,但不足以支撑生产级自动化。
2. 超越代码的知识工作
在 GDPval(覆盖 44 个专业职业)上达到 83%,GPT-5.4 在开发之外的非编码工作上表现更强。包括:编写技术规格说明、分析产品需求、起草架构文档、审查合规政策。
GPT-5.2 在同一基准上得分 70.9%。GPT-5.3 Codex 在此基准上根本没有被测试——它是为代码而非跨职能工作设计的。
3. 超大上下文窗口
GPT-5.4 支持 1,050,000 token 的上下文,输出最大 128K token。GPT-5.3 Codex 上限为 400K token。
实际使用中,GPT-5.4 可以在单次提示中载入整个中等规模的代码库。对于 monorepo 分析、大规模重构或理解遗留系统,这是巨大优势。
4. Token 效率
GPT-5.4 在复杂任务上减少 47% 的 token 用量。这意味着更快的响应、更低的复杂任务成本,以及更少的上下文浪费在冗长的推理链上。如果你曾在与 Codex 对话中遇到上下文限制,GPT-5.4 会给你更多空间。
5. 智能体工具使用
GPT-5.4 在 Toolathlon 上得分 54.6%,GPT-5.3 Codex 为 51.9%。当你的 AI 智能体需要串联多个工具——搜索网页、读取文件、调用 API、编写代码、运行测试——GPT-5.4 在编排整个流程上更可靠。
GPT-5.3 Codex 仍占优的领域
1. 终端开发
Terminal-Bench 2.0:Codex 77.3% vs GPT-5.4 75.1%。如果你的日常工作流以终端为中心——SSH 会话、CLI 调试、git 操作、构建系统排障——Codex 仍是更好的模型。2.2 个百分点的差距在各终端子任务中表现一致。
2. 原始速度
GPT-5.3 Codex 运行速度达 61.9 tokens/sec。在 IDE 中等待代码补全的交互式编码场景下,速度差异是可感知的。GPT-5.4 的吞吐量尚未被官方以相同标准测试,但它优先优化质量而非速度。
3. 更低的输入 Token 价格
$1.75 每百万输入 token(GPT-5.4 为 $2.50),Codex 在输入上便宜 30%。对于发送大量提示的高吞吐流水线——CI/CD 代码审查、批量处理、自动化重构——节省的费用会累积。
这一优势在不超过 272K token 时尤为明显,完全避开了 GPT-5.4 的上下文附加费。
迁移指南:何时升级
以下情况立即升级到 GPT-5.4:
- 需要计算机操控/桌面自动化能力
- 任务涉及编码与非编码工作(规格说明、文档、研究)
- 经常处理超过 400K token 的代码库
- 希望用一个模型替代为代码用 Codex、为推理用另一模型的模式
- 仍在使用 GPT-5.2(它将于 2026 年 6 月 5 日停用——不要等了)
以下情况继续使用 GPT-5.3 Codex:
- 工作流几乎完全基于终端编码
- 速度比功能广度更重要
- 处理大量输入 token,需要最低的单价
- 正处于开发冲刺阶段,不想因模型切换引入回归风险
迁移检查清单
- 替换 API 调用中的模型 ID。 先在预发布环境中测试。
- 用你的实际任务做基准测试。 通用基准不一定能预测你的工作负载。将最常用的 10 个提示分别在两个模型上运行并对比。
- 调整上下文策略。 有了 1.05M token,你可以每次请求发送更多上下文——但注意 272K 的附加费阈值。
- 审查 token 用量。 GPT-5.4 的 47% token 节省可能改变你的成本预测。在第一周监控实际用量。
- 单独测试计算机操控。 如果计划使用桌面自动化,将其视为新功能发布,而非简单的模型替换。
GPT-5.4 和 Codex 与竞品的对比
GPT-5.4 并非存在于真空中。以下是截至 2026 年 3 月的竞争格局:
| 模型 | SWE-Bench Verified | 最适合 |
|---|---|---|
| Claude Opus 4.6 | 80.9% | 复杂多文件重构、安全审计 |
| GPT-5.4 | ~80% | 通用:编码 + 推理 + 计算机操控 |
| Claude Sonnet 4.6 | 79.6% | 较低价格下的高质量编码 |
| GPT-5.3 Codex | ~80% | 终端密集型编码、速度 |
Claude Opus 4.6 仍以 80.9% 占据 SWE-bench 榜首。如果你的主要需求是复杂软件工程——大型重构、多文件变更、深度架构分析——Opus 在纯编码领域仍是首选。Claude Sonnet 4.6 以 79.6% 同样具有竞争力,且价格更低。
GPT-5.4 的差异化在于广度。没有其他单一模型能将编码(约 80% SWE-bench)、计算机操控(75% OSWorld,超人类基线)和知识工作(83% GDPval)结合在一起。如果你希望一个模型处理所有事务,GPT-5.4 是当前的最佳选择。
最终结论
GPT-5.4 是大多数开发者的正确默认选择。 它在编码质量上与 GPT-5.3 Codex 持平,新增计算机操控和知识工作能力,并提供 2.5 倍的上下文窗口。47% 的 token 效率提升意味着尽管单价更高,每任务成本反而可能更低。
GPT-5.3 Codex 在两种场景下仍有价值: 终端密集型工作流(仍领先 2.2 个百分点)和高吞吐输入流水线($1.75 每百万输入的价格能真正省钱)。
如果仍在使用 GPT-5.2,立即升级。它将于 2026 年 6 月 5 日停用,GPT-5.4 在所有有数据的基准上均超越它。
如果不限厂商追求最佳编码效果,Claude Opus 4.6 以 80.9% SWE-bench 仍是纯软件工程领域的领先者。考虑多模型策略:GPT-5.4 用于通用任务和计算机操控,Claude 用于深度编码工作。
专用模型的时代正在终结。GPT-5.4 证明了一个模型可以在编码、推理和计算机操控上达到接近专用模型的水平。对大多数团队来说,这种整合值得切换。