5月5日5点55分，GPT-5.5自己选客人开派对！Codex反超Claude Code

新智元报道

编辑：定慧

【新智元导读】5月5日下午5:55，GPT-5.5要给自己办场party——时间是GPT-5.5自己挑的，客人由Codex从推文回复里挑。这场看起来像段子的活动背后，是一个真实的市场拐点：过去两个月，AI编程工具圈发生了一次明显的用户迁移，开发者开始从Claude Code转向Codex。

5月5日下午5:55，GPT-5.5决定自己给自己举办一个庆祝party。

（也就是北京时间5月6日星期三08:55-11:55）

这个时间不是Sam Altman定的——是GPT-5.5自己挑的。

Sam Altman让这个模型自己策划launch celebration，模型给的方案很具体：

5月5日5点55分开场，演讲要短，现场设一个收集GPT-5.6建议的入口。

据说，当天现场可能要发布GPT-5.6（PolyMarket预测是六月底发布）。

值得一提的是派对的客人怎么定。

Sam让Codex从推文回复里挑人。

刚刚，已经有用户晒出了派对的邀请邮件。

Sam还在推文里加了一句：Elon Musk如果想来也可以来，the world needs more love.

「让Codex挑人」这件事不是表演，是OpenAI内部对自家产品最直接的信任投票。

而这件事的背景，是过去两个月AI编程工具市场最戏剧的一段窗口期——

开发者社区里发生了一次明显的迁移，从Anthropic的Claude Code，转向OpenAI的Codex。

Sam自己在4月29日发推：feels like codex is having a chatgpt moment.

如果你是Claude Code的重度用户，是否最近也在考虑，还是已经用上了Codex？

Codex反超是真的吗？

先看几个维度。

Claude Code仍领先的几条线：

模型benchmark：SWE-bench Pro Claude Opus 4.7拿到64.3%，GPT-5.5是58.6%；Tom's Guide的7项实测Claude 7/7全胜

dev.to对500名Reddit开发者的盲测：代码质量这一项，Claude Code在12轮中赢了8轮，胜率67%

商业收入：Claude Code在2026年2月年化收入突破25亿美元，是历史上最快达到10亿美元的AI编程产品

Codex已反超的几条线：

用户偏好：同一份dev.to调研里，倾向Codex的开发者占65.3%，按点赞数加权达79.9%

实际用量：开发者用量从2025年9月占Claude Code 5%，涨到2026年1月占40%。4月之后，这条曲线第一次穿过50%

周活：Codex在2026年4月8日宣布周活破300万，仍在快速增长

token效率：完成同一个Express.js重构任务，Codex用150万token，Claude Code用620万——约4倍

session稳定性：Codex三天只用了30%的周配额在r/codex已成常态；同期Claude Code3分钟用掉60%的5小时配额成为r/ClaudeAI的高频抱怨

价格策略：Codex始终保留 Plus套餐；Claude Code在4月22日尝试踢出 Pro被骂回滚

简单说——模型还是Claude强，工具体感是Codex赢。

Sam那句chatgpt moment不是说技术超越，是说Codex这个产品正在完成从专业用户工具到所有人都用的跃迁。

两边的产品定位也确实不一样。

Claude Code走的是手术刀路线——处理复杂代码库、理解大型项目、做高难度重构，深度优先；

Codex走的是瑞士军刀路线——简洁交互、极低门槛、快速出活，广度优先。手术刀的市场天花板，本来就比瑞士军刀低。

顺带说一下，这两周开发者社区疯传的Codex周下载4600万 vs Claude Code 49万、94倍那组数据，Sam Altman本人在转发时明确补了一句：数据来源可能不准确。

真实情况是Codex的npm下载量已经全面碾压Claude Code。

日下载量：Codex 4433 万 vs Claude Code 44 万 = 100 倍

周下载量：Codex 1.3 亿 vs Claude Code 770 万 = 17 倍

上周17倍、月度3倍这两个差距，几乎完全由4/30–5/3这4天的暴涨贡献。

量级判断没错：用户偏好和实际打开率，正在快速向Codex这一边倾斜。

这种倾斜在哪一天开始的？

故事要从一个月前说起。

裂缝

倒推到3月23日。

Reddit r/ClaudeAI上有一条不起眼的帖子。

一位Claude Pro用户写到：I've used 60% of my session in 3 minutes.

我3分钟用掉了5小时session的60%配额？？？

那天是周末。没人理。

一周后，类似的帖子在r/ClaudeAI和r/codex同步爆开。

一个Pro用户发了句Hello，消耗2%配额。

一个Max 20×用户发出单条prompt，使用率从21%跳到100%。

还有更荒谬的——一次`--resume`操作，单次session生成了652069个output token，用户根本没发任何prompt。

Reddit上一条被点赞388次的留言写得很直白——One complex prompt to Claude and by the end you've burned 50-70% of your 5-hour limit.

一条复杂prompt发完，5小时配额掉了50到70%。

另一位用户写：I used it 8 hours a day... bought two 0/month accounts. Canceled both immediately.

我每天用8小时，买了两个0的账号，全部立刻取消了。

3月26日，Anthropic工程师Thariq Shihipar在自己的X上承认：高峰时段限流了，影响约7%用户。

非官方口径，反而点燃了更大的愤怒。

3月31日，Anthropic才在Reddit上回应：

people are hitting usage limits in Claude Code way faster than expected. We're actively investigating... it's the top priority for the team.

同一天，The Register把这件事推上Hacker News首页。136个赞，115条评论。

4月1日，GitHub用户@marcuspuchalla提交了issue#41930。标题里直接写：no formal communication issued.愚人节这一天，Anthropic仍在沉默。

一个sentinel字符串

社区开始自己挖原因。

Claude Code是用Bun打包的二进制，体积228 MB。一群开发者把它扔进Ghidra反编译，又用MITM抓API流量。两个根因被挖出来。

第一个是Anthropic的自定义Bun fork——每一个API请求，都会对一个内部billing sentinel字符串做替换。这个动作破坏了prompt cache的前缀完整性。Anthropic API的计费规则里，未缓存的token成本是缓存token的10到20倍。

第二个是--resume / --continue标志会让整个对话的缓存失效。

合在一起的效果是——你以为自己只是发了一条prompt，后端把整段历史重新算了一次钱。一个用来追踪计费状态的内部字符串，把整个prompt cache系统给吃掉了。

这件事的荒谬不在bug本身——大型软件总有bug。荒谬在于一群外部开发者用反编译工具，比这家世界级AI公司更早找出根因。

4月8日，Sam Altman在X上发推：Codex周活破300万。

他承诺，每多100万用户就重置一次额度，直到1000万。

同一时间，Anthropic的工程团队还在调那个sentinel字符串。

4月22日的错误尝试

Anthropic这边，硬件和模型本身没出问题。出问题的，是它对自己产品定位的判断。

回到4月22日那场A/B测试。

把Claude Code从 Pro踢出去，逻辑是清楚的——Claude Code单用户的真实token成本远超，把它绑定到0/0的Max套餐，能让收入和成本对齐。商业上完全合理。

但Anthropic没算到的是，Claude Code的口碑，本来就是「就能用上Opus」这一句话撑起来的。

测试上线几小时，Hacker News和Reddit上的怒火达到顶点。Simon Willison当天在博客里写下一句话——

Anthropic inadvertently handed OpenAI a significant marketing advantage.Anthropic无意间，给OpenAI递了一个营销优势。

这句话在那一周被反复转发。

Anthropic几小时之内回滚。但伤害已经发生——Claude Code用户那条就能用的基础信任，被它自己亲手撬动了一次。

OpenAI那边的反应快到让人惊讶。

Sam当晚两个字：ok boomer.

Anthropic的初衷可以理解：Opus 4.7单次推理的token单价是 / ，单用户实际消耗远超上限。

增长团队那个测试，本意是给套餐结构降压。

但他们低估了一件事——用户和Claude Code的关系不是产品关系，是信任关系。

套餐这一层已经从商品定价变成了社区共识。

撬动它，就是撬动信任本身。

Codex这两个月在干什么

把镜头往回拉。

从2025年4月Codex CLI开源那天算起，OpenAI在Codex上做的事一直在加速。

每一步都不算惊天动地。但叠在一起就是另一回事。

到了4月16日的更新之后，Codex已经不是一个CLI，是一个能控制整台电脑、内置浏览器、记住屏幕活动、和90多个第三方插件互通的AI Super App。

Greg Brockman在4月18日的推文里说：Codex已经从「代码补全」演进为「完整的Agentic IDE」。

值得一提的是Greg自己的行为——这位OpenAI总裁在2月19日公开表态，他第一次从Emacs加终端的工作方式切换到Codex桌面。

对一个写了二十年Emacs的人来说，这是一种公开站台。

OpenAI这一阶段的产品节奏有种近乎贪婪的均匀感。每一条线都在被同时推进。

在多个为Codex站台的推文下面，Sam都甩过同一句话——much more to come.更多东西还在来。

两位创始人同时、密集地为同一个产品摇旗，在OpenAI的历史上不算常见。

上一次出现类似阵仗，还是ChatGPT刚发布的那阵子。

技术上Codex其实没赢

下面这段可能让一些读者意外。

dev.to对500名Reddit开发者的调研——

倾向Codex：65.3%

但盲测代码质量：Claude Code在12轮中赢了8轮，胜率67%。

token效率上，做同一个Express.js重构，Codex用150万token，Claude Code用620万——4倍。

把这些数字放一起看，故事就清楚了——

Codex反超的不是「代码写得更好」，是「代码写得更便宜，更快，更不被掐断」。

Anthropic在过去六个月反复证明，自己的模型在「正确性」上仍是冠军。

但今天打开终端这一刻，能不能不被掐断地干完一件事这个问题上，Codex用一种近乎笨拙的方式赢了——把价格压住，把额度撑开，把token用法做高效，然后等对手出错。

Hacker News上一位ID叫@d-lo的用户在4月中旬写：

I've mostly switched to Codex (GPT-5.4 high) over Claude Code (Opus 4.6) in the last few weeks.

我过去几周已经基本从Claude Code切到Codex了。

另一位@antoineMoPa写得更直接：

Claude has become pretty slow in the last couple of weeks, so I switched to codex.

最近两周Claude变得相当慢，所以我换到了codex。

这两条留言都不是刻意的转向声明，是用户体感的纯粹报告。

4月29日，Sam Altman发了那条推文。

feels like codex is having a chatgpt moment.

ChatGPT moment这个词，OpenAI自己最清楚意味着什么。

2022年11月30日那天的ChatGPT不是技术最强的产品。它只是第一个让所有人都能上手用的产品。

把一个东西从专业用户的工具变成所有人的下意识反射，这条线很难跨。一旦跨过去，市场结构就变了。

这条推文的发布时机也值得一提——4月29日，距离Anthropic那场Pro套餐风波刚好一周。

一周前Anthropic公开认错回滚，一周后OpenAI的CEO用一句chatgpt moment宣告自己产品的临界点。

Greg Brockman也在那一周持续发声。4月26日他写：codex empowers anyone to build.

关键不是造东西，是任何人。

半个月前，任何人这个词还是Claude Code的——凭的就是任何人都能用用上Opus。现在，这个标签易主了。

回到5月5日下午5:55

回头看这场即将到来的GPT-5.5的party。

时间是模型自己挑的。客人由Codex挑。Sam邀请Elon Musk。

这场看起来像段子的活动，背后是一个非常具体的产品判断——OpenAI已经把Codex放在自己产品体系的中央位置。连挑客人这种事，都交给它。

当Anthropic还在4月22日的回滚和后续解释里反复磨合，OpenAI已经走到了下一个节奏——让自己的产品给自己办生日。

这就是过去两个月发生的事。不是哪一家技术突然变好，是产品节奏被一方完全定义了。

编码工具的终局不是谁的代码写得更漂亮，是谁能成为开发者日常工作流里那个关不掉的标签页。

这场仗，才刚刚开始。

参考资料：

https://x.com/sama/status/2046808114561974567

https://dev.to/_46ea277e677b888e0cd13/claude-code-vs-codex-2026-what-500-reddit-developers-really-think-31pb