Cursor Composer 2.5 在编程 bench 上追平 Opus 4.7 / GPT-5.5,这事的信号比想象中深

5/18 The Decoder 那篇报道出来后,我观察了一周各方反应,越想越觉得这事的信号远比"又一个模型上榜"要深。

一个十几人小公司的 IDE 插件自研模型,在编程 bench 上追平了两家估值千亿的最强旗舰,价格只有零头。

我的判断不是 Cursor 模型有多神,而是:

1. 旗舰模型之间的能力差距,已经窄到撑不起它们的定价差距。
2. Cursor 真正的护城河不是模型,是 IDE 里那套"上下文工程":代码图谱 / 项目感知 / 编辑历史树。
3. 当所有引擎马力趋同,决定一辆车跑多快的,是变速箱和底盘。

再叠加这一个月 DeepSeek V4 把推理价格打到 $0.14/M token 、Kimi K2.6 、Llama 4 同期发布——旗舰模型扎堆开源 + 暴跌定价,几乎复刻了 2015 年云计算 IaaS 商品化的剧本。

一个我自己越来越确信的推论:

你仓库根目录的 CLAUDE.md / .cursorrules,可能比它背后调用的那个千亿参数模型更值钱。

模型你随时可以切(今天 Opus 明天 DeepSeek),但日积月累攒下来的项目上下文、领域知识、架构约束,是切不走、也偷不走的。

想听听 V2 上重度用 Cursor / Claude Code 的同学:你们现在更愿意为模型本身付钱,还是为工具链 + 上下文付钱?

---

完整的一个月行业观察我整理成了一篇长文(约 1 万字,8 个章节),写在公众号"随机比特"里:
https://mp.weixin.qq.com/s/l-RDWB4gC3GDJf82uKeipw

模型

上下文

工具链

2 replies • 2026-05-21 14:11:33 +08:00

xiaowoli

10h 48m ago

在我使用的 Composer2.5 的这段时间，我的体感是：执行很强，规划不行。
这和 Composer 模型的一贯定位是一致的
最佳搭配依然是 GPT5.5/ Opus4.7 + sonnet4.6/Composer2.5/codex5.3

duuu

10h 38m ago

希望看到短小精悍的总结，不愿意看 AI 润色的一大堆废话。