感觉一些人对 claude 3.7 sonnet 有误解，以为是编程领域最强的模型。

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 330 天前的主题，其中的信息可能已经有所发展或是发生改变。

其实只是“某种意义”上的最强。编程分两种，一种是 CURD 工程化，也就是 claude 3.7 sonnet 擅长的领域，用朴实无华的编程技能，把整个页面写完善，出成品，这是 claude 3.7 的强项。

另一种编程领域，是竞赛制编程，和数学推理能力很接近，在这一点上 o3-mini-high 要明显强过 claude 3.7 ，所以 claude 3.7 编程专项领域的跑分，看起来并不算太亮眼。

下图是最新的编程竞赛跑分，3.7 连 deepseek r1 都没能打过，实在很遗憾。但是论项目开发，claude 3.7 舍我其谁！

Claude

3.7

sonnet

48 条回复 • 2025-03-20 14:43:16 +08:00

wanniwa

2025 年 3 月 17 日

嗯，都是牛马，谁关心竞赛制编程。所以 claude 3.7 他就是编程领域最强

clemente

2025 年 3 月 17 日

找顺手的模型就好了. 没必要必须选最好的. 未来每个公司的模型 taste 都不一样.肯定会细分的

1. 提示词对输出的提升可能更重要
2. 还是根据自我感觉来吧 benchmark 都是玩具定向微调数据+蒸馏能让 8b 跑上某个榜的前几

ly841000

2025 年 3 月 17 日

claude 后端不行，写个三缓冲都写不明白

09EdgqomQp5z019t

2025 年 3 月 17 日

chatgpt 排名强，体验拉

vopsoft

2025 年 3 月 17 日 via Android

可拉到吧
claude 能理解我要什么谁关心跑分甚至上边的图我都不愿意点开其他的差太远太远根本不值得一比

v2er4241

2025 年 3 月 17 日

claude 3.7 sonnet 是身边统计学最强，op 发的这个是真的统计学吧，哈哈哈哈

KMpAn8Obw1QhPoEP

2025 年 3 月 17 日 via Android

都说 Claude 强之前没啥感觉直到我拿 C 写了个内存泄漏一千来行代码丫直接给我准确定位并解决了

Cheez

PRO

2025 年 3 月 17 日

claude 在 Cursor 里面还好吧，能够一次对话调用多个工具。不知道是 Cursor 包装出来的，还是原生支持。

zgjldxdyt1

2025 年 3 月 17 日

别的不说，cursor 默认 claude 就说明了很多，专门做编程领域的，肯定调研测试了很多才做的模型选择。

RandyLuo

2025 年 3 月 17 日

https://livebench.ai/

C02TobNClov1Dz56

2025 年 3 月 17 日

claude 上下文 200k token
deepseek 64K token
这还比啥编程领域, 长上下文明显更有优势

AoEiuV020JP

2025 年 3 月 17 日

我们在意的是在 AI 编辑器领域哪个模型配合编辑器最能实现用户想要的效果和代码，用脚投票而不是某种跑分，

InkStone

2025 年 3 月 17 日

不仅写代码。我实测下来很多任务 claude 3.7 的表现都很好，包括但不仅限于特定领域的文本生成，SVG 绘图生成，复杂任务理解和操作等等。

HUZHUANGZHUANG

2025 年 3 月 17 日

我不关心什么跑分，我只关心谁用的顺手

Promtheus

2025 年 3 月 17 日

懂了 claude 3.7 最强

seven777

2025 年 3 月 17 日

数学和推理 Grok3 目前最强, 代码 Claude3.7 最强.
可以反驳,但我不接受.
"竞赛制编程"有什么明显的不同和特点?

iflint

2025 年 3 月 17 日

@enchilada2020 这么牛🐂

zekeluii

2025 年 3 月 17 日

寫代碼確實是 Claude 3.7 最強

windyboy

2025 年 3 月 17 日

奥林匹克信息竞赛题和实际的编程问题真不是一样的东西，虽然都叫做程序

cheng6563

2025 年 3 月 17 日

所以你整天竞赛还是整天 CURD ？

securityCoding

2025 年 3 月 17 日

@iflint 抓 bug 我感觉几个主流模型都非常强

HEGGRIA

2025 年 3 月 17 日

3.7 本身不是推理模型，做题肯定不如推理模型强，但是别忘了还有个 3.7-thinking

LHN

2025 年 3 月 17 日

这模型代码能力行不行，我们这些天天写前端的人还不清楚么？我用了三年 GPT-4 ，显卡烧穿了，经费花空了，现在好不容易等来 claude3.7 ，可你们非说这是人工智障！

Rickkkkkkk

2025 年 3 月 17 日

这下跑分的尴尬之处就体现出来了

大家真正都在用的东西，谁更好用不是跑分能体现的

ytmsdy

2025 年 3 月 17 日

反正对于我这个 CRUD Boy 来说，Cursor 的 claude 3.7 已经足够我搬砖了。

aloxaf

2025 年 3 月 17 日

编程排名目前只认 https://aider.chat/docs/leaderboards/

Exercism Hard 题 + 多语言综合测试，得出来的结果可以说是最接近实际情况的，有效防止小模型刷榜。

Yuanlaoer

2025 年 3 月 17 日

所以，你的预期是大家用 claude 3.7 sonnet 是为了用来参加编程竞赛的。

mxT52CRuqR6o5

2025 年 3 月 17 日

你嫌别的榜不靠谱，那你给的这个榜就很真实客观吗？
两个 32B 的小模型能领先于 DeepSeek-R1 671b ，7B 的小模型能跟 o1-mini 不相上下，榜上的 3.7 也不知道是开了推理的还是没开推理的

jsutfun

2025 年 3 月 17 日

刷榜单没意思呀，前段时间有人使用 R1 的训练策略猛猛刷 match 的一个得分，也没啥用呀

aloxaf

2025 年 3 月 17 日

还有一点，claude 系列的 agent 能力真的特别强，这点似乎还没有哪类排行榜可以体现，但是这个对于大项目来说是必须的。

上周在一个不熟悉项目的遇到一个小 bug ，试了下直接让 AI 分析，o3-mini 和 claude 3.7 sonnet 的表现大致如下：
o3-mini：只看我给的上下文，然后思考半天作答，结果自然是完全不对。
claude 3.7 sonnet：看完我给的上下文后，顺着调用链不断阅读代码……竟然真的准确定位到了问题，问它这整个调用流程是啥样的也能答上来。

anthropic 别的不说，在编程这方面绝对是最务实的公司，很清楚在编程方面真正需要的能力是什么。

murmur

2025 年 3 月 17 日

claude 3.7 得看是谁家的 cluade ，大模型是一部分，还要上下文，角色调教，目前看 cursor 和 copilot 的 3.7 都不错，但是我更喜欢 copilot 的界面，cursor 的新界面给我用吐了

idealhs

2025 年 3 月 17 日

claude 暴力输出上千行代码不带报错的，其他家做得到吗

seven777

2025 年 3 月 17 日

@murmur #31 在 cursor 一片吹捧的语境下,我都不敢说这个.
cursor 除了默认的颜色主题比较好(注释浅色,主体观感不错.)其他的都不如 vscode 本体的.

murmur

2025 年 3 月 17 日

@seven777 cursor 新版的遇到个 bug ，不知道是设计还是啥问题，在同事电脑，如果是远程桌面下，按减号键，比如 this-is-a-css-class ，会把我选的上下文给我减下去

而且不知道为啥，那个上下文关联被 copilot 吊打，首选上下文要半天才能反应过来，copliot 直接打文件名就可以，cursor 想快必须得文件拖拽到聊天接口里，关联里选文件搜不到。。。

muzei233

2025 年 3 月 17 日 via Android

和朋友实际体验都是 claude 3.7 优于 gpt o3 mini high 优于 ds

ychost

2025 年 3 月 17 日

anthropic/claude-3.7-sonnet 这是目前最好用的模型吧，尤其像开源的 OpenManus 基本只有这个模型跑起来最流畅，国产模型 Qwen 、deepseek 等都不行，尤其在工具调用方面

maix27

2025 年 3 月 17 日

手机电脑手机年年出新，你年年换吗？
编程语言次次出新，你是不是也在追逐？

我不会刻意的追逐一个没有意义的东西，而不是因为对这个东西有误解。

stormsuncc

2025 年 3 月 17 日

who care

QH3Oh2PMtre8ym0c

2025 年 3 月 17 日 via Android

大家说得对

mogutouer

2025 年 3 月 17 日

sonnet 好用是因为 cursor 写了不少内部提示词，跟工具配合最好，解决问题事半功倍，所以最好用。
o3-mini 便宜但不认 cursor 的提示词，只适合开新对话处理新问题，并且你自己的提示词要写一大堆。

不在 cursor 环境下，如果是直接网页上对话，最强的目前是 grok3 think 吧，几乎可以解决一切难题，思考过程比 deepseek R1 还要长。