V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
tool3d
V2EX  ›  程序员

感觉一些人对 claude 3.7 sonnet 有误解,以为是编程领域最强的模型。

  •  
  •   tool3d · 1 天前 · 5505 次点击
    其实只是“某种意义”上的最强。编程分两种,一种是 CURD 工程化,也就是 claude 3.7 sonnet 擅长的领域,用朴实无华的编程技能,把整个页面写完善,出成品,这是 claude 3.7 的强项。

    另一种编程领域,是竞赛制编程,和数学推理能力很接近,在这一点上 o3-mini-high 要明显强过 claude 3.7 ,所以 claude 3.7 编程专项领域的跑分,看起来并不算太亮眼。

    下图是最新的编程竞赛跑分,3.7 连 deepseek r1 都没能打过,实在很遗憾。但是论项目开发,claude 3.7 舍我其谁!

    47 条回复    2025-03-18 19:05:15 +08:00
    wanniwa
        1
    wanniwa  
       1 天前   ❤️ 32
    嗯,都是牛马,谁关心竞赛制编程。所以 claude 3.7 他就是编程领域最强
    clemente
        2
    clemente  
       1 天前   ❤️ 1
    找顺手的模型就好了. 没必要必须选最好的. 未来每个公司的模型 taste 都不一样.肯定会细分的

    1. 提示词对输出的提升 可能 更重要
    2. 还是根据自我感觉来吧 benchmark 都是玩具 定向微调数据+蒸馏 能让 8b 跑上某个榜的前几
    ly841000
        3
    ly841000  
       1 天前
    claude 后端不行,写个三缓冲都写不明白
    digd
        4
    digd  
       1 天前
    chatgpt 排名强,体验拉
    vopsoft
        5
    vopsoft  
       1 天前 via Android   ❤️ 1
    可拉到吧
    claude 能理解我要什么 谁关心跑分 甚至上边的图我都不愿意点开 其他的差太远太远 根本不值得一比
    klo424
        6
    klo424  
       1 天前
    claude 3.7 sonnet 是身边统计学最强,op 发的这个是真的统计学吧,哈哈哈哈
    enchilada2020
        7
    enchilada2020  
       1 天前 via Android
    都说 Claude 强 之前没啥感觉 直到我拿 C 写了个内存泄漏 一千来行代码 丫直接给我准确定位并解决了
    Cheez
        8
    Cheez  
       1 天前
    claude 在 Cursor 里面还好吧,能够一次对话调用多个工具。不知道是 Cursor 包装出来的,还是原生支持。
    zgjldxdyt1
        9
    zgjldxdyt1  
       1 天前
    别的不说,cursor 默认 claude 就说明了很多,专门做编程领域的,肯定调研测试了很多才做的模型选择。
    RandyLuo
        10
    RandyLuo  
       1 天前
    chengyiqun
        11
    chengyiqun  
       1 天前
    claude 上下文 200k token
    deepseek 64K token
    这还比啥编程领域, 长上下文明显更有优势
    AoEiuV020JP
        12
    AoEiuV020JP  
       1 天前
    我们在意的是在 AI 编辑器领域哪个模型配合编辑器最能实现用户想要的效果和代码,用脚投票而不是某种跑分,
    InkStone
        13
    InkStone  
       1 天前
    不仅写代码。我实测下来很多任务 claude 3.7 的表现都很好,包括但不仅限于特定领域的文本生成,SVG 绘图生成,复杂任务理解和操作等等。
    HUZHUANGZHUANG
        14
    HUZHUANGZHUANG  
       1 天前
    我不关心什么跑分,我只关心谁用的顺手
    Promtheus
        15
    Promtheus  
       1 天前
    懂了 claude 3.7 最强
    seven777
        16
    seven777  
       1 天前
    数学和推理 Grok3 目前最强, 代码 Claude3.7 最强.
    可以反驳,但我不接受.
    "竞赛制编程"有什么明显的不同和特点?
    iflint
        17
    iflint  
       1 天前
    @enchilada2020 这么牛🐂
    zekeluii
        18
    zekeluii  
       1 天前
    寫代碼確實是 Claude 3.7 最強
    windyboy
        19
    windyboy  
       1 天前
    奥林匹克信息竞赛题和实际的编程问题真不是一样的东西,虽然都叫做程序
    cheng6563
        20
    cheng6563  
       1 天前
    所以你整天竞赛还是整天 CURD ?
    securityCoding
        21
    securityCoding  
       1 天前
    @iflint 抓 bug 我感觉几个主流模型都非常强
    HEGGRIA
        22
    HEGGRIA  
       1 天前
    3.7 本身不是推理模型,做题肯定不如推理模型强,但是别忘了还有个 3.7-thinking
    LHN
        23
    LHN  
       1 天前   ❤️ 2
    这模型代码能力行不行,我们这些天天写前端的人还不清楚么?我用了三年 GPT-4 ,显卡烧穿了,经费花空了,现在好不容易等来 claude3.7 ,可你们非说这是人工智障!
    Rickkkkkkk
        24
    Rickkkkkkk  
       1 天前
    这下跑分的尴尬之处就体现出来了

    大家真正都在用的东西,谁更好用不是跑分能体现的
    ytmsdy
        25
    ytmsdy  
       1 天前
    反正对于我这个 CRUD Boy 来说,Cursor 的 claude 3.7 已经足够我搬砖了。
    aloxaf
        26
    aloxaf  
       1 天前
    编程排名目前只认 https://aider.chat/docs/leaderboards/

    Exercism Hard 题 + 多语言综合测试,得出来的结果可以说是最接近实际情况的,有效防止小模型刷榜。
    Yuanlaoer
        27
    Yuanlaoer  
       1 天前
    所以,你的预期是大家用 claude 3.7 sonnet 是为了用来参加编程竞赛的。
    mxT52CRuqR6o5
        28
    mxT52CRuqR6o5  
       1 天前   ❤️ 1
    你嫌别的榜不靠谱,那你给的这个榜就很真实客观吗?
    两个 32B 的小模型能领先于 DeepSeek-R1 671b ,7B 的小模型能跟 o1-mini 不相上下,榜上的 3.7 也不知道是开了推理的还是没开推理的
    jsutfun
        29
    jsutfun  
       1 天前
    刷榜单没意思呀,前段时间有人使用 R1 的训练策略猛猛刷 match 的一个得分,也没啥用呀
    aloxaf
        30
    aloxaf  
       1 天前   ❤️ 2
    还有一点,claude 系列的 agent 能力真的特别强,这点似乎还没有哪类排行榜可以体现,但是这个对于大项目来说是必须的。

    上周在一个不熟悉项目的遇到一个小 bug ,试了下直接让 AI 分析,o3-mini 和 claude 3.7 sonnet 的表现大致如下:
    o3-mini:只看我给的上下文,然后思考半天作答,结果自然是完全不对。
    claude 3.7 sonnet:看完我给的上下文后,顺着调用链不断阅读代码……竟然真的准确定位到了问题,问它这整个调用流程是啥样的也能答上来。

    anthropic 别的不说,在编程这方面绝对是最务实的公司,很清楚在编程方面真正需要的能力是什么。
    murmur
        31
    murmur  
       1 天前   ❤️ 1
    claude 3.7 得看是谁家的 cluade ,大模型是一部分,还要上下文,角色调教,目前看 cursor 和 copilot 的 3.7 都不错,但是我更喜欢 copilot 的界面,cursor 的新界面给我用吐了
    idealhs
        32
    idealhs  
       1 天前
    claude 暴力输出上千行代码不带报错的,其他家做得到吗
    seven777
        33
    seven777  
       1 天前
    @murmur #31 在 cursor 一片吹捧的语境下,我都不敢说这个.
    cursor 除了默认的颜色主题比较好(注释浅色,主体观感不错.)其他的都不如 vscode 本体的.
    murmur
        34
    murmur  
       1 天前
    @seven777 cursor 新版的遇到个 bug ,不知道是设计还是啥问题,在同事电脑,如果是远程桌面下,按减号键,比如 this-is-a-css-class ,会把我选的上下文给我减下去

    而且不知道为啥,那个上下文关联被 copilot 吊打,首选上下文要半天才能反应过来,copliot 直接打文件名就可以,cursor 想快必须得文件拖拽到聊天接口里,关联里选文件搜不到。。。
    muzei233
        35
    muzei233  
       1 天前 via Android
    和朋友实际体验都是 claude 3.7 优于 gpt o3 mini high 优于 ds
    ychost
        36
    ychost  
       1 天前
    anthropic/claude-3.7-sonnet 这是目前最好用的模型吧,尤其像开源的 OpenManus 基本只有这个模型跑起来最流畅,国产模型 Qwen 、deepseek 等都不行,尤其在工具调用方面
    maix27
        37
    maix27  
       1 天前
    手机电脑手机年年出新,你年年换吗?
    编程语言次次出新,你是不是也在追逐?

    我不会刻意的追逐一个没有意义的东西,而不是因为对这个东西有误解。
    stormsuncc
        38
    stormsuncc  
       1 天前
    who care
    ClaudeAi
        39
    ClaudeAi  
       1 天前 via Android
    大家说得对
    mogutouer
        40
    mogutouer  
       1 天前
    sonnet 好用是因为 cursor 写了不少内部提示词,跟工具配合最好,解决问题事半功倍,所以最好用。
    o3-mini 便宜但不认 cursor 的提示词,只适合开新对话处理新问题,并且你自己的提示词要写一大堆。

    不在 cursor 环境下,如果是直接网页上对话,最强的目前是 grok3 think 吧,几乎可以解决一切难题,思考过程比 deepseek R1 还要长。
    uncleroot
        41
    uncleroot  
       1 天前
    一种是 CURD 工程化,也就是 claude 3.7 sonnet 擅长的领域 —— 这个不正是大多数人所需要的
    gigishy
        42
    gigishy  
       1 天前 via iPhone
    @seven777 最近连续喂 ai 数竞题,谷歌双 2 最差,grok 能接受,o3mini 最好——截止到今晚。
    crackidz
        43
    crackidz  
       20 小时 33 分钟前
    说了,模型是不是最强,是要看使用领域的,没有一个模型现在是六边形战士...

    怎么就不会在不同的领域选择不同的模型呢?什么精神钢印啊...
    xiexiping
        44
    xiexiping  
       20 小时 3 分钟前
    claude 是不是最强没感知到,但是我用这么多 AI 唯一一个封号的,我也是强迫症,想着再注册一个吧,万一以后能用上呢,好嘛不接受新用户注册,不知道的还以为他垄断了呢,除了他没得可用了?
    greygoo
        45
    greygoo  
       18 小时 15 分钟前
    sonnet 没加 thinking 在这里比什么,再说了他们用吹自己 OlympicCoder 的,无论怎么说还是动摇不了 claude 3.7 sonnet thinking 编程领域之神的地位
    sohoorc
        46
    sohoorc  
       14 小时 41 分钟前
    已经知道 claude 3.7 最强了,没必要再次强调了吧 0.0
    xausky
        47
    xausky  
       10 小时 49 分钟前
    什么 QwQ-32B 这么强的么
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   993 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 21:54 · PVG 05:54 · LAX 14:54 · JFK 17:54
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.