V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
my101du
V2EX  ›  程序员

最近使用几个 AI 编程模型的一点感受

  •  
  •   my101du · 2025 年 8 月 1 日 · 4996 次点击
    这是一个创建于 165 天前的主题,其中的信息可能已经有所发展或是发生改变。

    在对比使用了 WindSurf Pro/Trae Pro/通义灵码 等辅助编程工具后,上周还是决定购买了 Github Copilot Pro 套餐运行在 VSCode 上, 算是暂时在价格和能力之间取得了平衡。

    在这几天尝试开发一个浏览器插件的过程中,通过来回切换几个模型,发现他们各自还是挺有特色的。

    1. 最开始用 Claude Sonnet 4 。总结是:适合开荒。 做新项目的时候,基本上能根据要求把结构搭建好,功能完成度很高,但是到后面改一些 bug 的时候似乎总也找不到重点,比如要实现查找页面元素去点击,它一开始就把类选择器的名称搞错了(不去找页面的真实元素,而是根据经验去找带点击特征的元素),当我要求它仔细查找时,它会不断把复杂度加大,去添加很多的匹配规则,甚至还让它去点击里面所有的嵌套元素,跳不出去了。

    2. 当我意识到它进入死胡同后,就切换到 Gemini 2.5 Pro 。总结是:适合改 bug 但小题大做,不适合推进项目。 简单描述 bug 后,它给出了方案,并修复了这个点击问题,但是当我想继续做下一个功能的时候,发现它洋洋洒洒说了一大堆,最后把前面的功能给改没了。后面我发现这个问题挺严重的,它很喜欢边做边重构代码,导致我很沮丧,只能要求它别改,中间还骂了几句,很奇怪的是它道歉了后还真的修复了,整个过程就是挺累的,要来回聊好几次才能把一个功能固定下来。。。 可能是我设置的规则不太对?

    3. 后来切换到 GPT-4.1 , 总结是:适合逐个小功能爆破。 给他一堆要求,没有废话,thinking 一会后就会改一点点地方,让我重试。70%情况是成功修复问题的,剩下 30% 我要求继续检查,它也一样少言寡语,然后只修改一点点。

    目前项目核心功能接近稳定,我已经主用 GPT-4.1 了。 主要是它不会有大片的响应文本把整个 agent 窗口占满,因为我仔细看过了,像 Gemini 2.5 pro 在响应文本里解释它多牛逼的,( 1 )牛逼的技术我看不懂 ( 2 )看得懂的代码我自己也会写。 所以, 我为什么要听你絮叨呢?

    28 条回复    2025-08-07 17:39:12 +08:00
    pobo
        1
    pobo  
       2025 年 8 月 1 日
    我用的 cursor ,还可以。
    不过项目太大了,它就不行了,自己在哪瞎改、乱改
    ihainan
        2
    ihainan  
       2025 年 8 月 1 日   ❤️ 2
    如果是修 bug ,我个人习惯的做法是,Cursor 先让 o3 分析问题的根本原因和给出修改建议,再使用 Claude 4 Sonnet 二次审核,最后再让 Claude 做具体的代码实现。不过这样会导致 Cursor 很快就把额度用完了,所以我一般是 Cursor + Claude Code 并行在用。

    Gemini 2.5 Pro 在编程领域只适合非常需要长上下文的场景,废话太多了。不过我倒是天天在白嫖 Gemini CLI ,用来做某些领域的 Agent ,效果可以接受。
    nmap
        3
    nmap  
       2025 年 8 月 1 日
    Github Copilot Pro 哪里买的?多少钱?
    Fike
        4
    Fike  
       2025 年 8 月 1 日   ❤️ 1
    强推 augment ,好用的一批
    my101du
        5
    my101du  
    OP
       2025 年 8 月 1 日
    @ihainan 非常感谢。 老哥应该是资深 AI 程序员包工头了。
    my101du
        6
    my101du  
    OP
       2025 年 8 月 1 日
    @Fike 这不是口袋里没钱么。。。所以在价格/效果平衡后,选了 Github Copilot Pro
    jerseyhero
        7
    jerseyhero  
       2025 年 8 月 1 日
    从 Cursor 转到 augment 了,感觉就是 augment 对项目的理解跟掌控力比 cursor 强的太多了,目前从 50 美金的 plan 转 100 美金了。
    pike0002
        8
    pike0002  
       2025 年 8 月 1 日
    现在哪家从费用上来说性价比最高啊?
    Fike
        9
    Fike  
       2025 年 8 月 1 日
    @my101du #6 我目前还在用试用的,注册了好几个号
    msg7086
        10
    msg7086  
       2025 年 8 月 1 日
    Gemini 2.5 Pro 每天 100 条不限长度免费请求,Flash 更多,我拿来干简单的活全免费,质量也不算差。
    要说性价比的话可以说是完胜了。
    真到了搞不定的时候再换用别的收费模型就好。
    maolon
        11
    maolon  
       2025 年 8 月 1 日
    我个人体验的话,都是旗舰模型( claude 4, gemini 2.5 pro..之类的)那么 coding agent 设计的好坏大于模型选择,而 coding 流程设计又大于 coding agent 的选择
    就 agent 本体设计好坏来说,我目前没见过任何一家能超越 claude code 的设计(哪怕 claude 4 在处理复杂问题的实际能力上不如比如 2.5 pro 这样的模型)
    而流程好坏上来说,我觉得 kiro 是这么多家里最好的(基于 spec 流程),当然他那套东西也不是专属的,你可以任意复刻到自己用的顺手的那个 agent 上去,我自己就搞了个 cc 版本的
    XTTX
        12
    XTTX  
       2025 年 8 月 1 日
    CC max, 今天一边看片一边让它写页面。"Add a space at the end" . Opus 真的在代码里加一个空格 ...
    tangknox1
        13
    tangknox1  
       2025 年 8 月 1 日
    claude 4 准确度最高,适合做一些小型的程序开发,deepseek 写前端还行,后端小型项目开发就不行了,库里很多数据都太旧,比如一些国际知名的框架,Grok ai 一大堆废话,实在受不了他,但是再上下文连贯性、上下文分析层面确实不错,同样,只适合做一些前端或者非常简单容易的小型应用程序,至于 GPT 、Gemini 这些,基本不适合整体完整需求的中小型程序应用开发,并且 AI 库中的很多框架相关的知识也是比较旧。

    综合来说,如果你只是想修改 BUG ,写前端代码,任何一款都差不多,
    如果是用来做一些中小型程序应用,比如企业网站管理系统、带后台的 web 应用系统,最好的搭配是 claude + deepseek 或 GTP 组合来用。

    但是,想把 claude 4 用好,让他尽量少干点傻事儿,那就要十分精准的命令指示,并且要按照英语语句的那种思维语言,如果用白话文去对他下命令,估计会把你惹恼。
    mlzboy
        14
    mlzboy  
       2025 年 8 月 1 日
    @Fike 用过 cursor augment ,确定 augment 更好,但是 claude code 没有用过,比 augment 好么?
    mlzboy
        15
    mlzboy  
       2025 年 8 月 1 日
    @jerseyhero 有没有用过 claude code,我目前也是 augment 100$
    terranboy
        16
    terranboy  
       2025 年 8 月 1 日
    LZ 用的好像都是快被淘汰的东西。。。试试 claude code 吧 没有对比就没有伤害
    Fike
        17
    Fike  
       2025 年 8 月 1 日
    @mlzboy #14 我也没用过 claude code ,太贵了,还有怕封号,不过 augment 对我来说很强了,底层也是 claude 的模型
    gnosis23
        18
    gnosis23  
       2025 年 8 月 2 日
    vscode 压缩了上下文吧,所以到后面效果就不好了。lz 试下 claude code
    qwwe01
        19
    qwwe01  
       2025 年 8 月 2 日
    @terranboy 和 github copilot 差别很大吗
    Dlad
        20
    Dlad  
       2025 年 8 月 2 日
    退了 cursor 年付,买了美国服务器用 claude code
    目前,前后端、flutter 、ts 都写的很好。FYI.
    webcape233
        21
    webcape233  
       2025 年 8 月 2 日 via iPhone
    和我感受一样
    xuegy
        22
    xuegy  
       2025 年 8 月 2 日 via iPhone
    写 python 的话,什么模型都能糊弄一段差不离的代码出来。
    写 C++的话,GPT4.1 这种的就跟脑子里有💩一样,经常幻想出不存在的头文件然后编的跟真的一样。
    带 reasoning 的就好多了,90%一遍编译过,剩下的 9%把编译器报错信息贴进去能改对,最后的 1%让 AI 自己联网查一下就能解决。
    spritecn
        23
    spritecn  
       2025 年 8 月 2 日
    昨天让 kimi2 写个英语句子均衡切分,他真是的一直给我崩专业名词,写出来看着难受 ,超给他说他越顶..什么贪心算法,二段均衡,相邻桶啥的...真的是
    gzeng17291
        24
    gzeng17291  
       2025 年 8 月 2 日
    用来写 go 后端服务 cursor 用 Claude Sonnet 4 感觉还是很强啊
    heliar
        25
    heliar  
       2025 年 8 月 2 日
    困难问题,可以尝试 o3
    jqknono
        26
    jqknono  
       2025 年 8 月 2 日
    很多人没试过 o3, 在网上风浪不大, o3 不适合一次性输出很多代码, 它很懒, 但是解决复杂问题独一档. 我的线程死锁问题只有 o3 能解.
    bowencool
        27
    bowencool  
       2025 年 8 月 2 日
    Copilot 聊天经常报错就很烦
    Linioi
        28
    Linioi  
       2025 年 8 月 7 日
    @qwwe01 我也很好奇 Claude Code 的效果,平常用的也是 GitHub Copilot ,想用用 Claude Code 都找不到合适的付费渠道……
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   941 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 20:44 · PVG 04:44 · LAX 12:44 · JFK 15:44
    ♥ Do have faith in what you're doing.