$V2EX
Solana
Give SOL to Copy Address
使用 SOL 向 sillydaddy 打赏,数额会 100% 进入 sillydaddy 的钱包。
 sillydaddy 最近的时间轴更新
sillydaddy
5.5D
4.92D

sillydaddy

V2EX 第 472822 号会员,加入于 2020-02-27 19:30:20 +08:00
今日活跃度排名 4
MOD
具有移动主题的权限
vibe coding 的最佳实践到底是什么?
Joe's Talk  •  sillydaddy  •  2 天前  •  最后回复来自 goodboy95
28
编程已死!
  •  1   
    职场话题  •  sillydaddy  •  2025 年 12 月 31 日  •  最后回复来自 Livid
    63
    让你们的 AI 做做这道题,见真章!
    OpenAI  •  sillydaddy  •  2025 年 12 月 27 日  •  最后回复来自 itechify
    5
    不知不觉 AI 可以算乘法了
    分享发现  •  sillydaddy  •  2025 年 12 月 24 日  •  最后回复来自 sillydaddy
    5
    用 AI 做了 2 个小工具后的感想
    职场话题  •  sillydaddy  •  2025 年 12 月 6 日  •  最后回复来自 maplezzz
    16
    真是卷啊,餐饮也搞 A/B 测试
    商业模式  •  sillydaddy  •  2025 年 12 月 14 日  •  最后回复来自 VictorFrank1
    7
    如何保存数据跨越 50 年?
  •  1   
    问与答  •  sillydaddy  •  2025 年 11 月 18 日  •  最后回复来自 PythonYXY
    60
    sillydaddy 最近回复了
    https://openlm.ai/chatbot-arena/#:~:text=1445-,1460,-68

    可以看一下 Elo 得分数据,好像是根据 6 百万用户的无数投票得出的评分对比:
    Elo 基本是所有赛事都常用的评分机制:围棋、游戏、赛车等等。

    Elo 胜率公式:胜率 = 1 / (1 + 10^(分差/400))

    Elo 相差 10 分 胜率 51.4% vs 胜率 48.6%,几乎无差别,运气因素更大
    Elo 相差 50 分 57.1% 42.9% 略有优势,需要多次对局才能体现
    Elo 相差 100 分 64.0% 36.0% 明显优势,约 2:1 的胜率
    Elo 相差 200 分 76.0% 24.0% 显著优势,约 3:1 的胜率
    Elo 相差 400 分 90.9% 9.1% 碾压性优势,约 10:1 的胜率
    Elo 相差 1000 分 99.0% 1.0% 几乎不可能输,约 100:1 的胜率


    目前的 Opus 4.5 thinking 领先 GLM 4.7 大概 50 分:
    https://openlm.ai/chatbot-arena/#:~:text=1445-,1460,-68

    什么意思呢?用户问 2 个 AI 一个同样的编程问题,平均用户采纳各自答案的概率分别是:57.1% vs 42.9%

    当然,这必须要考虑编程的特殊性,考虑它跟直接围棋 PK 的差别。

    差别就在于,用户在比较 2 个 AI 的解决方案的优劣时,待 Coding 的问题是什么困难级别的。如果都是简单级别的,那高手之间基本看不出差别,那就是随机的选择一个答案,50% vs 50%的胜率。但是如果都是困难的 Coding ,又是另一番景象了。

    上面的评分数据,估计应该是解决难度均匀分布的题目(这点对评分非常重要)。如果换成都是 PK 解决难题的能力,那差距就明显不一样了。

    如果自己平时遇到的 Coding 问题,与用户投票时的问题难度分布类似,就说明差 50 分,意味着接近 3:2 的采纳比例。差距还是比较明显的。
    19 小时 14 分钟前
    回复了 qizong007 创建的主题 独立开发者 请教大家一个 iOS App 的 AI 备份问题
    @JoeJoeJoe 我没有权限移动自建节点里的主题。
    1 天前
    回复了 liushui 创建的主题 随想 大家脑子里都在想什么呢,可以告诉我么
    很多生活会遇到的问题,往深了想,就会走向哲学,只不过太困难,太难想通。
    就比如 OP 提到的,理想和现实的纠结,面对无常的态度,以及人人都会有那么几瞬会想到的生死。
    优势是对厂商来说的吧,Claude Code 这种不需要开发复杂的 IDE 功能,厂商专注开发 Agent 侧就可以。
    对于用户来说,无论是哪个,都可以用自带的 IDE 对比和 review 代码。
    2 天前
    回复了 hxndg 创建的主题 北京 好奇
    外国小区的权利边界很清楚: /t/833300
    当时初次看到 HOA 真的被震撼到了,不过现在看来,像那个帖子里的回复所说的,我是少见多怪了,那本来就是产权明晰、权责明晰的自然结论。
    现在中国搞的,尤其是房地产(不只是业委会)的,权利边界完全就是乱七八糟,权责利对等完全谈不上。
    收藏主题:现在很少了,短期的用收藏夹,长期的记笔记软件 LogSeq 上。
    感谢主题:1 是对我有用,2 是感谢 OP 的分享精神。
    感谢回复:1 是对我有用,2 是幽默搞笑,3 是不想打字。
    3 天前
    回复了 sillydaddy 创建的主题 Joe's Talk vibe coding 的最佳实践到底是什么?
    @cskeleton #24 我看到 cursor 有 subagent ,是不是这个呢? subagent 一般怎么用啊,比较困惑这一点。如果是为了减少单个对话的上下文,是不是每个子任务都让 subagent 去做呢?
    前期试验阶段还可以理解吧,如果帖子多了再这样操作,就要犯众怒了。
    自建节点就是有权限啊,原来的节点都不受影响。。我也是偶然发现的。
    该自建节点的版主,删除了所有帖子,并把节点改为了资源节点,即 /go/res
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   829 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 22:16 · PVG 06:16 · LAX 14:16 · JFK 17:16
    ♥ Do have faith in what you're doing.