十年没正经写代码后，我靠 AI 把公司工作流重新搭了一遍

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

我是 87 年的，早年做过六年前端，后来转产品，做到 UED 主管。2014 年出来创业，一直做跨境进口。

公司里基本就是个打杂的：产品、运营、流程、成本、人，哪儿漏了堵哪儿。代码这东西我是真喜欢，但说实话，很多年没正经碰过了。

把我重新拽回来的，是 AI 。

最开始我从 OpenClaw 上手，后来换到 Hermes 。最直接的体感是：在体外记忆和多 agent 协同这件事上，Hermes 更接近我想要的那种“能接业务”的状态。OpenClaw 不是不能用，但我当时那套业务场景里，一复杂就开始吃力。

为什么这件事要命？

因为我一开始不是想做玩具项目。我是想给公司运营搭一套内部工作流。

我们做跨境进口，品类很杂。一个类目一套规矩，一个供应链一套限制，一个平台又一套审核逻辑。落到系统里，就不是一个 agent 解决所有事，而是要把不同类目拆开，各自有自己的记忆、规则、流程，再让多个 agent 协作。

听着很美。

然后就开始受罪了。

那阵子为了省钱，我主力用 DeepSeek 和 Qwen-Plus 跑这套多 agent 。不是说它们不好，而是在我当时那套配置里，只要任务稍微复杂一点，就很容易串记忆。

A 类目的上下文窜到 B 类目去，agent 之间一交接就乱。昨天还好好的，今天就像不认人了。

一个多年没正经写代码的人，去 debug “记忆错乱”，那种抓瞎你能想象。你看日志，看提示词，看上下文传递，看工具调用，最后发现哪儿都像有问题，哪儿又都说不清。

光在这上面试错，前前后后烧了两千多。

中间还有个插曲。我拿 GLM 做了个小功能，本来以为就是几句对话的事，结果最后账单出来两百多。我当时真愣住了。

后来回头看，大概率不是单纯模型价格的问题，而是我那次上下文、重试、工具调用没控住。便宜模型也不是闭眼省钱，用不对，一样肉疼。

后来换 Kimi ，好一些。

它长上下文确实能扛，整段文档、规则、历史记录塞进去，它至少不那么容易当场失忆。对我这种“不想重新解释十遍背景”的人来说，Kimi 那种能接长材料的能力，确实省心一点。

但真正让我感觉这事能往前走的，是换到 Claude 之后。

那套多 agent 协作到 Claude 手里，明显顺了很多。该是谁的记忆就是谁的，交接的时候不那么容易乱。不是说完全不出错，但出错的方式我能理解，也能修。

这个差别对我很重要。

因为我不是全职工程师，我不可能每天把大量时间耗在底层排错上。模型便宜是便宜，但如果每省 10 块 token ，背后多花我 2 小时 debug ，那账其实是亏的。

这里还有一个坑，现在想起来还肉疼。

当时为了省钱，我走过一些不太稳定的 Claude 使用方式，结果账号出问题了。省下那点钱，跟账号不稳定、工作流中断比起来，根本不值。

这事教育了我：有些便宜不能硬占。尤其是工具已经接进日常工作之后，稳定比单次便宜重要得多。

后面我就老老实实用 Claude 和 Codex 做开发。

这一年下来，公司业务中台基本成型，我现在的分工方式大概是这样：

最基础、能拆得特别细的活，交给便宜模型，或者走中转站。比如类目识别、违规词识别、简单字段提取，这种输入输出都很窄、规则很死的任务，它们做得又快又便宜，错了也好兜。

再往上，对接内部后台、数据分析系统、客服系统，我按部门一个个搭 skill 。谁的活谁的 skill ，规则、上下文、边界都拆开。这样越搭越顺。

再复杂一点的，比如多 agent 协作、跨部门流程、需要理解业务前后关系的东西，我就更愿意上 Claude / Codex 。贵是贵，但省脑子，省时间，也省半夜坐在电脑前骂人的次数。

折腾到现在，我的认知很朴素：

国产模型，适合你把任务拆得特别细，让它做最基础、最明确的那一块。

国外模型，贵，但省心。

别把一个大而模糊的活整个丢给便宜模型。它可能会串、会乱、会看起来很自信地跑偏。

但如果你能把活剁成一颗颗小螺丝钉，它拧得又稳又便宜。

复杂的、要自己把握全局的部分，交给更省心的模型，少熬很多夜。

现在我长期用 Claude Code 和 Codex 。说实话，我已经不怎么看代码了。我的工作变成了：描述我要什么，拆业务流程，验收结果，发现不对再让它改。

中间那些代码，大部分是 AI 写的。

一个十年没正经碰代码的人，靠这套又开始造东西，这事我自己都觉得有点魔幻。

但我还有个问题没完全想明白：

便宜模型和省心模型之间那条线，到底应该画在哪？

哪些活值得花时间拆到极细，喂给便宜模型？哪些活一开始就该上贵的？因为有时候省下的人力，可能比省下的 token 钱多得多。

这条线我现在还在一个个任务里试。

你们是怎么分的？

如果有人也卡在 Claude / Codex 的注册、付费、账单、额度，或者中转站选择这些坑里，我后面可以单独整理一篇。不保证标准答案，只讲我自己怎么踩出来的。

工作流

多Agent

稳定

47 replies • 2026-06-26 15:53:22 +08:00

xubeiyou

Jun 25

牛的

yuhangch

Jun 25

少见的人写的长文了，牛的

z1645444

Jun 25

用词精准，概念分得清，没有幻想，有具体的场景，有使用感受，还是长文:O

太少见了，严肃感谢

TieSg

Jun 25

楼主可以讲讲

mikaelson

Jun 25

全文看下来，很舒服。能再详细展开介绍一下使用方式吗？

chenalex

Jun 25

"现在我长期用 Claude Code 和 Codex 。说实话，我已经不怎么看代码了。我的工作变成了：描述我要什么，拆业务 procedure(流程)，验收结果，发现不对再让它改。"
这部分楼主可以讲讲是怎么做的, 从哪方面收敛风险的, 之前也这么试过, 但是后面发现出现 ai 出现一直改都改不对, 或者改 A 问题, 会出现 B 问题时, 再回头看代码已经成了克苏鲁, 不可形容, 不可直视

unusualcat

Jun 25

@yuhangch 这就是 AI 写的啊!起码是 AI 润色过的

erwin1030

Jun 25

这个不是一眼 AI 处理过的么 😂

triplephon

Jun 25

ai 味太浓了，特别是这几句：“公司里基本就是个打杂的：产品、运营、流程、成本、人，哪儿漏了堵哪儿。代码这东西我是真喜欢，但说实话，很多年没正经碰过了。”；“Hermes 更接近我想要的那种“能接业务”的状态。OpenClaw 不是不能用，但我当时那套业务场景里，一复杂就开始吃力。”

fgghyyfk

Jun 25

谢谢几位提醒，确实有 AI 帮我整理和润色，我不装纯手写。素材和经历是自己的，但表达上确实被它收得太整齐了，后面我会再压一压这种味道。

@chenalex 你提到的“改 A 坏 B 、最后变克苏鲁”我也遇到过，这个我后面单独写一篇。现在我自己的笨办法是：先把需求拆到很小；每一步都让它写验收条件；能跑测试就必须跑；改动前先让它复述影响范围；一旦连续两轮改不动，就回滚重新拆，不跟它死磕。

wu00

Jun 25

虽然但是，这个排版看不下去

fgghyyfk

Jun 25

大家如果对 codex 和 claude code 的帐号有兴趣，我也可以再写一篇真实感受和注册支付方法，目前用了快 3 个月了，就最初的时候用 cli 的方式被误杀过一回

fgghyyfk

Jun 25

@wu00 下回优化下排版，确实太平铺了

fgghyyfk

Jun 25

@erwin1030 长文我也写不动啊，基本是平铺了自己的感受和经历，AI 润色的

LaZoe

Jun 25

学到了，感谢

musicbaby

Jun 25

给 op 提个善意建议。自己产出的长文，就别用 AI 润色了，或者起码等你有很多创作后在把你的写作习惯蒸馏城 skill 再让它润色。不然你写个正经分享出来，别人怎么看怎么像推广。我看到最后还在想，推广呢？哪儿去了。这也就是今天闲得蛋疼没事干，换往常，看这种文体，看两眼就不会继续看下去了。

fgghyyfk

Jun 25

@musicbaby 受教了，第一次写，感谢提醒哈

pinecone1

Jun 25

几眼就能看出来是 GPT 写的，味儿太大了，就不太想看了

fivesmallq

Jun 25

“这一年下来，公司业务中台基本成型，我现在的分工方式大概是这样”

一年前 agent 概念是啥？有落地实践？一年前的模型能力都不行，就去年 11 月开始能力跃升。

niubee1

Jun 25

窜上下文跟模型有什么关系？看到这里我就知道是个不靠谱的 Claude 软文

zhuanggu

Jun 25

这个口音就是 AI 写的。“听着很美。然后就开始受罪了。” 我不止看到一次 AI 写这句话。

xooass

Jun 25

我也是做跨境的，有个正经注册的美国公司和公司名下的信用卡。然后就没有然后了，A\和 GPT 随便注册用，经常忘了翻墙就打开两者的客户端，一年多了也没被封。

zerovoid

Jun 25

为啥这么多人不能接受 AI 润色啊，
我觉得这写得不是挺好的么，
又不是所有人都有能力和有时间去写长文，

我觉得 AI 润色可以很好解决文字表达能力堪忧问题、逻辑混乱问题、用词不当问题、用词匮乏问题。

erwin1030

Jun 25

@zerovoid 人的特色在于各自的思想。AI 润色之后把这些同质化了，而且信息熵也低了很多。大家都不想看垃圾内容的。

nadia

Jun 25

很好的例子和内容，但是 AI 润色后因为语句太丰盈反而对比出内容的空洞来，而且这款 AI 的基础语调就是给人一种夸夸其谈的感觉，拉低了整体可读性。

lujiaosama

Jun 25

不是很理解，你们是工作流里有 AI 参与，还是用 AI 搭建了工作流。

fgghyyfk

Jun 25

@lujiaosama 搭了一个业务中台，对接了系统后台、客服软件、分析系统，好几个子系统了，价值非常大，减少了很多重复的运营工作

fgghyyfk

Jun 25

@nadia 你这么一说，确实是有点

fgghyyfk

Jun 25

@xooass 大多人是没有美国公司和公司名下信用卡的，用起来超级费劲，我现在用 claude 的 20X ，还要交苹果税，249 刀

timeance

Jun 25

AI 润色没问题，可以看得出大部分内容都是自己写的

沉下心是可以看下去，因为内容都是真实的...

evil0harry

Jun 25

op 是不是用了 humanizer 之类优化过，我看起来脑子里会有一点点的快节奏的感觉，像打拍子一样，有可能是一句话中间包含的信息量有点大，我的脑子在计算😱😱😱

fgghyyfk

Jun 25

@timeance 谢谢，我记下了。后面少润色，多放原始过程和具体坑，别写得太端。

ximaoyang

Jun 25

记住这句话：最便宜的模型就是最贵的模型，最贵的模型就是最便宜的模型

Vipcw95

Jun 25

从头看到尾也没看出来具体什么业务

wubajie

Jun 25

语言风格也被 AI 同化了

zengyu

Jun 25

@fgghyyfk 啥时写好～

fcten

Jun 25

我不知道你的“那阵子”是什么时候，但是很明显所谓的“复杂任务”，其实本质上就是一些并不难，但是繁琐，非常消耗上下文的任务而已。而国产模型能够稳定支持百万上下文，完成长周期任务，也只是最近 3 个月的事情。而 claude 和 gpt 大概从去年下半年开始就表现的很好了。

我 codex/claude/glm/deepseek 都在用，具体差距有多大，每个月的体感都不一样。所以没有什么黄金准则，你现在回去用国产模型，可能又会得出不一样的结论。

WilliamZuo

Jun 25

怎么感觉都是小企业在用 AI ？

bigdogbigpig

PRO

Jun 25

倒不是 ai 润色不好，但是我确实有时候不能理解一些句子。

例如：”后来回头看，大概率不是单纯模型价格的问题，而是我那次上下文、重试、工具调用没控住“，我完全不知道是什么原因导致的你的账单爆炸。

不过我感觉你是一个倒爷。

你真正用 ai 写代码的时间不超过一周，但凡你写得多点，都知道什么任务 SOTA 模型可以完成，什么任务开源模型可以完成。

zephyru

Jun 25

看了头几个层回复我还在怀疑我是和 AI 交流太多了么..
后面才发现我的感性还是没出问题的。
不过排除掉文风问题，内容也还是有意思的，感觉大家走过的路程都差不多，现在一线业务开发估计也不怎么看代码了逻辑没问题，会审查 claude 都能给你推进的七七七八八。
不过就是还是要时常的去重构，AI 代码虽然能跑，但可维护性真的很差，但只要你能指出来，它又能给你整的很好，就比较矛盾。
我自己写玩具项目就 claude ，指挥者国产模型干活，效果也说的过去，我自己确实是变懒了。

p1094358629

Jun 25

是把 claude code 搭各自的 agent 干活么

sora2blue

Jun 26

去了一下 ai 味，提高信息密度，看着舒服多了。

我做过六年前端，后转产品做到 UED 主管，2014 年创业做跨境进口。日常兼顾产品、运营、流程、成本、人，哪里缺补哪里。喜欢代码但多年没正经写，是 AI 把我重新拉回来。

最早用 OpenClaw ，后换 Hermes ，体感是：多 agent 协同和体外记忆上 Hermes 更贴近“能接业务”的状态，OpenClaw 在复杂业务场景下会吃力。

我的目标是给公司运营搭内部工作流。跨境进口品类杂，一类目一套规则，不同供应链、平台审核逻辑各异。系统设计不是单一 agent 包揽，而是将类目拆开，各自维护记忆、规则和流程，让多个 agent 协作。实际落地时问题来了：我用 DeepSeek 和 Qwen-Plus 跑这套多 agent ，任务稍一复杂就串记忆——A 类目的上下文窜到 B ，agent 交接混乱，昨天正常今天就不认人。一个多年不碰代码的人去 debug 记忆错乱，查日志、提示词、上下文传递、工具调用，耗神且低效，试错烧掉两千多。

中间有个插曲：拿 GLM 做小功能，以为对话级任务，账单出来两百多。事后复盘，是上下文、重试和工具调用没控住。便宜模型用不对照样费钱。后来换 Kimi ，长上下文有优势，整段文档、规则、历史记录塞进去不易失忆，减少反复解释背景的成本。

真正让事情可推进的是换用 Claude 。多 agent 协作顺畅了，该谁的记忆就是谁的，交接不乱。即使出错，错误模式可理解、可修复。这对非全职工程师很关键：若每省 10 块 token 却多花 2 小时排错，实际亏损。我还踩过不稳 Claude 渠道的坑，省了小钱导致账号出问题、工作流中断，教训是：工具接入日常后，稳定性远比单次便宜重要。此后老老实实用 Claude 和 Codex 做开发。

一年下来业务中台基本成型，分工模式如下：
- 最基础、能切得极细的活（类目识别、违规词识别、简单字段提取等）交给便宜模型或中转站。输入输出窄、规则死，做得又快又便宜，出错也好兜。
- 对接内部后台、数据分析、客服系统等，按部门搭 skill ，谁的活谁的 skill ，规则、上下文、边界拆开。
- 多 agent 协作、跨部门流程、需理解业务前后关系等复杂任务，上 Claude / Codex ，贵但省时间、省心力。

认知很朴素：国产模型适合将任务拆得极细，做最基础、最明确的一环。国外模型贵但省心。别把模糊的大任务整块丢给便宜模型，容易乱、跑偏还自信。能剁成螺丝钉的活，它拧得又稳又便宜；需要把握全局的，交给省心的模型，少熬夜。

现在我长期用 Claude Code 和 Codex ，几乎不看代码。工作变为：描述需求、拆业务流程、验收结果、让 AI 修改。一个十年没碰代码的人靠这套继续造东西，这感觉挺魔幻。

但我还没完全想透：便宜模型和省心模型之间的分界线该画在哪？哪些活值得花时间拆到极细喂给便宜模型，哪些一开始就该上贵的？有时省下的人力比省下的 token 值钱得多。这条线我还在一个一个任务里试。你们是怎么分的？

如果有人卡在 Claude/Codex 的注册、付费、账单、额度或中转站选择上，我可以另整理一篇踩坑记录，只讲自己怎么走出来的。

ydpro

Jun 26

@fgghyyfk 机器人吗？你这个回复都是 AI 回的。。。

coder01

Jun 26

没看懂到底做了啥有意义的事情，是我理解能力太差了么？

gibber

Jun 26

通篇看下来也没找到核心有用的东西，能够拿过来参考实践的那种

Tarek911

Jun 26

分享下我的体验，需求分析和交换意见这块 GPT 比较专业，同样的问题对比 DeepSeek 、Grok 的结果，可用性和启发性都是比较高的；
模型价格和选型其实还是看偏好，不差钱的肯定选国外模型，国内的便宜但用下来质量参差不齐

目前用过的 Qwen-3.7-Max 可以，阿里家的 Qoder 工具也不错
但这个模型新推出不久，价格相对较贵，说是有错峰套餐比较便宜但没试过

DeepSeek 便宜但总感觉 debug 成本有些高，输出的代码缩进格式经常遇到问题，
格式问题，即使在 CLAUDE 文件中添加了约束也偶尔突发恶疾
Debug 问题，需要付出更多精力甚至主动给它排查方向才能提高效率
它的 api 配合 Qoder 输出代码格式的质量高于 Claude ，注意我说的是格式，而架构设计等其他代码质量我未作对比

目前在用小米的 API+Qoder 工具 https://platform.xiaomimimo.com/
小米现在有活动，填邀请码可以拿 10 元额度的体验金，邀请人和被邀请人都可以拿 10 元额度，有效期 30 天
我邀请了 2 个自己的小号已经爽蹬了几天，体感不错，没有像 DpSk 那种恼人的情况发生
如果你想体验可以用我的邀请码：TU2PX4

atusss

Jun 26

@triplephon 看最后一句就知道他想干嘛了