V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zhh2271
V2EX  ›  问与答

有没有熟悉大模型开发的, help!

  •  
  •   zhh2271 · 112 天前 · 5964 次点击
    这是一个创建于 112 天前的主题,其中的信息可能已经有所发展或是发生改变。

    目前研 2 ,来到了国内一家 EDA 公司实习,预计实习半年左右,主管叫我实习期间实现一个大模型,用于公司的软件,之前都没有大模型或者 AI 方面的基础。主管的要求是这个大模型可以回答当前我们软件的一些流程怎么进行,最好可以实现一些 DRC/LVS 规则文件的编写什么的。这样的话兄弟们觉得应该用什么模型和技术好呢。目前调研打算用 DeepSeek + RAG + RAFT 这样来训练。

    第 1 条附言  ·  112 天前
    我一开始是打算做这个 RAG 的,应该比较简单,但是后面主管又说能不能生成脚本啥的。貌似 RAG 是不满足不了这个需求😭
    74 条回复    2025-05-28 10:12:54 +08:00
    zhh2271
        1
    zhh2271  
    OP
       112 天前
    这样的大模型我一个人 6 个月能弄出来吗
    liu731
        2
    liu731  
    PRO
       112 天前
    Try this one.

    https://dify.ai
    hefish
        3
    hefish  
       112 天前
    @zhh2271 能的,我一个月就能弄出好几个来。 我还能一个月研发几个操作系统, 我还能三天研发一个数据库。。
    zhh2271
        4
    zhh2271  
    OP
       112 天前
    @hefish 兄弟用的什么技术效果好一点
    hefish
        5
    hefish  
       112 天前
    我觉得搞训练得先有数据,得看数据是啥样的。 rag 好像得是基于问答的,不用训练。
    yudoo
        6
    yudoo  
       112 天前
    @hefish #3 哥们不是在开玩笑的吧
    renmu
        7
    renmu  
       112 天前 via Android
    一个实习生怕不是连公司业务都不清楚,业务部门会乖乖把所有流程给一个实习生吗?你怕不是推不动这件事
    txhsj
        8
    txhsj  
       112 天前
    不要欺负老实人
    u2b
        9
    u2b  
       112 天前
    n8n 训练有点子牛吧,搞搞 rag 得了
    mohuani
        10
    mohuani  
       112 天前
    @zhh2271 他应该是在逗你玩
    KongKong369
        11
    KongKong369  
       112 天前
    @hefish 这兄弟在和你扯呢。
    Mzs
        12
    Mzs  
       112 天前
    1. 远远没到训练的程度
    2. 知识库的质量先保证好
    3. https://dify.ai
    4. 多多调试提示词
    love060701
        13
    love060701  
       112 天前   ❤️ 1
    1 、如果上下文不长,直接把你们公司常用的文档当系统 prompt 写进去,需要使用上下文比较长的模型,DeepSeek 不行因为上下文太短,可以找 128K 上下文版本的 Qwen 。

    2 、微调模型,基于某个版本的模型做额外的训练,推荐基于 70B 版本的模型做训练,微调好像只能基于密集模型,MoE 模型的微调比较困难。DeepSeek R1 也不行的,只能使用 DeepSeek 蒸馏出的模型。

    3 、RAG ,就是外挂知识库,数据标准化->向量化,LLM 回答问题时把知识库作为上下文,可以使用 DeepSeek R1 作为 LLM ,有 Dify 、n8n 之类的开源实现,不过你们公司有那么多资源部署自己的 DeepSeek R1 么?
    chanlk
        14
    chanlk  
       112 天前
    这是想弄一个知识库吧
    zhh2271
        15
    zhh2271  
    OP
       112 天前
    @renmu 是这样,主管叫我先基于一个商业工具开发一个大模型出来,后续再把这个迁移到我们的软件,商业工具的文档是非常丰富的。然后迁移的话也只需要实现我们部门的一个模块就好了,暂时不需要管其它部门
    zhh2271
        16
    zhh2271  
    OP
       112 天前
    @love060701 显卡是有的,A100 应该有挺多的,就是不知道会不会给我用
    zhh2271
        17
    zhh2271  
    OP
       112 天前
    @love060701 这个生成脚本、规则文件的我感觉很难弄,像一些代码什么的,我感觉文档问答的话是不是用 RAG 就行了,但是这种脚本生成应该要怎么做啊
    Felixchen1062
        18
    Felixchen1062  
       112 天前
    从微调做起可以看看 unsloth, llmfactory, 如果想做 rag, workflow 之类的可以看看 dify, langchain,llamaindex 平台 , 固定行业脚本编写可能需要你有一些 prompt 经验, 以上内容拿去 gemini research,让他给你介绍一遍
    zhh2271
        19
    zhh2271  
    OP
       112 天前
    @love060701 1 这个应该不行,EDA 相关的文档很多
    Felixchen1062
        20
    Felixchen1062  
       112 天前
    @Felixchen1062 关于时间, 6 个月个人觉得足够, 多学习学习可能一个月都可以做一个初步的 MVP
    zhh2271
        21
    zhh2271  
    OP
       112 天前
    @Felixchen1062 好的 好的 谢谢!
    Felixchen1062
        22
    Felixchen1062  
       112 天前
    @zhh2271 对了, 关于固定行业脚本代码的风格化编写, 前面提到可能要做提示词工程, 核心可能还在智能体构建, 也需要学一下 Agent 之类的, 如果你能再创新做一个执行或者 balbala 生成的代码的 MCP 服务,我觉得更加分了, 最后羡慕佬能找到这样的好工作, 加油
    litchinn
        23
    litchinn  
       112 天前   ❤️ 2
    先确定你是要开发一个大模型还是开发一个 agent
    mumbler
        24
    mumbler  
       112 天前
    一个 RAG ,6 天就够了,哪要 6 个月那么久
    gaobh
        25
    gaobh  
       112 天前
    zhh2271
        26
    zhh2271  
    OP
       112 天前
    谢谢大家!!!!
    luny
        27
    luny  
       112 天前
    我觉得是在考核你的学习分析能力,而不是真的需要实习生来做一个完整的大模型案子,评估技术方案,补充自己缺失的技术点,给出大概可行的执行计划,这样
    zhh2271
        28
    zhh2271  
    OP
       112 天前
    对了,我还想问一下大家,这样的方案选择哪个大模型好一点
    xz410236056
        29
    xz410236056  
       112 天前   ❤️ 2
    实习生、大模型,知识库。贵司是如何将这几个词语联系起来的
    dqzby
        30
    dqzby  
       112 天前
    demo 半个月,上线上 1 年
    lneoi
        31
    lneoi  
       112 天前
    感觉是让你练手吧, 不然这东西犯不着让实习生来做, 熟悉技术栈和公司相关领域的知识, 用大模型做一个基础的专业领域问答. rag 最快, 有资源也可以做专门的训练.
    用一些开源框架熟悉流程, 最好不要用非常成品的项目改, 关键是实现技术和定制方案.
    zhh2271
        32
    zhh2271  
    OP
       112 天前
    @xz410236056 我也头大,我是不是实验小白鼠
    min
        33
    min  
       112 天前
    啥叫“实现大模型”?手搓模型? 微调模型?
    F281M6Dh8DXpD1g2
        34
    F281M6Dh8DXpD1g2  
       112 天前
    prompt engineering ,完事
    nomagick
        35
    nomagick  
       112 天前
    没有一个亿拍出来的话还是别想训模型的事了,拍一千万能稍微微调一下,连一百万都拍不出来,基本告别使用 GPU 了,老老实实在家调 API 完事
    zhh2271
        36
    zhh2271  
    OP
       112 天前 via Android
    @min 对的 我想着微调或者 rag 就好了,训练成本太高了
    zhh2271
        37
    zhh2271  
    OP
       112 天前 via Android
    @nomagick 我想问一下微调的话一个 A100 够吗,用 32B 的模型。这种的话微调一次大概要多久
    zhh2271
        38
    zhh2271  
    OP
       112 天前 via Android
    现在还有一个问题就是我们这个领域很不开源,训练数据的话可能会很少( ꈍᴗꈍ)
    nomagick
        39
    nomagick  
       112 天前
    @zhh2271 一个 A100 那不是一二十万,离 100 万还差着,属于告别 GPU 的层次

    单卡 A100 能运行 32B 的 Inference ,训练/微调没门,最多微调 2.5B ,运行到猴年马月,训练的时候你人还得一直盯着随时处理突发状况。

    还是调 API 吧,也有人提供微调 API 的
    raydied
        40
    raydied  
       112 天前
    这就是个知识库问答吧?
    chatgpt 问一下,按照主流路线部署一下。
    最难的点,应该是贵司文档的可解析性。
    name1991
        41
    name1991  
       112 天前
    没搞过啊,想搞大模型,那先问下大模型?
    zhh2271
        42
    zhh2271  
    OP
       112 天前 via Android
    @name1991 哈哈哈 感觉 gpt 什么的回答的不是很准确
    name1991
        43
    name1991  
       112 天前
    公司肯定不会指望你能搞出啥来,主要是还是让你摸索的
    zhh2271
        44
    zhh2271  
    OP
       112 天前 via Android
    @name1991 我也觉得是这样,但是感觉没搞好的话估计也就留不下来了😂,后面毕业还是挺想从事 eda 相关的,这家公司在国内 eda 也算几了
    name1991
        45
    name1991  
       112 天前
    @zhh2271 #44 那就好好搞吧,我估计主要是看你思路了,如果有些小的惊喜给到你的领导,估计就稳了。
    SmiteChow
        46
    SmiteChow  
       112 天前
    drc 和 lvs 都是很窄的领域,有语法标准,用不着数据训练,只需要把标准告诉大模型就可以了。但是你们做 eda 肯定是要做 layout 检查啊,又不是做 pdk 开发,大头还是在 gds 解析和图形运算上,这个大模型不擅长啊,大模型又不是计算器。
    zhh2271
        47
    zhh2271  
    OP
       112 天前
    @SmiteChow 不是做检查的,只是写一下检查 DRC/LVS 的脚本什么的
    clemente
        48
    clemente  
       112 天前
    sft 或者 post train 去看吧 然后找一个开源的模型 + 你们领域的数据集 去做训练

    一共就两步
    1. 整理数据集
    2. 选型大模型 做 post train
    lxqxqxq
        49
    lxqxqxq  
       112 天前
    @hefish #3 哥们是在开玩笑的
    AllenCai
        50
    AllenCai  
       112 天前
    这个一般用微调就行了,微调中数据的重要性占 80%,所以第一步就是要有高质量数据集,没有这个都是扯淡
    Clannad0708
        51
    Clannad0708  
       112 天前
    公司有资源可以本地微调下,没有资源就本地部署个大模型比如 deepseek 。然后挂个 rag 让领导自己玩就行了
    JoeDH
        52
    JoeDH  
       112 天前
    搞什么都没事,但你要及时跟他同步进度,有关键方案要及时整理文档跟他对齐,让他拍板
    别闷头搞
    GreenHand
        53
    GreenHand  
       112 天前   ❤️ 2
    建议先评估。在公司内收集一批带 groundtruth 的题目,找几个最好的模型,用盲评评估下结果,看哪些模型最好。可选的就 deepseek 、claude 4 sonnet 、codex (既然提到规则编写,默认就把 coding sota 模型加进来了),其它认为效果不错的模型。这里分两批模型:可落地的模型和 sota 模型。

    决定是否训练模型。基于可落地模型和 sota 模型的效果评估和差距,决定是否要训练模型。最好的情况是可落地的模型( deepseek 、qwen3 、doubao-1.5 等)效果就不错了,直接用(不考虑数据泄露)或者买 gpu 自己部署(数据安全)。

    如果差距较大且对效果不满意,需要考虑训练模型,确定如何训练,蒸馏、sft 、rft 等。这条路比上面的成本就高多了,需要考虑准备数据、制定评估标准、评估、训练,甚至数据飞轮。你们公司大概率是没有训练平台,需要找一个。整个过程,一个人是搞不定的。

    最后模型效果好了,才考虑落地。

    建议先评估下 roi ,是否值得做。评估下「大模型可以回答当前我们软件的一些流程怎么进行,最好可以实现一些 DRC/LVS 规则文件的编写什么的」能够带来多大的收益,是否值得投入对应的成本。
    Donahue
        54
    Donahue  
       112 天前
    我的理解是 RAG, 至于生成脚本,就是让大模型调用 MCP 服务创建文件罢了
    2018yuli
        55
    2018yuli  
       112 天前
    我刚开始学大模型,可能帮不了你
    mh
        56
    mh  
       112 天前
    RAG 用 AnythingLLM ( 1 天)
    生成特定规则的文件需要慢慢调提示词,用时因人而异。
    不过远没到 6 个月的程度,也不需要涉及训练
    coefu
        57
    coefu  
       112 天前
    靠,实习生真 tm 性价比。钱少还忠诚。
    coefu
        58
    coefu  
       112 天前
    花了点时间想了下,其实就是 2 点:
    1 ,知识体系的问答,rag 足矣
    2 ,要做事,mcp 这套
    zhh2271
        59
    zhh2271  
    OP
       112 天前 via Android
    @coefuqin 没办法,现在工作不好找,找到个坑感觉把自己按住😭,现在 eda 不比以前了,感觉像互联网一样也开始卷了。
    coefu
        60
    coefu  
       112 天前
    @zhh2271 你做这个事情,要一开始就和上级商量好,要么开个小会,一次性把需求说好,形成书面文档,开会你记笔记你确定需求,然后发邮件给上级(搞正式一点,这样让他也知道这个事情是你用心做的),后续不能随便更新需求,要更新也要形成正式的书面文档在邮件体现。这种口头交代的鸟事,最烦每天想没想好就给你来一下需求,那后续就没得做了。需求确定再想办法,如果做的不符合需求是你能力的事,如果符合需求他们不满意,是他们的事。
    zhh2271
        61
    zhh2271  
    OP
       112 天前 via Android
    @coefuqin 好的好的,谢谢哥!
    vpsvps
        62
    vpsvps  
       112 天前
    开的工资大概多少
    才能预计对你这个岗位的真实期望水平
    有 20k 一个月吗?
    zhh2271
        63
    zhh2271  
    OP
       112 天前 via Android
    @vpsvps 我实习按天算的 260 一天😭
    zhh2271
        64
    zhh2271  
    OP
       112 天前 via Android
    @vpsvps 正式工肯定有的
    simo
        65
    simo  
       112 天前
    楼上说了很多,主要是需求确认清楚,很可能 rag+提示词就能解决,也可能采集大量数据,陷入微调漩涡半生。
    zhh2271
        66
    zhh2271  
    OP
       112 天前 via Android
    @simo 我目前是打算先用 rag 来做,快一些,然后做一些 prompt 工程什么的,确实对微调调研了一下,硬件资源消耗高,对数据集也要求高,训练出来还不一定好
    zt5b79527
        67
    zt5b79527  
       112 天前
    @zhh2271 #38 所以最适合你(唯一适合你)的就是 rag ,两周搞定,摸鱼俩月学点自己想学的东西,然后再汇报,提前且高质量完工,美滋滋。
    Liftman
        68
    Liftman  
       112 天前
    那你们公司有点扯淡的。让新人做这个。而且还是完全没有经验的。

    如果只是回答问题的话,实现很容易,关键是回答质量和效率。

    什么叫主管说不能生成脚本。这是什么鬼话。
    baiyixueqi
        69
    baiyixueqi  
       112 天前
    6 个月后给他手机装一个腾讯元宝或者 DeepSeek App 就行了
    wangyzj
        70
    wangyzj  
       112 天前
    你是 ee 还是 cs ?
    Adelell
        71
    Adelell  
       112 天前
    不管 3721 ,先申请一套高配 GPU 集群
    mumbler
        72
    mumbler  
       112 天前
    朱啸虎:不要花费一分钱在训练模型上
    isSamle
        73
    isSamle  
       111 天前
    训练是不可能训练的,不说硬件吃不吃得住,数据就是一个很大的问题。
    按我的做法就是,去理解目前人工实现 DRC/LVS 规则文件编写的流程和逻辑,通过将任务工程化拆分,第一步做什么,第二步做什么(因为模型上下文长度有限),然后就是暴力工程流:AI 按 RAG 相关检索资料执行第一步→AI 按 RAG 检索资料评估第一步执行结果→评估不通过 AI 生成修改意见并重新生成→持续评估并修复生成→同理循环遍历执行相关任务,直至最终完成并校验通过
    WeaponXu
        74
    WeaponXu  
       111 天前
    你现在的问题不是技术选型,是硬件设备公司能不能提供 你搞训练起码得接近一千万的硬件投入 GPU 服务器 交换机 光模块,那这个工作交给实习生的公司 我不觉得会在这个项目投入这么多钱
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1219 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 17:35 · PVG 01:35 · LAX 10:35 · JFK 13:35
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.