目前研 2 ,来到了国内一家 EDA 公司实习,预计实习半年左右,主管叫我实习期间实现一个大模型,用于公司的软件,之前都没有大模型或者 AI 方面的基础。主管的要求是这个大模型可以回答当前我们软件的一些流程怎么进行,最好可以实现一些 DRC/LVS 规则文件的编写什么的。这样的话兄弟们觉得应该用什么模型和技术好呢。目前调研打算用 DeepSeek + RAG + RAFT 这样来训练。
![]() |
1
zhh2271 OP 这样的大模型我一个人 6 个月能弄出来吗
|
![]() |
2
liu731 PRO |
5
hefish 112 天前
我觉得搞训练得先有数据,得看数据是啥样的。 rag 好像得是基于问答的,不用训练。
|
7
renmu 112 天前 via Android
一个实习生怕不是连公司业务都不清楚,业务部门会乖乖把所有流程给一个实习生吗?你怕不是推不动这件事
|
8
txhsj 112 天前
不要欺负老实人
|
9
u2b 112 天前
n8n 训练有点子牛吧,搞搞 rag 得了
|
11
KongKong369 112 天前
@hefish 这兄弟在和你扯呢。
|
12
Mzs 112 天前
|
![]() |
13
love060701 112 天前 ![]() 1 、如果上下文不长,直接把你们公司常用的文档当系统 prompt 写进去,需要使用上下文比较长的模型,DeepSeek 不行因为上下文太短,可以找 128K 上下文版本的 Qwen 。
2 、微调模型,基于某个版本的模型做额外的训练,推荐基于 70B 版本的模型做训练,微调好像只能基于密集模型,MoE 模型的微调比较困难。DeepSeek R1 也不行的,只能使用 DeepSeek 蒸馏出的模型。 3 、RAG ,就是外挂知识库,数据标准化->向量化,LLM 回答问题时把知识库作为上下文,可以使用 DeepSeek R1 作为 LLM ,有 Dify 、n8n 之类的开源实现,不过你们公司有那么多资源部署自己的 DeepSeek R1 么? |
14
chanlk 112 天前
|
![]() |
15
zhh2271 OP @renmu 是这样,主管叫我先基于一个商业工具开发一个大模型出来,后续再把这个迁移到我们的软件,商业工具的文档是非常丰富的。然后迁移的话也只需要实现我们部门的一个模块就好了,暂时不需要管其它部门
|
![]() |
16
zhh2271 OP @love060701 显卡是有的,A100 应该有挺多的,就是不知道会不会给我用
|
![]() |
17
zhh2271 OP @love060701 这个生成脚本、规则文件的我感觉很难弄,像一些代码什么的,我感觉文档问答的话是不是用 RAG 就行了,但是这种脚本生成应该要怎么做啊
|
![]() |
18
Felixchen1062 112 天前
从微调做起可以看看 unsloth, llmfactory, 如果想做 rag, workflow 之类的可以看看 dify, langchain,llamaindex 平台 , 固定行业脚本编写可能需要你有一些 prompt 经验, 以上内容拿去 gemini research,让他给你介绍一遍
|
![]() |
19
zhh2271 OP @love060701 1 这个应该不行,EDA 相关的文档很多
|
![]() |
20
Felixchen1062 112 天前
@Felixchen1062 关于时间, 6 个月个人觉得足够, 多学习学习可能一个月都可以做一个初步的 MVP
|
![]() |
21
zhh2271 OP @Felixchen1062 好的 好的 谢谢!
|
![]() |
22
Felixchen1062 112 天前
@zhh2271 对了, 关于固定行业脚本代码的风格化编写, 前面提到可能要做提示词工程, 核心可能还在智能体构建, 也需要学一下 Agent 之类的, 如果你能再创新做一个执行或者 balbala 生成的代码的 MCP 服务,我觉得更加分了, 最后羡慕佬能找到这样的好工作, 加油
|
![]() |
23
litchinn 112 天前 ![]() 先确定你是要开发一个大模型还是开发一个 agent
|
24
mumbler 112 天前
一个 RAG ,6 天就够了,哪要 6 个月那么久
|
![]() |
25
gaobh 112 天前
https://github.com/hiyouga/LLaMA-Factory/blob/main/README_zh.md
用这个,接上 gpu ,一键微调 |
![]() |
26
zhh2271 OP 谢谢大家!!!!
|
![]() |
27
luny 112 天前
我觉得是在考核你的学习分析能力,而不是真的需要实习生来做一个完整的大模型案子,评估技术方案,补充自己缺失的技术点,给出大概可行的执行计划,这样
|
![]() |
28
zhh2271 OP 对了,我还想问一下大家,这样的方案选择哪个大模型好一点
|
29
xz410236056 112 天前 ![]() 实习生、大模型,知识库。贵司是如何将这几个词语联系起来的
|
30
dqzby 112 天前
demo 半个月,上线上 1 年
|
31
lneoi 112 天前
感觉是让你练手吧, 不然这东西犯不着让实习生来做, 熟悉技术栈和公司相关领域的知识, 用大模型做一个基础的专业领域问答. rag 最快, 有资源也可以做专门的训练.
用一些开源框架熟悉流程, 最好不要用非常成品的项目改, 关键是实现技术和定制方案. |
![]() |
32
zhh2271 OP @xz410236056 我也头大,我是不是实验小白鼠
|
![]() |
33
min 112 天前
啥叫“实现大模型”?手搓模型? 微调模型?
|
![]() |
34
F281M6Dh8DXpD1g2 112 天前
prompt engineering ,完事
|
![]() |
35
nomagick 112 天前
没有一个亿拍出来的话还是别想训模型的事了,拍一千万能稍微微调一下,连一百万都拍不出来,基本告别使用 GPU 了,老老实实在家调 API 完事
|
![]() |
38
zhh2271 OP 现在还有一个问题就是我们这个领域很不开源,训练数据的话可能会很少( ꈍᴗꈍ)
|
![]() |
39
nomagick 112 天前
@zhh2271 一个 A100 那不是一二十万,离 100 万还差着,属于告别 GPU 的层次
单卡 A100 能运行 32B 的 Inference ,训练/微调没门,最多微调 2.5B ,运行到猴年马月,训练的时候你人还得一直盯着随时处理突发状况。 还是调 API 吧,也有人提供微调 API 的 |
![]() |
40
raydied 112 天前
这就是个知识库问答吧?
chatgpt 问一下,按照主流路线部署一下。 最难的点,应该是贵司文档的可解析性。 |
41
name1991 112 天前
没搞过啊,想搞大模型,那先问下大模型?
|
43
name1991 112 天前
公司肯定不会指望你能搞出啥来,主要是还是让你摸索的
|
![]() |
44
zhh2271 OP @name1991 我也觉得是这样,但是感觉没搞好的话估计也就留不下来了😂,后面毕业还是挺想从事 eda 相关的,这家公司在国内 eda 也算几了
|
![]() |
46
SmiteChow 112 天前
drc 和 lvs 都是很窄的领域,有语法标准,用不着数据训练,只需要把标准告诉大模型就可以了。但是你们做 eda 肯定是要做 layout 检查啊,又不是做 pdk 开发,大头还是在 gds 解析和图形运算上,这个大模型不擅长啊,大模型又不是计算器。
|
![]() |
48
clemente 112 天前
sft 或者 post train 去看吧 然后找一个开源的模型 + 你们领域的数据集 去做训练
一共就两步 1. 整理数据集 2. 选型大模型 做 post train |
![]() |
50
AllenCai 112 天前
这个一般用微调就行了,微调中数据的重要性占 80%,所以第一步就是要有高质量数据集,没有这个都是扯淡
|
![]() |
51
Clannad0708 112 天前
公司有资源可以本地微调下,没有资源就本地部署个大模型比如 deepseek 。然后挂个 rag 让领导自己玩就行了
|
52
JoeDH 112 天前
搞什么都没事,但你要及时跟他同步进度,有关键方案要及时整理文档跟他对齐,让他拍板
别闷头搞 |
![]() |
53
GreenHand 112 天前 ![]() 建议先评估。在公司内收集一批带 groundtruth 的题目,找几个最好的模型,用盲评评估下结果,看哪些模型最好。可选的就 deepseek 、claude 4 sonnet 、codex (既然提到规则编写,默认就把 coding sota 模型加进来了),其它认为效果不错的模型。这里分两批模型:可落地的模型和 sota 模型。
决定是否训练模型。基于可落地模型和 sota 模型的效果评估和差距,决定是否要训练模型。最好的情况是可落地的模型( deepseek 、qwen3 、doubao-1.5 等)效果就不错了,直接用(不考虑数据泄露)或者买 gpu 自己部署(数据安全)。 如果差距较大且对效果不满意,需要考虑训练模型,确定如何训练,蒸馏、sft 、rft 等。这条路比上面的成本就高多了,需要考虑准备数据、制定评估标准、评估、训练,甚至数据飞轮。你们公司大概率是没有训练平台,需要找一个。整个过程,一个人是搞不定的。 最后模型效果好了,才考虑落地。 建议先评估下 roi ,是否值得做。评估下「大模型可以回答当前我们软件的一些流程怎么进行,最好可以实现一些 DRC/LVS 规则文件的编写什么的」能够带来多大的收益,是否值得投入对应的成本。 |
54
Donahue 112 天前
我的理解是 RAG, 至于生成脚本,就是让大模型调用 MCP 服务创建文件罢了
|
55
2018yuli 112 天前
我刚开始学大模型,可能帮不了你
|
![]() |
56
mh 112 天前
RAG 用 AnythingLLM ( 1 天)
生成特定规则的文件需要慢慢调提示词,用时因人而异。 不过远没到 6 个月的程度,也不需要涉及训练 |
![]() |
57
coefu 112 天前
靠,实习生真 tm 性价比。钱少还忠诚。
|
![]() |
58
coefu 112 天前
花了点时间想了下,其实就是 2 点:
1 ,知识体系的问答,rag 足矣 2 ,要做事,mcp 这套 |
![]() |
60
coefu 112 天前
@zhh2271 你做这个事情,要一开始就和上级商量好,要么开个小会,一次性把需求说好,形成书面文档,开会你记笔记你确定需求,然后发邮件给上级(搞正式一点,这样让他也知道这个事情是你用心做的),后续不能随便更新需求,要更新也要形成正式的书面文档在邮件体现。这种口头交代的鸟事,最烦每天想没想好就给你来一下需求,那后续就没得做了。需求确定再想办法,如果做的不符合需求是你能力的事,如果符合需求他们不满意,是他们的事。
|
62
vpsvps 112 天前
开的工资大概多少
才能预计对你这个岗位的真实期望水平 有 20k 一个月吗? |
![]() |
65
simo 112 天前
楼上说了很多,主要是需求确认清楚,很可能 rag+提示词就能解决,也可能采集大量数据,陷入微调漩涡半生。
|
![]() |
66
zhh2271 OP @simo 我目前是打算先用 rag 来做,快一些,然后做一些 prompt 工程什么的,确实对微调调研了一下,硬件资源消耗高,对数据集也要求高,训练出来还不一定好
|
![]() |
68
Liftman 112 天前
那你们公司有点扯淡的。让新人做这个。而且还是完全没有经验的。
如果只是回答问题的话,实现很容易,关键是回答质量和效率。 什么叫主管说不能生成脚本。这是什么鬼话。 |
![]() |
69
baiyixueqi 112 天前
6 个月后给他手机装一个腾讯元宝或者 DeepSeek App 就行了
|
![]() |
70
wangyzj 112 天前
你是 ee 还是 cs ?
|
![]() |
71
Adelell 112 天前
不管 3721 ,先申请一套高配 GPU 集群
|
72
mumbler 112 天前
朱啸虎:不要花费一分钱在训练模型上
|
![]() |
73
isSamle 111 天前
训练是不可能训练的,不说硬件吃不吃得住,数据就是一个很大的问题。
按我的做法就是,去理解目前人工实现 DRC/LVS 规则文件编写的流程和逻辑,通过将任务工程化拆分,第一步做什么,第二步做什么(因为模型上下文长度有限),然后就是暴力工程流:AI 按 RAG 相关检索资料执行第一步→AI 按 RAG 检索资料评估第一步执行结果→评估不通过 AI 生成修改意见并重新生成→持续评估并修复生成→同理循环遍历执行相关任务,直至最终完成并校验通过 |
74
WeaponXu 111 天前
你现在的问题不是技术选型,是硬件设备公司能不能提供 你搞训练起码得接近一千万的硬件投入 GPU 服务器 交换机 光模块,那这个工作交给实习生的公司 我不觉得会在这个项目投入这么多钱
|