V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Sh1xin
V2EX  ›  Local LLM

私有化部署 LLM 及 LVM 选型方案意见收集

  •  
  •   Sh1xin · 6 天前 · 1357 次点击
    兄弟们,我们公司买了 4 张 A100.现在准备部署一个 LLM 和一个 LVM 。
    目前考虑
    LLM:qwen3 30B ;
    LVM:qwen3-vl-32B-Instruct

    不知道大伙们有没有更好的建议

    需求:主要还是做知识库,智能客服问答,以及 OCR 的功能
    23 条回复    2025-11-12 13:27:53 +08:00
    bluryar
        1
    bluryar  
       6 天前
    LVM 为什么和 LLM 是排他的,这个配置:QuantTrio/Qwen3-VL-235B-A22B-Thinking-AWQ 洒洒水
    Sh1xin
        2
    Sh1xin  
    OP
       6 天前
    @bluryar 是的,也有考虑直接使用一个 Qwen3-VL-235B-A22B 来完成所有功能。就是不知道实际效果,而且看官方是建议 8×80GB 。现有硬件性能不足
    bluryar
        3
    bluryar  
       6 天前
    1. AWQ ,最低的硬件要求除个 4 即可
    2. 4 张卡都用来跑 LLM 的话,其他小模型跑在哪?
    cbythe434
        4
    cbythe434  
       6 天前
    单卡跑小模型,另外三张自己玩
    orzsome
        5
    orzsome  
       6 天前
    借个楼问一下,如果就一张 A100 ,想要部署嵌入跟重排序,加上 LLM/LVM ,可以部署多大参数量的?如果都是 qwen3 ,是不是最多嵌入跟重排序是 0.6B ,LLM/LVM 最多是 30B int8 就是极限了,其他的显存留给并发的上下文什么的?我没有这方面的经验,请各位大佬能给一点建议
    Sh1xin
        6
    Sh1xin  
    OP
       6 天前
    @bluryar 其他的目前只有用到一个向量模型,其他暂时没需求,一般小模型的企业内部有啥需求场景嘛,我们目前还没找到,所以没有这方面的考虑
    Sh1xin
        7
    Sh1xin  
    OP
       6 天前
    @cbythe434 别闹哥,公司干活用的
    bluryar
        8
    bluryar  
       6 天前
    @Sh1xin 没场景就随便部署一个交差
    kinkin666
        9
    kinkin666  
       6 天前
    我是
    docker 的 xinference 跑 0.6B ,用 CPU 跑,搞意图识别词嵌入重排序够了,不能让 gpu 跑个半死 cpu 搁那抖腿
    docker 的 vllm 跑大的,编程接口一致点方便些
    Sh1xin
        10
    Sh1xin  
    OP
       6 天前
    @bluryar 现有需求场景就是三个①知识库②智能客服问答③OCR
    zsj1029
        11
    zsj1029  
       6 天前 via iPhone
    GPT oss 非常好,知识库吊打 ds ,20b 的就够用
    wangmn
        12
    wangmn  
       6 天前
    现在 A100 80G 啥价格
    Sh1xin
        13
    Sh1xin  
    OP
       6 天前
    @wangmn 公司买的,10W
    coefu
        14
    coefu  
       6 天前
    会不会 不叫 LVM ,而是叫 VLM ?
    coefu
        15
    coefu  
       6 天前
    @Sh1xin #2 unsloth/Qwen3-VL-235B-A22B-Thinking-GGUF,Q8_0-250 GB,Q8_K_XL-265 GB 。 肯定够的。
    bluryar
        16
    bluryar  
       6 天前
    @Sh1xin 4 张卡是全用于部署 LLM 还是需要部署包括 LLM\Embedding\Reranker 在内的所有模型?工作流复杂的情况下,你还有可能需要部署小参数的 LLM 。OCR 不知道部啥,就跑一个 MinerU 吧。

    您的应用还没搭建起来其实也说不清楚需要什么样的模型。作为网友当然是建议参数越大越好。
    mx2dream
        17
    mx2dream  
       6 天前
    ①知识库②智能客服问答③OCR 这些需求使用 30B 左右的参数有点浪费了。优先考虑总参数 100B 激活参数 10B 左右的稀疏模型高精度版,或 32B 尽量往上的稠密模型。这四张 A100 ,2 张主力跑 LLM 模型和框架,1 张用于 OCR 和向量检索嵌入,推荐先用传统 OCR 处理(比如 PaddleOCR 之类的),不推荐直接用 VLM 模型进行识别,总之尽量不要在第一步就引入 LLM 的幻觉),再搭配内外部知识库的 RAG 进行修正和降低幻觉,另外 1 张留给 KV 缓存和上下文,FlashAttention 建议打开,这东西在长上下文里对显存吞吐都有不少提升。另外,235B 有点太大了,没有多少冗余了。

    你要是还有精力,还可以根据你们公司内部的专门需求折腾下 Agent 。
    开始搭建好环境和框架之后,先搞几个 10B 左右的小模型测试一下,然后再换主力模型,这样稳一点。
    chspy
        18
    chspy  
       3 天前
    你可以先去提供这种服务的网站去咨询一下,比如 PPIO ,还能顺便把报价了解了。
    Sh1xin
        19
    Sh1xin  
    OP
       3 天前
    @mx2dream 先使用传统 OCR ,再用 VLM 进行输出结果的方案。之前试过效果不好,因为部分场景下 OCR 识别结果模糊,或者表格等拆分错误。导致 VLM 也错了。不过我们的 RPA 供应商目前也在使用这种方案,不知道这是否是行业通用解决方案,有关联资料可以参考嘛?

    目前我这边直接使用 qwen-2.5-vl-32B 。效果还可以。数据计算的部分由后面的 dify 代码节点完成。

    当前正在测试机上测试,感谢提供指导
    estrusoon
        20
    estrusoon  
       2 天前 via iPhone
    可以考虑一下 mistral
    mx2dream
        21
    mx2dream  
       1 天前
    @Sh1xin 试图用自动化解决绝大部分问题我认为也是一种幻觉,有些识别问题技术解决不了的就通过管理来解决。比如上传资料时按类别、清晰度、重要性和保密性等等打标签进行分级,如果资料级别达到比较高的程度,就在流程上专门引入人工校对或给相应权限的人复核就行了(否则全部自动化了还要人干什么),如果资料没那么重要,就不用太苛求太高的识别正确率了。
    Sh1xin
        22
    Sh1xin  
    OP
       1 天前
    @mx2dream 资料是客户提供的所需生产信息。涉及到生产数量,价格等内容,很重要。但是小客户太多了,提供的内容格式五花八门,并且也没有资格去约束客户强制统一模板。当前就是人工获取 PDF 等信息,手动复制出来,确认开单。但是这样又会导致校验的人员在一些场景下给客户额外承诺,另外开单,导致库存累加,占用
    mx2dream
        23
    mx2dream  
       1 天前
    @Sh1xin 这么看,你说的这些场景有点复杂了,不是单纯的技术问题了。从输入源就有问题,还涉及多部门,估计这个你一时很难解决,如果公司内部某些部门没有动力推进解决这些,问题会一直存在。对外部的小客户给一点优惠利益,你们再搞个统一的业务填报的入口,让他们往你们提供的入口迁移啊。不过这些事想想就很麻烦,就看你们自己的决策了。
    还有个想法,反正识别表单类的场景一般涉及的上下文和缓存也不大,就不用专门留太多冗余了,如果你多跑几个 VLM ,比对之后达到一定标准就往下个流程走呢,或者买点专门提供这块方案的供应商谈谈。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   892 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 20:48 · PVG 04:48 · LAX 12:48 · JFK 15:48
    ♥ Do have faith in what you're doing.