V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
一键将照片转化为漫画插画
可一键将生活照转化为吉卜力风格、漫画风格、Q版头像风格等风格照,支持GPT4o,Veo3,可灵,Flux.1 Kontext等先进模型
Promoted by johnwayne
mingtdlb
V2EX  ›  Local LLM

大模型私有化是怎么集群部署的?

  •  
  •   mingtdlb · 129 天前 · 899 次点击
    这是一个创建于 129 天前的主题,其中的信息可能已经有所发展或是发生改变。

    基于大模型要比较多的显卡资源,但一台服务器 pcie 插槽有限。

    那大模型是怎么集群化的,比如部署 deepseek R1 671B,应该需要很多资源吧。我不知道多少,假设 10 台服务器,每台 3 块 RTX 4090 。

    那它是怎么组成集群呢

    6 条回复    2025-03-04 15:32:58 +08:00
    Tinet
        1
    Tinet  
       129 天前
    tensorflow 这些架构自带的吧
    erquren
        2
    erquren  
       129 天前
    vllm 节点 组网
    marcong95
        3
    marcong95  
       129 天前
    有为这个需求特化的服务器主板不是都有 8 卡以上的 PCIe 插槽么,例如当年的矿机主板还有用 USB 3.0 物理接口走 PCIe x1 的骚操作,理论上你要能插 H100*8+也不是不行。
    mingtdlb
        4
    mingtdlb  
    OP
       129 天前
    @marcong95 举例,,并不是要去部署,只是好奇。像大厂他们部署,用户量那么多,一个集群总不能就整个三五台插满显卡的主机啊
    zhazi
        5
    zhazi  
       129 天前
    NCCL ,英伟达提供了通讯库

    简单理解成 mapreduce
    volvo007
        6
    volvo007  
       128 天前
    @mingtdlb 硬件上要购买专门的连接器,所以 nv 才会按节点来卖,一个节点 8 张卡,节点之间通过光纤连接。基本上也都推测因为这个分布式计算的需求,nv 才收购了专做网络的 mellanox
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4922 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 09:13 · PVG 17:13 · LAX 02:13 · JFK 05:13
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.