基于大模型要比较多的显卡资源,但一台服务器 pcie 插槽有限。
那大模型是怎么集群化的,比如部署 deepseek R1 671B,应该需要很多资源吧。我不知道多少,假设 10 台服务器,每台 3 块 RTX 4090 。
那它是怎么组成集群呢