1
Marshaii 5 天前 via iPhone
|
5
waityan 5 天前
别想了,这最大只能部署 1.58 -bit 的版本吧,用处不大。不如直接用 QWQ-32B 吧
|
![]() |
8
ychost 5 天前
建议 QWQ 吧,你这个部署低级量化版本效果不理想
|
![]() |
9
Chihaya0824 5 天前
4*8*24=768G
这显存应该够,为啥只能部署低精度的... 神奇,ray+vllm 不能用,ray list nodes 正常吗? 那要不试一下 llama.cpp rpc mode? https://github.com/ggml-org/llama.cpp/blob/master/examples/rpc/README.md |
![]() |
10
Clannad0708 5 天前
ollama 吧看看,网上不是很多方案吗
|
![]() |
11
dayanshenjun 5 天前
@mcsddjyd #6 7 楼老哥说的是对的,但是 RoCE 的话带宽估计也不行,我们也在研究,想要部署 671B FP8 版本的话,单台八卡至少是 H20 96G 的,集群的话,供应商推荐至少是 400G 的 IB 网卡起步,初步算至少 200W 吧😂
|
12
SeaRecluse 5 天前
没有 NVLink 还想部署,老老实实换 X100 系列
|
![]() |
13
kd9yYw2RyhQwAwzn 5 天前
单纯跑起来的话 sglang 或者 ray cluster 就行
|
![]() |
14
Zaden 4 天前
4090 没法做服务器之间集群的,普通的 pcie 连接带宽不够,需要 nvlink 、hccs 之类专用总线
|