1
ddddad 14 days ago
挺好,给出模型评分参考就更好了
|
2
tanglinchuanz 13 days ago
好东西
|
3
shiyuu 13 days ago
上面的推理速度就图个乐,实际只有 1/3 ,至少我选了自己用的显卡和模型对比了一下,而且我还是部署的量化版
|
4
jifengg 11 days ago
选了我在用的硬件和模型,估算出来的速度倒是蛮接近的。
|
5
clemente 11 days ago
没用
|
6
clemente 11 days ago
实际部署性能影响的因素蛮多的
|
8
midraos 11 days ago
不太准确,我在 amd 7950x + nvidia 5080 上部署的 qwen 3.6 35b a3b 模型,速度能达到 40t/s
|
9
diudiuu 11 days ago
@midraos
https://tps.bunai.cc/?gpu=rtx5080&ic=nvlink5&model=qwen3_6_35b_a3b&quant=int3&ctx=16384&pl=1024&ol=1024&fw=theory&pcie=gen4&co=1 我在别人得帖子回复我得东西,老哥你采用什么方式部署得 nvidia 5080 ,我看理论是 39 |
10
midraos 11 days ago
@diudiuu #9 直接用的 lm studio ,用的 Q6 量化,通过调整配置,将 MOE 层部署在 cpu ,通用层部署在显卡,这样做比使用低量化的效果好,比在 CPU 部署的速度快,上下文大小能达到 128k 以上,token 生成速度有 40t/s
|
11
diudiuu 11 days ago
@midraos 有个疑问采用--n-gpu-layers 还是--n-cpu-moe 这个哪个参数,我用公式--n-cpu-moe 理论跟你的差不多,希望能给看下真实的部署参数,目前是按照--n-gpu-layers 分层计算的
可以把图 https://github.com/adiudiuu/tps/issues 放在这 |
12
diudiuu 10 days ago
@midraos
https://tps.bunai.cc/?gpus=rtx5080%3A1&ic=nvlink5&model=qwen3_6_35b_a3b&quant=int6&ctx=16384&pl=1024&ol=1024&fw=llamacpp&pcie=gen5&co=1&pw=x16 其实系统已经有这个逻辑,判断有点问题,已经修复了 详细可以看 https://github.com/adiudiuu/tps/issues/2 这个,我已经总结了 多提问题就当学习了 |
14
diudiuu 10 days ago
|
15
beginor 10 days ago
算法不太准确,比实际的高很多,M1Max 用户路过
|