Hermitist
V2EX  ›  Local LLM

推荐一个 GPU 推理速度计算器, 可能方便买配件自建本地大模型的人用上

  •  
  •   Hermitist · 14 days ago · 2319 views
    18 replies    2026-05-08 10:29:51 +08:00
    ddddad
        1
    ddddad  
       14 days ago
    挺好,给出模型评分参考就更好了
    tanglinchuanz
        2
    tanglinchuanz  
       13 days ago
    好东西
    shiyuu
        3
    shiyuu  
       13 days ago
    上面的推理速度就图个乐,实际只有 1/3 ,至少我选了自己用的显卡和模型对比了一下,而且我还是部署的量化版
    jifengg
        4
    jifengg  
       11 days ago
    选了我在用的硬件和模型,估算出来的速度倒是蛮接近的。
    clemente
        5
    clemente  
       11 days ago
    没用
    clemente
        6
    clemente  
       11 days ago
    实际部署性能影响的因素蛮多的
    diudiuu
        7
    diudiuu  
       11 days ago
    @shiyuu 兄弟看下参数,模型还有先看我去看下实际效果
    midraos
        8
    midraos  
       11 days ago
    不太准确,我在 amd 7950x + nvidia 5080 上部署的 qwen 3.6 35b a3b 模型,速度能达到 40t/s
    diudiuu
        9
    diudiuu  
       11 days ago
    @midraos
    https://tps.bunai.cc/?gpu=rtx5080&ic=nvlink5&model=qwen3_6_35b_a3b&quant=int3&ctx=16384&pl=1024&ol=1024&fw=theory&pcie=gen4&co=1

    我在别人得帖子回复我得东西,老哥你采用什么方式部署得 nvidia 5080 ,我看理论是 39
    midraos
        10
    midraos  
       11 days ago
    @diudiuu #9 直接用的 lm studio ,用的 Q6 量化,通过调整配置,将 MOE 层部署在 cpu ,通用层部署在显卡,这样做比使用低量化的效果好,比在 CPU 部署的速度快,上下文大小能达到 128k 以上,token 生成速度有 40t/s
    diudiuu
        11
    diudiuu  
       11 days ago
    @midraos 有个疑问采用--n-gpu-layers 还是--n-cpu-moe 这个哪个参数,我用公式--n-cpu-moe 理论跟你的差不多,希望能给看下真实的部署参数,目前是按照--n-gpu-layers 分层计算的

    可以把图 https://github.com/adiudiuu/tps/issues 放在这
    diudiuu
        12
    diudiuu  
       10 days ago
    @midraos
    https://tps.bunai.cc/?gpus=rtx5080%3A1&ic=nvlink5&model=qwen3_6_35b_a3b&quant=int6&ctx=16384&pl=1024&ol=1024&fw=llamacpp&pcie=gen5&co=1&pw=x16

    其实系统已经有这个逻辑,判断有点问题,已经修复了
    详细可以看 https://github.com/adiudiuu/tps/issues/2 这个,我已经总结了

    多提问题就当学习了
    Hermitist
        13
    Hermitist  
    OP
       10 days ago
    @diudiuu 原来你是这个产品作者啊, 失敬失敬, 这个软件用什么做的? 可以用来做一些推荐站, 方便留个联系方式吗?
    diudiuu
        14
    diudiuu  
       10 days ago
    @Hermitist

    https://github.com/adiudiuu/tps
    代码是全公开的,vue 前端写法。
    算法是一边看一边学,大部分还是 ai+实际帖子例子。
    beginor
        15
    beginor  
       10 days ago
    算法不太准确,比实际的高很多,M1Max 用户路过
    Hermitist
        16
    Hermitist  
    OP
       10 days ago
    @diudiuu 这个直接是页面? 没有后台管理系统?
    diudiuu
        17
    diudiuu  
       9 days ago
    @Hermitist 单页面应用,没有管理后台,纯靠 js 算出来的
    diudiuu
        18
    diudiuu  
       9 days ago
    @beginor 希望提供下真实数据,我瞅瞅算法
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1133 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 42ms · UTC 17:39 · PVG 01:39 · LAX 10:39 · JFK 13:39
    ♥ Do have faith in what you're doing.