V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
dafen7
V2EX  ›  程序员

最低成本本地运行 70B 模型, V 友有哪些建议

  •  
  •   dafen7 · 8 天前 · 1601 次点击

    如题,最新体验英伟达的 70Bllama 感觉不错,打算搞个机器本地跑一跑。目前打算 x99 准系统+4*(p40/v100)搞一搞,有没有实践过的老哥评价下可行性,就奔着捡垃圾极致性价比来搞

    15 条回复    2024-11-05 17:23:27 +08:00
    papersnake
        1
    papersnake  
       8 天前
    4 * v100 跑 int8 量化没问题,速度可能会慢一点;占用大约 70GB 模型参数+20GB 的 kv 缓存
    kzfile
        2
    kzfile  
       8 天前
    说实话,就算是捡垃圾,4 路 p40 也不便宜了。我觉得先租个云主机玩玩得了
    lithiumii
        3
    lithiumii  
       8 天前 via Android
    最低成本? cpu 跑呗,搞 128G 内存,跑量化的版本
    xye0542
        4
    xye0542  
       8 天前
    2080ti 魔改 22G 版本也行吧。价格应该比 v100 便宜。现在应该不到 3k 一张卡。也能支持 nvlink
    liu731
        5
    liu731  
       8 天前
    直接二手 4090 ,到时候不玩了卖也亏不了多少钱
    Hookery
        6
    Hookery  
       8 天前
    70B 就不可能低成本。。。
    之前也想过低成本搞一套,P40 和 P100 都涨飞天了,而且还需要魔改散热,稳定性是堪忧的。多卡也需要电源,电源成本也跟着上来了。
    最低成本直接搞两张 P102 ,单张 200 ,两张 400 ,一共 20G 显存,可以玩 32B 的 4bit 量化。整机成本不破千。

    70B 显存需求大概在 40G 作用,最便宜就是两张 2080TI 22G ,两张卡都上 5K 了。
    lsilencej
        7
    lsilencej  
       8 天前
    看看 https://github.com/SJTU-IPADS/PowerInfer ,有量化好的 70B llama 可以跑 https://huggingface.co/PowerInfer/ReluLLaMA-70B-PowerInfer-GGUF ,限制显存可以在单卡上部署,不过好像对 70B 模型优化差点意思
    shuimugan
        8
    shuimugan  
       8 天前
    P40 很垃圾的,10 张 P40 加一起速度还没到 M2 Ultra 的 1/3
    kuhung
        9
    kuhung  
       8 天前
    我在看 mac 的大内存版本,还没确定是 M4Pro 的 mini 64G 还是 M2U 的 studio
    mmdsun
        10
    mmdsun  
       8 天前 via iPhone
    魔改显卡,双显卡主机
    dafen7
        11
    dafen7  
    OP
       7 天前
    @kuhung 我看了之前 mac mini 下面的评论,老哥们说带宽不行,还是不如显卡
    dafen7
        12
    dafen7  
    OP
       7 天前
    @Hookery 就是想着除了显卡之外尽量压缩其他成本,目前看了咸鱼几个超微的 4u 准系统都要 2000-3000
    dafen7
        13
    dafen7  
    OP
       7 天前
    @shuimugan macbookpro 能跑 70B 吗,我感觉真搞个 mac 大内存也行,不是说带宽不足吗
    Hookery
        14
    Hookery  
       7 天前
    大模型不吃 CPU 啊,不一定必须上超微吧,除非你要 4 满速 PCIE 接口,民用主板才没有。
    shuimugan
        15
    shuimugan  
       7 天前   ❤️ 1
    @dafen7 mac book pro 能跑 70B 吗?能
    带宽不足吗?不足,所以速度慢
    慢多少?带宽是 Ultra 的多少,速度就是 Ultra 的多少,看 https://github.com/ggerganov/llama.cpp/discussions/4167 可以发现带宽就是首要的决定因素,而且模型越大,带宽瓶颈需求就越大,特别是 70B 这个体量,传输都不够了,算得再快都没用
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1453 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 23:51 · PVG 07:51 · LAX 15:51 · JFK 18:51
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.