V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
cinlen
V2EX  ›  Local LLM

本地跑 sd 和 local llm 推理, 什么显卡性价比最高?

  •  
  •   cinlen · 176 天前 · 3820 次点击
    这是一个创建于 176 天前的主题,其中的信息可能已经有所发展或是发生改变。

    如题。

    纯推理,主要用于个人学习(sd, ollama 小参数模型), 没有微调需求。

    38 条回复    2024-07-01 11:02:47 +08:00
    justFxxk2060
        1
    justFxxk2060  
       176 天前
    2080ti 魔改
    13240284671
        2
    13240284671  
       176 天前
    3060ti 16g
    13240284671
        3
    13240284671  
       176 天前
    说错了,4060 16g
    hez2010
        4
    hez2010  
       176 天前
    本地一般是跑量化后的模型,你的显卡起码得支持 INT8 和 INT4 。
    netizenHan
        5
    netizenHan  
       176 天前
    应该要求不高吧,前两天看公司里有人用 M3 的 macpro 都能部署 LLaMA3-8B ,不过就是比较慢
    cinlen
        6
    cinlen  
    OP
       176 天前
    @justFxxk2060 有看到 2080ti + 22g 的方案,这个靠谱吗?
    cinlen
        7
    cinlen  
    OP
       176 天前
    @hez2010 最好是可以 fp16
    my101du
        8
    my101du  
       176 天前
    @13240284671 非 ti 的 4060 , 好像都是 8G 的? 618 想装机都没找到 16G 的 4060.
    cinlen
        9
    cinlen  
    OP
       176 天前
    @netizenHan 目前我是 m1 跑小模型没啥问题。 但还有 sd webui 和 sd comfyui 的需求,所以应该会攒台新机器。
    ccloving
        10
    ccloving  
       176 天前
    如果是 SD 和 ollama ,用 A 卡是不是就可以
    cinlen
        11
    cinlen  
    OP
       176 天前
    @ccloving 好问题. 话说你不提我压根没想过 A 卡
    ccloving
        12
    ccloving  
       176 天前
    @cinlen B 站上有人搞 A 卡,你搜搜,又不炼丹,按说没问题,大显存的显卡都不贵呀。
    gam2046
        13
    gam2046  
       176 天前
    @netizenHan #5 8B 效果很一般,基本处于完全胡诌的状态,我用 3090 跑过,响应速度快,但是胡说八道。而 70B ,我的 3090 就跑不起来了。
    SamLacey
        14
    SamLacey  
       176 天前
    @cinlen 矿卡老祖了,如果售后有保障,或者你动手能力强可以冲,40 系老黄刀法太好了,60superti 与 70 价格差一倍,性能也刚好差一倍,显存不爆的情况下,只有时间差别
    SamLacey
        15
    SamLacey  
       176 天前
    反正挺推荐 4070ts 的
    luchenwei9266
        16
    luchenwei9266  
       176 天前
    看预算,3000 以下无脑选 2080ti 22G
    goxxoo
        17
    goxxoo  
       176 天前
    我算过了, 和一台 MBP 价格差不多...2w 以内
    zysuper
        18
    zysuper  
       176 天前
    没钱选 NVIDIA GeForce RTX 4060 Ti ,
    billgreen1
        19
    billgreen1  
       176 天前
    M2 ULTRA 192GB,
    cinlen
        20
    cinlen  
    OP
       176 天前
    @luchenwei9266 可以考虑看看 , 魔改的 22g 踩雷概率高吗?
    FlintyLemming
        21
    FlintyLemming  
       176 天前
    @cinlen ollama 默认下的都是 int8 int4 的量化模型,根本就不会给你下 fp16 的,你显存小也没有必要跑没量化的模型
    afeiche
        22
    afeiche  
       176 天前
    个人感觉显存大的,新一点的,毕竟现在有些大模型必须用 cuda12 以上了,我印象中 2 系列的,不支持 12
    cinlen
        23
    cinlen  
    OP
       176 天前
    @FlintyLemming 请教一下,如果我想要学习量化这个过程(我可以找一个 fp16 但是参数量小一点的模型例如 phi-2), 大致需要的显存应该如何计算? 和推理一样用参数量乘以数据类型占用 bit 数吗?
    FlintyLemming
        25
    FlintyLemming  
       176 天前
    @cinlen 量化跟推理不一样,显存没上限的,越多越快。建议你选一种量化方式比如 GGUF 然后看他的文档,然后根据设置的参数计算。
    Greendays
        26
    Greendays  
       176 天前
    不能接受改装的话, 应该就是 4060ti 16G 了吧,或者 3060 12G
    Champa9ne
        27
    Champa9ne  
       176 天前
    居然没人推 P40 ?最廉价的 24G 显存,现在 LLM 能上大参数效果才可堪一用啊。自己一个人用,推理一次多等两分钟无所谓了吧?
    woorz
        28
    woorz  
       176 天前
    轻度最好用这个
    [爽过甲骨文 9 条街] 免费用 A100 、V100 !搭建 AI 工作站的终极攻略 https://www.bilibili.com/video/BV1nS421d72h/?share_source=copy_web&vd_source=b7bbd24169acd7296a98465ee4ab67ea
    shuimugan
        29
    shuimugan  
       175 天前
    @Champa9ne P40 太老了,带宽小,算力差,朋友拿 10 张去跑 Command R Plus 104B 8bit 推理,速度不到 2 token/s ,拿 M2 Ultra 192GB 跑起码还有 5.x token/s ,各种意义上的电子垃圾。
    shuimugan
        30
    shuimugan  
       175 天前
    @cinlen 2080ti 22g 我手头有 2 张,分别 24 小时开机 1 年和 1 年半,没啥问题。不建议买水冷版,单张的话建议买 2~3 风扇的。
    涡轮卡适合挤多张但是噪音大,把功耗限制在 70%左右,风扇拉一下可以得到很好的噪音/性能表现,跑 AI 性能下降在 10%左右。买了一张就会买第二张,迟早走上 4 卡/8 卡的道路。
    yianing
        31
    yianing  
       175 天前 via Android
    4090, you buy more, you save more
    flymeto
        32
    flymeto  
       175 天前
    2080ti 魔改,自己用一年了,没啥问题
    cowcomic
        33
    cowcomic  
       175 天前
    建议上安培架构的显卡,也就是 30 系和 40 系
    印象一些推理加速技术还有一些量化的技术对显卡架构有要求需要安培架构以上的显卡
    crackidz
        34
    crackidz  
       175 天前
    @ccloving @cinlen 千万别用 A 卡,一堆坑,最好的还是换 N 卡,别问我怎么知道的
    crackidz
        35
    crackidz  
       175 天前
    跑 SD 最好还是显存足够大,跑 LLM 的话量化 int4 损失也不大,但 SD 是不一样的,基本上都需要 fp16 ,这样子的话 24G 显存是最好的选择,比如 3090 。当然你要是知道魔改卡的话那就...
    luchenwei9266
        36
    luchenwei9266  
       175 天前
    @cinlen #20 没什么雷,用了一年多了。建议上三风扇版本。
    ccloving
        37
    ccloving  
       173 天前
    @crackidz 只是 ollama 推理和 SD 作图也不行吗?
    crackidz
        38
    crackidz  
       173 天前
    @ccloving 主要是 SD 啊,ollama 是没什么问题的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2336 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 15:59 · PVG 23:59 · LAX 07:59 · JFK 10:59
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.