V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
babymonster
V2EX  ›  Local LLM

我自己的电脑是 5070Ti,总感觉跑一些模型算力不够

  •  
  •   babymonster · 1 day ago · 3558 views

    各位大佬们,我自己电脑配置也挺高 9800x3d+5070ti,但是自己玩大模型感觉算力不够,输出速度好慢,有没有大佬推荐一下什么显卡玩大模型算力舱还比较不错的

    47 replies    2026-04-30 17:19:55 +08:00
    wander555
        1
    wander555  
       1 day ago
    h100 呗,dpsk 官方的推荐配置都是这个
    babymonster
        2
    babymonster  
    OP
       1 day ago
    @wander555 哥这个太贵了吧 玩不起啊
    mqnu00
        3
    mqnu00  
       1 day ago
    是算力问题吗?我感觉显存不够用。
    foolishcrab
        4
    foolishcrab  
       1 day ago
    可以租算力玩啊,买卡肯定是不经济的,你又不能 7*24 用它的算力
    babymonster
        5
    babymonster  
    OP
       1 day ago
    @mqnu00 是的 好像只有 16G
    babymonster
        6
    babymonster  
    OP
       1 day ago
    @foolishcrab 好像也是 有没有推荐租用的平台
    miludeerKay
        7
    miludeerKay  
       1 day ago via Android
    本地的统一当玩具
    bugmaker233
        8
    bugmaker233  
       1 day ago
    ....跑个 27b 不错了
    vinsony
        9
    vinsony  
       1 day ago
    5070Ti 就玩 Qwen3.6-35B-A3B
    babymonster
        10
    babymonster  
    OP
       1 day ago
    @miludeerKay 哈哈哈哈哈
    andforce
        11
    andforce  
       1 day ago
    兄弟,不是算力不够,是你的钱不够
    yidinghe
        12
    yidinghe  
       1 day ago
    不要谈感觉,直接去看系统资源使用,CPU 如何,GPU 如何,内存如何,显存如何,磁盘 IO 如何,这些细节分享出来才是有效的。
    junwind
        13
    junwind  
       1 day ago
    你这是游戏显卡,买 H800
    asdjgfr
        14
    asdjgfr  
       1 day ago
    我是 u7 265k+5060ti(16g),只能跑玩具模型,消费 pc 根本玩不了本地部署,老实租算力吧
    cwcc
        15
    cwcc  
       1 day ago
    不是算力的问题,是显存太紧张了,只能跑个 7b 左右的才能达到每秒 70-100tok 的速度,跑更大模型受限的情况瓶颈基本全在 PCIe 带宽和显存上。

    真要横向比较的话,我自己的 36G 的 MacBook Pro 能跑 qwen3.6035b-a3b 模型,每秒能到 30token ,但长上下文直接把内存撑爆死机;相比我的 5060Ti 只能直接跑小模型,或者 CPU 混合计算下利用 64G 的 RAM 能以很慢的速度跑很大的模型也不会爆内存死机。总之各有各的瓶颈,你得知道自己的硬件瓶颈在哪里。
    babymonster
        16
    babymonster  
    OP
       1 day ago
    @andforce 确实 钱太少了哈哈哈
    babymonster
        17
    babymonster  
    OP
       1 day ago
    @junwind 兄弟 钱不够啊哈哈哈
    babymonster
        18
    babymonster  
    OP
       1 day ago
    @cwcc 研究研究 昨天玩了一晚上 回去接着玩
    onedge
        19
    onedge  
       1 day ago
    目前顶流满血可用状态( 100tps 左右)你的资金要 200w 人民币以上,更小的模型你就往回减,32GB 显存你就搞个几十 B 的模型最多了,而且速度还不会太快
    zturns
        20
    zturns  
       1 day ago
    租 GPU 可以试试这个平台:aHR0cHM6Ly9zaG9ydHVybC5hdC85MHoyTw==
    q1169989139
        21
    q1169989139  
       1 day ago
    别难为 5070ti 了哈哈,买完整的 5090 无后缀吧,5070ti 规格太差了。5070ti 只有完整的 gb203 的三分之一多一点的 cuda ,放以前叫 5060se 差不多。
    babymonster
        22
    babymonster  
    OP
       1 day ago
    @q1169989139 阉割这么多
    zushi000
        23
    zushi000  
       1 day ago
    5090 都不够 还是要 6000pro
    PeterTanJJ
        24
    PeterTanJJ  
       1 day ago
    至少要 24G ,本地折腾显卡的话。
    FireKey
        25
    FireKey  
       1 day ago
    换魔改 4090 呗
    mgrddsj
        26
    mgrddsj  
       1 day ago
    @babymonster #6 租算力的话,国内用 AutoDL 比较多(国内网络环境,需要配置一下用镜像之类的来下载模型),国外的话就 vast.ai ,都不是特别贵。
    drafter
        27
    drafter  
       1 day ago
    部署什么模型 多少速度啊?我本地也想部署个 27B 的
    limon
        28
    limon  
       1 day ago via Android
    放弃本地吧
    MoonShot
        29
    MoonShot  
       1 day ago
    本地模型,就算显存够的情况下,总感觉启动有点慢
    ntdll
        30
    ntdll  
       1 day ago
    你买得起的任何卡,都会让你产生“算力不够”的感觉,除非你能看得上一些弱智模型。
    tootfsg
        31
    tootfsg  
       1 day ago via Android
    我也是 5070ti ,gemna4 26b a4b iq4xs ,速度 150t/s ,上下文开的 64k ,我觉得这个显卡算力一点也不差,差的只是显存。iq4xs 量化倒是还行,但这个量化我不太敢实践用
    tootfsg
        32
    tootfsg  
       1 day ago via Android
    输出慢是因为你用内存跑了,那能快吗.......
    penisulaS
        33
    penisulaS  
       1 day ago
    一般来说,如果你的显存充足了,对应的算力又溢出了,所以最好还是购买线上模型
    tootfsg
        34
    tootfsg  
       1 day ago via Android
    我感觉个人部署开源模型,唯一高性价比方案就是等 m5 macmini/studuo 出来,3w 左右的配置买一台。

    除非是训练模型,那只能用 nv 。
    laminux29
        35
    laminux29  
       1 day ago
    在工作场景,除非是保密性极强的场景,否则自己搭建设备是下下之策。因为你自己搭建设备,个人出资,别说 GPT 和 Gemini 的水平,你甚至连豆包的硬件水准都达不到,输出速度肯定慢,智商必然很低,联网、记忆、工作流等常见功能还要自己去折腾。

    保密性极强的场景,一般是找运营商或厂家定制设备,我了解到的一些公司,直接购买运营商定制的商用一体机,只是硬件的价格就是 150 万元起步的水准。这种硬件,以 32B + 16 并发的性能水准提供给普通用户做对话,或者以 70B + 3 并发的水准提供给领导做驾驶舱或报表,速度与智能都比豆包低很多,但因为保密是刚需,这已经是他们的最优方案了。

    当然还有 2 类场景是适合自己搭设备,第一类是游戏高级玩家买顶配显卡,顺便偶尔拿来玩玩各种小模型;还有一类是喜欢搞各种限制级的内容输出,没办法用有法律限制的商用 API 。
    levn
        36
    levn  
       1 day ago
    35B ,把专家卸载到内存,速度已经够快了
    27B ,就需要 32G 显存
    luny
        37
    luny  
       1 day ago
    性价比最高的应该是 AMD AI Max+395 迷你主机,2 万左右,标配 128G LPDDR5X 8000MT/s ,整机算例 126T 好像能跑 70B 的模型
    babymonster
        38
    babymonster  
    OP
       1 day ago
    @zushi000 太贵啦
    babymonster
        39
    babymonster  
    OP
       1 day ago
    @limon 租用吧
    babymonster
        40
    babymonster  
    OP
       1 day ago
    @laminux29 大佬说的太专业了
    babymonster
        41
    babymonster  
    OP
       1 day ago
    @tootfsg 可能是用的内存
    joynvda
        42
    joynvda  
       19h 22m ago
    既然已经有 5070TI ,个人认为可选的方案:

    #1 换 4090 魔改 48G ,性能能提升
    #2 换 Intel B60 Dual 48G, 性能会下降,折腾大模型文件格式转换(或者 LM studio 会简单一些)
    #3 双卡方案:3090 24Gx2;2080 22Gx2 ,电源要改,性能应该下降一些
    #4 其它非主流方案,纯属折腾,比如找数据中心退役的版本,散热和噪音要解决
    NanFengxuan
        43
    NanFengxuan  
       11h 52m ago
    @babymonster #38 128G 的 Mac Studio ,消费级最适合跑大模型的电脑,老黄家的卡都太贵。
    babymonster
        44
    babymonster  
    OP
       11h 3m ago
    @NanFengxuan Mac 的芯片真的适合跑大模型吗?感觉英伟达有 CUDA 生态,大模型都是可以随便跑的
    andyhuzhill
        45
    andyhuzhill  
       9h 16m ago
    @babymonster 去了解一下 Mac 现在的芯片吧 都是统一内存寻址 直接显存给你干到 512G 很多大模型都能放下了
    EvanQu
        46
    EvanQu  
       7h 33m ago
    @babymonster #41 mac 都是共享共享内存 内存用剩下了就是显存 mac m3ultra 的带宽跟 5070ti 差不多 m4max 的带宽在 500 左右 但是架不住内存大啊
    unco020511
        47
    unco020511  
       2h 38m ago
    我感觉本地部署不如直接买 api 或租算力做推理
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2649 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 88ms · UTC 11:58 · PVG 19:58 · LAX 04:58 · JFK 07:58
    ♥ Do have faith in what you're doing.