我自己的电脑是 5070Ti，总感觉跑一些模型算力不够

算力

大模型

显卡

47 replies • 2026-04-30 17:19:55 +08:00

1

wander555

1 day ago

h100 呗，dpsk 官方的推荐配置都是这个

2

babymonster

OP

1 day ago

@wander555 哥这个太贵了吧玩不起啊

3

mqnu00

1 day ago

是算力问题吗？我感觉显存不够用。

4

foolishcrab

1 day ago

可以租算力玩啊，买卡肯定是不经济的，你又不能 7*24 用它的算力

5

babymonster

OP

1 day ago

@mqnu00 是的好像只有 16G

6

babymonster

OP

1 day ago

@foolishcrab 好像也是有没有推荐租用的平台

7

miludeerKay

1 day ago via Android

本地的统一当玩具

8

bugmaker233

1 day ago

....跑个 27b 不错了

9

vinsony

1 day ago

5070Ti 就玩 Qwen3.6-35B-A3B

10

babymonster

OP

1 day ago

@miludeerKay 哈哈哈哈哈

11

andforce

1 day ago

兄弟，不是算力不够，是你的钱不够

12

yidinghe

1 day ago

不要谈感觉,直接去看系统资源使用,CPU 如何,GPU 如何,内存如何,显存如何,磁盘 IO 如何,这些细节分享出来才是有效的。

13

junwind

1 day ago

你这是游戏显卡，买 H800

14

asdjgfr

1 day ago

我是 u7 265k+5060ti(16g)，只能跑玩具模型，消费 pc 根本玩不了本地部署，老实租算力吧

15

cwcc

1 day ago

不是算力的问题，是显存太紧张了，只能跑个 7b 左右的才能达到每秒 70-100tok 的速度，跑更大模型受限的情况瓶颈基本全在 PCIe 带宽和显存上。

真要横向比较的话，我自己的 36G 的 MacBook Pro 能跑 qwen3.6035b-a3b 模型，每秒能到 30token ，但长上下文直接把内存撑爆死机；相比我的 5060Ti 只能直接跑小模型，或者 CPU 混合计算下利用 64G 的 RAM 能以很慢的速度跑很大的模型也不会爆内存死机。总之各有各的瓶颈，你得知道自己的硬件瓶颈在哪里。

16

babymonster

OP

1 day ago

@andforce 确实钱太少了哈哈哈

17

babymonster

OP

1 day ago

@junwind 兄弟钱不够啊哈哈哈

18

babymonster

OP

1 day ago

@cwcc 研究研究昨天玩了一晚上回去接着玩

19

onedge

1 day ago

目前顶流满血可用状态（ 100tps 左右）你的资金要 200w 人民币以上，更小的模型你就往回减，32GB 显存你就搞个几十 B 的模型最多了，而且速度还不会太快

20

zturns

1 day ago

租 GPU 可以试试这个平台：aHR0cHM6Ly9zaG9ydHVybC5hdC85MHoyTw==

21

q1169989139

1 day ago

别难为 5070ti 了哈哈，买完整的 5090 无后缀吧，5070ti 规格太差了。5070ti 只有完整的 gb203 的三分之一多一点的 cuda ，放以前叫 5060se 差不多。

22

babymonster

OP

1 day ago

@q1169989139 阉割这么多

23

zushi000

1 day ago

5090 都不够还是要 6000pro

24

PeterTanJJ

1 day ago

至少要 24G ，本地折腾显卡的话。

25

FireKey

1 day ago

换魔改 4090 呗

26

mgrddsj

1 day ago

@babymonster #6 租算力的话，国内用 AutoDL 比较多（国内网络环境，需要配置一下用镜像之类的来下载模型），国外的话就 vast.ai ，都不是特别贵。

27

drafter

1 day ago

部署什么模型多少速度啊？我本地也想部署个 27B 的

28

limon

1 day ago via Android

放弃本地吧

29

MoonShot

1 day ago

本地模型，就算显存够的情况下，总感觉启动有点慢

30

ntdll

1 day ago

你买得起的任何卡，都会让你产生“算力不够”的感觉，除非你能看得上一些弱智模型。

31

tootfsg

1 day ago via Android

我也是 5070ti ，gemna4 26b a4b iq4xs ，速度 150t/s ，上下文开的 64k ，我觉得这个显卡算力一点也不差，差的只是显存。iq4xs 量化倒是还行，但这个量化我不太敢实践用

32

tootfsg

1 day ago via Android

输出慢是因为你用内存跑了，那能快吗.......

33

penisulaS

1 day ago

一般来说,如果你的显存充足了,对应的算力又溢出了,所以最好还是购买线上模型

34

tootfsg

1 day ago via Android

我感觉个人部署开源模型，唯一高性价比方案就是等 m5 macmini/studuo 出来，3w 左右的配置买一台。

除非是训练模型，那只能用 nv 。

35

laminux29

1 day ago

在工作场景，除非是保密性极强的场景，否则自己搭建设备是下下之策。因为你自己搭建设备，个人出资，别说 GPT 和 Gemini 的水平，你甚至连豆包的硬件水准都达不到，输出速度肯定慢，智商必然很低，联网、记忆、工作流等常见功能还要自己去折腾。

保密性极强的场景，一般是找运营商或厂家定制设备，我了解到的一些公司，直接购买运营商定制的商用一体机，只是硬件的价格就是 150 万元起步的水准。这种硬件，以 32B + 16 并发的性能水准提供给普通用户做对话，或者以 70B + 3 并发的水准提供给领导做驾驶舱或报表，速度与智能都比豆包低很多，但因为保密是刚需，这已经是他们的最优方案了。

当然还有 2 类场景是适合自己搭设备，第一类是游戏高级玩家买顶配显卡，顺便偶尔拿来玩玩各种小模型；还有一类是喜欢搞各种限制级的内容输出，没办法用有法律限制的商用 API 。

36

levn

1 day ago

35B ，把专家卸载到内存，速度已经够快了
27B ，就需要 32G 显存

37

luny

1 day ago

性价比最高的应该是 AMD AI Max+395 迷你主机，2 万左右，标配 128G LPDDR5X 8000MT/s ，整机算例 126T 好像能跑 70B 的模型

38

babymonster

OP

1 day ago

@zushi000 太贵啦

39

babymonster

OP

1 day ago

@limon 租用吧

40

babymonster

OP

1 day ago

@laminux29 大佬说的太专业了

41

babymonster

OP

1 day ago

@tootfsg 可能是用的内存

42

joynvda

19h 22m ago

既然已经有 5070TI ，个人认为可选的方案：

#1 换 4090 魔改 48G ，性能能提升
#2 换 Intel B60 Dual 48G, 性能会下降，折腾大模型文件格式转换（或者 LM studio 会简单一些）
#3 双卡方案:3090 24Gx2;2080 22Gx2 ，电源要改，性能应该下降一些
#4 其它非主流方案，纯属折腾，比如找数据中心退役的版本，散热和噪音要解决

43

NanFengxuan

11h 52m ago

@babymonster #38 128G 的 Mac Studio ，消费级最适合跑大模型的电脑，老黄家的卡都太贵。

44

babymonster

OP

11h 3m ago

@NanFengxuan Mac 的芯片真的适合跑大模型吗？感觉英伟达有 CUDA 生态，大模型都是可以随便跑的

45

andyhuzhill

9h 16m ago

@babymonster 去了解一下 Mac 现在的芯片吧都是统一内存寻址直接显存给你干到 512G 很多大模型都能放下了

46

EvanQu

7h 33m ago

@babymonster #41 mac 都是共享共享内存内存用剩下了就是显存 mac m3ultra 的带宽跟 5070ti 差不多 m4max 的带宽在 500 左右但是架不住内存大啊

47

unco020511

2h 38m ago

我感觉本地部署不如直接买 api 或租算力做推理