做萌翻翻译的时候,想用来本地部署做语言检测,AI 翻译和 AI 词典都可能用到,传统的库都不够准确,如果是多语言的话。
![]() |
1
chiaf 2 天前 via iPhone
官方说 16G 的 Mac 就能跑。我自己的 64G 跑起来 毫无压力。
做个参考 |
4
YsHaNg 2 天前 via iPhone
不如 qwen3 30b
|
9
bearqq 1 天前
24g 内存 8845HS 集显跑 14.17 token/s 。
我还是更喜欢用 qwen3-32b ,显卡跑。 |
10
katsusan 1 天前
16G 能跑的前提是需要英伟达 50 系 blackwell 的 FP4 ,其它平台应该要更多
|
![]() |
15
Pteromyini 1 天前
翻译最好还是用字节专门的 seed 或者用翻译数据集微调一个小规模的模型。小规模的通用模型包括 gpt-oss 实在不太行,激活参数本身也太小了,幻觉难免。
|
16
tomclancy 1 天前
我是 9900x 3090 ,思考的时候 GPU 直接满负荷狂转,思考完直接安静了
|
![]() |
17
totty OP @Pteromyini OKK
|
![]() |
19
kennylam777 1 天前
@katsusan 不用, 我試過用 3090 + Llama.cpp 能直接跑 FP4 的 GGUF, 速度也不錯, 100tps
而 5090 可以滿血跑 context 128k, 160tps 以上 |
![]() |
20
bmin 1 天前
笔记本电脑 5070ti ( 12G ),完全加载进 GPU 跑,上下文 8192 ,可以跑 35-40 token/s
|
21
BlueSkyXN 1 天前
Macbook Air M4 24G 推理速度
Qwen3-4b:16tps Deepseek-r1-8b: 15tps GPT-oss-20b:19tps RTX4080 没测 |
22
ByteCat 1 天前
要求很低,我用 RTX A4000 跑,只吃 12G 显存,速度还行,50tokens/s
|
23
zhengfan2016 1 天前
我用 ollama 4060ti 16G 能跑啊
|
![]() |
24
totty OP @zhengfan2016 我也想用这个配置,速度如何?
|
![]() |
25
mengdodo 1 天前
用一台独立服务器跑过,64G 内存 Intel(R) Xeon(R) CPU E5-2680 v4 @ 2.40GHz * 2 的,结果慢的一匹,你可以自己试试
|
26
yjhatfdu2 1 天前
M3 ultra 跑 gpt-oss-120B 可以跑到 75t/s 左右,跑 gpt-oss-20b 能跑 120t/s 左右
|
27
zhengfan2016 1 天前
@totty #24
![]() |
![]() |
28
totty OP @zhengfan2016 收到
|