最近想在本地部属个 qwenpaw 用用。设备是 mac m4 64g 。想知道这个能部署哪个本地大模型 不太懂 纯请教
1
zh826256645 15h 34m ago 可以看看这个项目 https://github.com/Andyyyy64/whichllm
—————— 下面来自 HelloGitHub 122 期 whichllm:帮你找到本地能跑的最佳大模型。该项目能够自动检测本机 GPU/CPU/RAM 配置,并从 HuggingFace 中筛选出适合当前硬件的大模型。它基于 LiveBench 、Chatbot Arena ELO 等综合评分排名,而非单纯按参数量排序,支持模拟指定 GPU 、查找运行目标模型所需显卡、一键启动对话和生成 Python 代码片段等功能。 |
2
kuhung 15h 9m ago
whichllm 我测了下不太准,top1 并非最佳选择。它提到的模型权重,你得细看不同量化,还要考虑 kv cache 预留一些空间。
|
3
kuhung 15h 6m ago
你是 mac ,直接下个 oMLX ,下模型的时候会建议你用哪个。而且基本限制了 MLX 模型格式,对于 mac 更友好。
|
4
clemente 14h 52m ago
我正好写过类似工具
如果是稠密模型 运行时显存需求 = 模型参数 x dtype(是什么量化版本) + 冗余量 留给 kv cache 如果是 moe 的模型 实际运行时显存需求 少于上面 用 13b 模型为例 格式 每参数字节 13B 权重 FP16/BF16 2B ~26 GB FP8 (E4M3) 1B ~13 GB NVFP4 0.5B ~7 GB kv cache 按照 1/4 冗余计算 26 * 5/4 13 * 5/4 7 * 5/4 |
5
clemente 14h 50m ago
一般 小设备都跑 nvfp4 或者 fp8
mac fp8 的话 你大概跑 36 - 40+ 左右的差不多了 但可能你做其他功能就卡了 |
6
fcten 14h 11m ago
目前比较好的应该是 qwen3.6-35b-a3b 或 qwen3.6-27b
|
7
ShineyWang 14h 2m ago
|
8
JiMuChan 11h 32m ago
https://www.canirun.ai/
看看这个吧 Can I Run AI locally? |
9
microscopec 11h 23m ago
我是 m5pro20 核 64g ,写代码的话,本地跑 qwen3-coder-next 80B 没问题,速度 78token/s
gemma4 26b 也可以,非常快,也有很多去掉限制破解的模型,没有道德限.. z-image-turbo-q4 和 qwen3-q4.safetensors 可以做色图等等 |
10
coefu 7h 34m ago
是 max pro 还是 ultra ?不一样的。
|
11
beginor 7h 11m ago via Android
推荐的 用 llama.cpp 来跑 qwen3.6-35b ,qwen3-coder-next 或者 gemma4-26b 这些 moe 模型需要的算力不高,吐字速度快
不建议跑 qwen3.6-27b gemma4-31b 跑密集模型,算力不够吐字太慢 |
12
noahjsn 6h 16m ago
不建议个人电脑跑参数小的大语言模型,能跑但没什么卵用。1. 太慢了; 2. 太弱智了。
不如花点钱调用顶级模型的 API 。 |
13
noahjsn 6h 9m ago
要跑就跑顶级开源大模型
DeepSeek-V4-Flash (158B params) DeepSeek-V4-Pro (862B params) |
16
1235467 10 mins ago via Android
个人来讲还是更推荐 qwen3.6 27B/gemma4 31B 一点,讲真有点慢但是 MoE 普遍不够聪明;现在 llama.cpp 有支持 mtp 了会比之前好一点
|