mac 64g 能部署哪个本地大模型

This topic created in 53 days ago, the information mentioned may be changed or developed.

最近想在本地部属个 qwenpaw 用用。设备是 mac m4 64g 。想知道这个能部署哪个本地大模型不太懂纯请教

Mac

大模型

部署

19 replies • 2026-06-06 13:56:14 +08:00

zh826256645

Jun 3

可以看看这个项目 https://github.com/Andyyyy64/whichllm

—————— 下面来自 HelloGitHub 122 期

whichllm：帮你找到本地能跑的最佳大模型。该项目能够自动检测本机 GPU/CPU/RAM 配置，并从 HuggingFace 中筛选出适合当前硬件的大模型。它基于 LiveBench 、Chatbot Arena ELO 等综合评分排名，而非单纯按参数量排序，支持模拟指定 GPU 、查找运行目标模型所需显卡、一键启动对话和生成 Python 代码片段等功能。

kuhung

Jun 3

whichllm 我测了下不太准，top1 并非最佳选择。它提到的模型权重，你得细看不同量化，还要考虑 kv cache 预留一些空间。

kuhung

Jun 3

你是 mac ，直接下个 oMLX ，下模型的时候会建议你用哪个。而且基本限制了 MLX 模型格式，对于 mac 更友好。

clemente

Jun 3

我正好写过类似工具

如果是稠密模型
运行时显存需求 = 模型参数 x dtype(是什么量化版本） + 冗余量留给 kv cache

如果是 moe 的模型
实际运行时显存需求少于上面

用 13b 模型为例
格式每参数字节 13B 权重
FP16/BF16 2B ~26 GB
FP8 (E4M3) 1B ~13 GB
NVFP4 0.5B ~7 GB

kv cache 按照 1/4 冗余计算

26 * 5/4
13 * 5/4
7 * 5/4

clemente

Jun 3

一般小设备都跑 nvfp4 或者 fp8

mac fp8 的话你大概跑 36 - 40+ 左右的差不多了但可能你做其他功能就卡了

fcten

Jun 3

目前比较好的应该是 qwen3.6-35b-a3b 或 qwen3.6-27b

ShineyWang

Jun 3

有一个 llmfit :
https://github.com/AlexsJones/llmfit
有更多的模型比较

JiMuChan

Jun 3

https://www.canirun.ai/
看看这个吧 Can I Run AI locally?

microscopec

Jun 3

我是 m5pro20 核 64g ，写代码的话，本地跑 qwen3-coder-next 80B 没问题，速度 78token/s
gemma4 26b 也可以，非常快，也有很多去掉限制破解的模型，没有道德限..
z-image-turbo-q4 和 qwen3-q4.safetensors 可以做色图等等

coefu

Jun 3

是 max pro 还是 ultra ？不一样的。

beginor

Jun 3 via Android

推荐的用 llama.cpp 来跑 qwen3.6-35b ，qwen3-coder-next 或者 gemma4-26b 这些 moe 模型需要的算力不高，吐字速度快

不建议跑 qwen3.6-27b gemma4-31b 跑密集模型，算力不够吐字太慢

noahjsn

Jun 3

不建议个人电脑跑参数小的大语言模型，能跑但没什么卵用。1. 太慢了； 2. 太弱智了。
不如花点钱调用顶级模型的 API 。

noahjsn

Jun 3

要跑就跑顶级开源大模型
DeepSeek-V4-Flash (158B params)
DeepSeek-V4-Pro (862B params)

followadc

Jun 3 via iPhone

@kuhung 安装了，现在不知道选哪个模型

followadc

Jun 3 via iPhone

@coefu m4max

1235467

Jun 4 via Android

个人来讲还是更推荐 qwen3.6 27B/gemma4 31B 一点，讲真有点慢但是 MoE 普遍不够聪明；现在 llama.cpp 有支持 mtp 了会比之前好一点

coefu

Jun 5

即便是 ultra ，dense 模型，在 263k 的 context 下，pp 依然会降到 100 一下，比较闹心。

followadc

Jun 5

@coefu 确实

coefu

Jun 6

@followadc 我换了 moe 模型，并且用 llama.cpp 把 context 搞到了 263k 。总体来说，还是可以的。