followadc
V2EX  ›  Local LLM

mac 64g 能部署哪个本地大模型

  •  
  •   followadc · 15h 47m ago via iPhone · 2209 views
    最近想在本地部属个 qwenpaw 用用。设备是 mac m4 64g 。想知道这个能部署哪个本地大模型 不太懂 纯请教
    16 replies    2026-06-04 01:31:03 +08:00
    zh826256645
        1
    zh826256645  
       15h 34m ago   ❤️ 3
    可以看看这个项目 https://github.com/Andyyyy64/whichllm

    —————— 下面来自 HelloGitHub 122 期

    whichllm:帮你找到本地能跑的最佳大模型。该项目能够自动检测本机 GPU/CPU/RAM 配置,并从 HuggingFace 中筛选出适合当前硬件的大模型。它基于 LiveBench 、Chatbot Arena ELO 等综合评分排名,而非单纯按参数量排序,支持模拟指定 GPU 、查找运行目标模型所需显卡、一键启动对话和生成 Python 代码片段等功能。
    kuhung
        2
    kuhung  
       15h 9m ago
    whichllm 我测了下不太准,top1 并非最佳选择。它提到的模型权重,你得细看不同量化,还要考虑 kv cache 预留一些空间。
    kuhung
        3
    kuhung  
       15h 6m ago
    你是 mac ,直接下个 oMLX ,下模型的时候会建议你用哪个。而且基本限制了 MLX 模型格式,对于 mac 更友好。
    clemente
        4
    clemente  
       14h 52m ago
    我正好写过类似工具

    如果是稠密模型
    运行时显存需求 = 模型参数 x dtype(是什么量化版本) + 冗余量 留给 kv cache

    如果是 moe 的模型
    实际运行时显存需求 少于上面


    用 13b 模型为例
    格式 每参数字节 13B 权重
    FP16/BF16 2B ~26 GB
    FP8 (E4M3) 1B ~13 GB
    NVFP4 0.5B ~7 GB


    kv cache 按照 1/4 冗余计算

    26 * 5/4
    13 * 5/4
    7 * 5/4
    clemente
        5
    clemente  
       14h 50m ago
    一般 小设备都跑 nvfp4 或者 fp8

    mac fp8 的话 你大概跑 36 - 40+ 左右的差不多了 但可能你做其他功能就卡了
    fcten
        6
    fcten  
       14h 11m ago
    目前比较好的应该是 qwen3.6-35b-a3b 或 qwen3.6-27b
    ShineyWang
        7
    ShineyWang  
       14h 2m ago
    有一个 llmfit :
    https://github.com/AlexsJones/llmfit
    有更多的模型比较
    JiMuChan
        8
    JiMuChan  
       11h 32m ago
    https://www.canirun.ai/
    看看这个吧 Can I Run AI locally?
    microscopec
        9
    microscopec  
       11h 23m ago
    我是 m5pro20 核 64g ,写代码的话,本地跑 qwen3-coder-next 80B 没问题,速度 78token/s
    gemma4 26b 也可以,非常快,也有很多去掉限制破解的模型,没有道德限..
    z-image-turbo-q4 和 qwen3-q4.safetensors 可以做色图等等
    coefu
        10
    coefu  
       7h 34m ago
    是 max pro 还是 ultra ?不一样的。
    beginor
        11
    beginor  
       7h 11m ago via Android
    推荐的 用 llama.cpp 来跑 qwen3.6-35b ,qwen3-coder-next 或者 gemma4-26b 这些 moe 模型需要的算力不高,吐字速度快

    不建议跑 qwen3.6-27b gemma4-31b 跑密集模型,算力不够吐字太慢
    noahjsn
        12
    noahjsn  
       6h 16m ago
    不建议个人电脑跑参数小的大语言模型,能跑但没什么卵用。1. 太慢了; 2. 太弱智了。
    不如花点钱调用顶级模型的 API 。
    noahjsn
        13
    noahjsn  
       6h 9m ago
    要跑就跑顶级开源大模型
    DeepSeek-V4-Flash (158B params)
    DeepSeek-V4-Pro (862B params)
    followadc
        14
    followadc  
    OP
       2h 10m ago via iPhone
    @kuhung 安装了,现在不知道选哪个模型
    followadc
        15
    followadc  
    OP
       2h 0m ago via iPhone
    @coefu m4max
    1235467
        16
    1235467  
       10 mins ago via Android
    个人来讲还是更推荐 qwen3.6 27B/gemma4 31B 一点,讲真有点慢但是 MoE 普遍不够聪明;现在 llama.cpp 有支持 mtp 了会比之前好一点
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1194 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 41ms · UTC 17:41 · PVG 01:41 · LAX 10:41 · JFK 13:41
    ♥ Do have faith in what you're doing.