V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
hmbb
V2EX  ›  Local LLM

想自己本地跑大模型,学习大模型,做一些微调等操作,目前看到一款小主机在预算内, CPU AMD Ryzen Al Max+ 395,不知道这套配置是否适合用来学习大模型跑大模型,有没有懂的兄弟可以给点建议。

  •  
  •   hmbb · 2 天前 · 3401 次点击
    CPU:AMD Ryzen Al Max+ 395 处理器(16 核心 32 线程,最大睿频 5.1GHz ,三级缓存 64MB)
    显卡:AMD Radeon 8060S Graphics 40CUs
    系统盘:M.2 2280 PCle4.0 x4(最大 4TB)*1
    存储盘:M.2 2280 PCle4.0 x4(最大 4TB)*1
    内存:128GB(16GB*8) LPDDR5x 8000MT/s (最大可分配 96GB 给显存)
    接口:AC*1 + USB3.2(10Gbps)*2 + SD4.0 卡槽*1 + LAN 10Gbps(Intel E610)*2 + USB-C(10Gbps 数据)*1 + 3.5mm 音频插孔*2 + DP2.1 8k 60Hz*1 + HDMI2.1 8K 60Hz*1 + USB4(40Gbps/DP1.4)*2
    无线网络:WIFI7 MT7925; 蓝牙 5.4
    67 条回复    2025-09-06 16:27:59 +08:00
    murmur
        1
    murmur  
       2 天前   ❤️ 3
    这玩意一万块,拿来充 api 够你用到退坑还有剩
    tool2dx
        2
    tool2dx  
       2 天前 via Android
    @murmur 自己运行大模型的感觉不一样, 一是学技术, 二是硬件快到头了, 贬值慢, 用个几年把显卡之类榨干再出手, 也不亏. 三是开源模型越来越强了, 未来可期.

    大模型本质就是老虎机, 你花钱调用 API(花钱买代币), 和本地 24 小时不间断调用摇骰子(免费无限代币), 长期来看还是有差距的.
    hmbb
        3
    hmbb  
    OP
       2 天前
    @murmur 这倒是,但是 api 的话好像只能使用吧,可以满足学习大模型吗自己实操那种,不是很懂
    chinanala
        4
    chinanala  
       2 天前
    这不是玲珑星小主机的配置吗。

    小主机散热和扩展性是个问题,不如自组台式机这个配置玩大模型了。
    yusha
        5
    yusha  
       2 天前   ❤️ 1
    这款的内存带宽和推理性能大致跟 M4pro 差不多. 推理场景跑不了太大的稠密模型(虽然可以加载, 但是推理速度太慢). b 站有评测可以看下推理速度能否满足你的使用预期.
    比较合适的场景是跑 moe 模型, 需要大内存, 但是计算量不高. 比如 qwen3-coder-30b-a3b 这种.
    hmbb
        6
    hmbb  
    OP
       2 天前
    @chinanala 自组台式显卡成本比较高, 有点超预算
    TimePPT
        7
    TimePPT  
    PRO
       2 天前   ❤️ 1
    要不……先花点钱在云平台租点 GPU 算力资源自己玩玩?
    skye
        8
    skye  
       2 天前
    不如买 mac mini ,m4 pro 性能不错
    bytesfold
        9
    bytesfold  
       2 天前 via iPhone
    还不如直接 api
    perfectlife
        10
    perfectlife  
       2 天前   ❤️ 1
    学习大模型还是上英伟达吧
    hefish
        11
    hefish  
       2 天前   ❤️ 2
    本地还是得 nvidia 吧。。。。不然兼容性折腾死你。
    不说别的 vllm 没有非 nvidia 的二进制版本,你得自己编译。。
    clemente
        12
    clemente  
       2 天前
    省点功夫吧 连买什么卡都搞不清楚
    objectgiga
        13
    objectgiga  
       2 天前
    该用 api 用 api,想要本地跑不要买这种电子垃圾,带宽太低了,一万块去看看 7532+8*64+3080 20G,能保证本地运行现行大部分 MOE 模型的 int4,微调个人基本上别想这茬
    hmbb
        14
    hmbb  
    OP
       2 天前
    @TimePPT 可以尝试一下
    hmbb
        15
    hmbb  
    OP
       2 天前
    @skye 我再看看
    hmbb
        16
    hmbb  
    OP
       2 天前
    @clemente 最近才开始了解大模型这些知识
    hmbb
        17
    hmbb  
    OP
       2 天前
    @objectgiga 我看看
    shuimugan
        18
    shuimugan  
       2 天前
    这配置比调用 api 体验更差,没有学习的价值,除非你要跑 Huihui-GLM-4.5-Air-abliterated 写黄文
    402124773
        19
    402124773  
       2 天前
    @hmbb
    按理说,你自组小主机应该比你买成品小主机要便宜一点的
    hmbb
        20
    hmbb  
    OP
       2 天前
    @shuimugan 好像自己组 NVIDIA 显卡主机比较适合学习用
    hmbb
        21
    hmbb  
    OP
       2 天前
    @402124773 主要买成品比较省事
    lithiumii
        22
    lithiumii  
       2 天前 via Android
    amd 这一代虽然能跑了,但还是太慢,最后你还是得走上魔改老黄的邪路。或者再等等看下一代
    hmbb
        23
    hmbb  
    OP
       2 天前
    @lithiumii 貌似是的,下一代可能会好些
    nightwitch
        24
    nightwitch  
       2 天前   ❤️ 1
    现在国内租用 gpu 的平台多的是...4090 这种也就两三块钱一小时,3080 这种更便宜。 入门绰绰有余了,500 块钱能够你从入门到放弃好几回了
    shuimugan
        25
    shuimugan  
       2 天前   ❤️ 6
    你先明确学习的内容是什么。

    首先排除训练,Llama 3.1 8B 训练使用 1024 张 H100 80G 训练了一个月也就那样;

    然后就微调,显存小就跑个 gpt-oss-20b 和 Qwen3-30B-A3B 的规模,https://docs.unsloth.ai/basics/gpt-oss-how-to-run-and-fine-tune https://docs.unsloth.ai/basics/qwen3-how-to-run-and-fine-tune 大点的模型还不如去 https://www.together.ai/ 导入你的数据集点几下按钮就开始微调了。

    然后是推理,推理吃的是带宽和显存,这个价格你直接在 https://apxml.com/zh/tools/vram-calculator 选你要跑的模型和设备来看模拟推理的速度心里就有数了,这个配置性价比最高的也就是跑 gpt-oss-120b 的 mxfp4 量化,其次是 GLM 4.5 Air 的 4bit 量化,速度也就那样,选择 M4 Max 看速度然后除以二就懂了。

    再然后是 RAG ,说白了就是找出相关内容然后字符串拼接,你本地跑和调用 API 也没区别,看 llamaindex 代码就懂了,知识库都是围绕那三五十行代码做各种业务和 UI 的封装。
    https://github.com/run-llama/llama_index/blob/81d4b871143ddd4a7cb90333a3d103fbb1f269c5/llama-index-core/llama_index/core/prompts/chat_prompts.py#L21

    剩下的就是画色图、写黄文、声音转文本、文本转声音、声线克隆
    @hmbb
    402124773
        26
    402124773  
       2 天前   ❤️ 1
    @hmbb
    自己组也很简单。并且现在电商很发达的,你什么配置的,找抖音本地大主播配一下,也很简单的。
    我建议你别太相信小主机的散热了,另外现在主流大模型学习还是 nvidia 的显卡吧,amd 那玩意不太靠谱。
    charlenehe43
        27
    charlenehe43  
       2 天前
    小主机怎么可能跑大模型啊,我 m1 跑个 1.5b 的模型都卡的批爆,而且你这是 amd 的显卡?cuda 用不了吧,当然我是外行哈说错别怪
    ryc111
        28
    ryc111  
       2 天前   ❤️ 1
    这个小主机很顶,跑小几十 B 的模型都没问题,速度也还过得去( xB 大小的模型还挺快)
    大点的模型比如 70B 量化的那种,就比较慢了。

    自己本地折腾大模型以及建立个人知识库学习学习挺不错的。

    最好玩的就是折腾一些文生图,图生图,还蛮有意思的,lora 微调啥的,内存都够用。
    SGL
        29
    SGL  
       2 天前   ❤️ 1
    最优的选择是现在 GPU 算力平台花个小几百玩玩儿,然后就做大的决策。
    dododada
        30
    dododada  
       2 天前   ❤️ 1
    大模型?你这个配置一般的推理没问题,但是大模型微调不行,再微调也是大模型,deepseek 满血配置 200W 起步,你这个只能跑量化
    wnpllrzodiac
        31
    wnpllrzodiac  
       2 天前 via Android
    没钱就别自己训练了。4090 最起码的,一张还不够
    totoro52
        32
    totoro52  
       2 天前
    amd 跑模型? 很难评价
    aqqwiyth
        33
    aqqwiyth  
       2 天前
    不考虑一下每秒 token 吞吐量这个指标?
    misaki321
        34
    misaki321  
       2 天前
    来张 4090 ,至少能跑非量化的 7b
    squarefong17
        35
    squarefong17  
       2 天前
    @charlenehe43 他说的那 CPU 跟 M4 pro 在一个性能水平,CPU 、GPU 和带宽都是。哪怕是功耗受限的笔记本跑 qwen-30b-a3b ,最高能有近 50 tokens/s 。跑这个规模的语言模型的场景,cuda 根本不是问题,vulkan 加速就够快了,瓶颈在带宽。
    goodryb
        36
    goodryb  
       2 天前   ❤️ 1
    推理、微调、训练 所需要的资源你可以简单想象成 1:10:100 ,所以你要先清楚你准备做什么,如果只是刚开始想玩玩,建议可以先找 GPU 算力平台租卡来用,或者云厂商都有对应的服务先玩玩,玩的差不多了也就知道你要什么了

    显卡首推 NVIDIA ,业界公认 NO.1
    Yii234
        37
    Yii234  
       2 天前   ❤️ 1
    不建议一上来就投入这么大,可以先租赁 gpu ,把部署大模型、微调大模型基础掌握了,再自己攒设备
    312ybj
        38
    312ybj  
       2 天前   ❤️ 1
    手里有一台这个东西,板载内存是能拿 96GB 当显存, 能跑一些稍微大点的模型, 但是推理速度太慢了,当当玩具还行
    xusx1024
        39
    xusx1024  
       2 天前   ❤️ 1
    dy 有个‘瓜皮群主’的,经常发一些配置,可以参考。
    Haku
        40
    Haku  
       2 天前   ❤️ 1
    不建议任何 A 卡跑 AI ,个人跑就用 N 卡完事,省时省力。
    woojanelook
        41
    woojanelook  
       2 天前   ❤️ 1
    a 卡没 cuda,你到多模态,图片这些就跑不了了
    bigtear
        42
    bigtear  
       2 天前 via Android   ❤️ 1
    说实话这个配置跑跑推理当玩具还行,训练是别想了。起码上个自组 PC ,买点洋垃圾 nvidia 推理卡插上。

    想要一万多整机的话可以看看王勇的懒猫微服算力舱,nvidia 芯片,64g 统一内存的机器。
    hmbb
        43
    hmbb  
    OP
       2 天前
    @shuimugan 我研究一下
    mewking
        44
    mewking  
       2 天前
    @shuimugan 请问,GLM 4.5 Air 的 4bit 量化比较 Qwen3-30B-A3B BF16 如何?本地 code
    hmbb
        45
    hmbb  
    OP
       2 天前
    @wnpllrzodiac 训练搞不了
    hmbb
        46
    hmbb  
    OP
       2 天前
    @aqqwiyth 参数量大的虽然能跑但很慢
    hmbb
        47
    hmbb  
    OP
       2 天前
    @misaki321 用这个卡组主机超预算了
    hmbb
        48
    hmbb  
    OP
       2 天前
    @bigtear 我看看
    dosmlp
        49
    dosmlp  
       2 天前
    你研究的明白吗
    hmbb
        50
    hmbb  
    OP
       2 天前
    @312ybj 暂时应该不会入手了
    bitmin
        51
    bitmin  
       2 天前
    7840u 核显我自己用,跑 gptoss 20b 都够用了,qwen3 coder 30b 勉强跑

    缺点是是能划分到 16G 显存,上下文大小限制在两万以下,要更大的上下文就得更大的显存,395 这种 cpu 就是用来解决这个问题的吧

    这种 cpu 可以装在掌机里方便我随身带者到处跑
    wnay
        52
    wnay  
       2 天前   ❤️ 1
    当你问这些问题的时候就知道,你对大模型的知识了解很少,建议先学习基础知识比如部署,训练,微调至少概念弄明白了再做这些投入
    当然你要是钱多,无所谓,干就完了
    cornorj6
        53
    cornorj6  
       2 天前   ❤️ 1
    本地模型只要复杂一点的问题就回答不了,不如调用 API 。本地模型有个优势,没有什么限制。我用的 openrouter ,调用 api 有频率限制,像一些简单的问题就可以用本地模型。我是 mac mini 4 ,跑的 14b
    mandex
        54
    mandex  
       2 天前
    挺好的,有钱就买,就算 AI 没搞成也可以当普通开发机器使用。
    zx1w1w
        55
    zx1w1w  
       2 天前   ❤️ 1
    要么买 MacMini 32G 以上内存,要么买 5090D 32G 的。AMD 的别碰,或者直接上云租算力。
    shuimugan
        56
    shuimugan  
       2 天前
    @mewking 这个问题要看你写什么语言的,Qwen3 30B-A3B 没必要追求 BF16 ,Q6 就差不多了,我测 unsloth 的 Q6_K_XL 那档动态量化和 mlx 的 4bit DWQ 没啥区别,接入 Roo Code 自助完成一些 Node 和 Go 的任务都差不多,但是写 Rust 的话 Qwen3 Coder 30B-A3B 会在写了 50 多 K 上下文之后决定删除所有文件重头开始一个简单的版本…丢给 GLM 4.5 Air 4bit 就能完成而且修复一些 bug 都是点一下 Fix With Roo Code 就搞定了。

    我本地 192GB 的 M2 Ultra 现在常驻内存的是 GLM 4.5 Air 4bit 和 gpt-oss-120B ,再留一个 mellum 做补全和 text-embedding-nomic-embed-text-v1.5 做代码 embedding
    MaybeRichard
        57
    MaybeRichard  
       2 天前
    导之前充了 1w 多玩大模型,还剩好几千用不完,有想玩的朋友 5 折出了,量大 3-4 折出,3060 到 A100 80G 都有,现成的公开项目也有都,开机即用,视觉、视频、LLM 模型都有 TWF5YmVSaWNoYXJk
    BQsummer
        58
    BQsummer  
       2 天前
    a 卡没 cuda, 推理有各种库, 自己训练模型就不行了
    blackmont
        59
    blackmont  
       1 天前   ❤️ 1
    395+ 不太行,vllm RCom 好像还没适配,你要启动的话只能通过 llama 系列的衍生产品。不太建议购买,建议 CUDA 生态,或者租服务器。而且可以自己先去学一学再决定。
    mewking
        60
    mewking  
       1 天前
    @shuimugan 感谢详细的回复。看了看 GLM 4.5 Air 4bit 部署成本还是挺高,Qwen3 Coder 30B-A3B 如果是 Q6 ,DDR5 内存应该也能跑挺快~

    这些小的本地模型对于 Java 和 C# 效果如何?想来应该是不如 js 和 py

    C/C++,Rust 就更差?
    renyi1986
        61
    renyi1986  
       1 天前
    @objectgiga 能跑多少 token gpt 20 和 120
    leeg810312
        62
    leeg810312  
       1 天前   ❤️ 1
    自己配机器学习大模型,我觉得是效率较低灵活性极差的方式,当想尝试的模型需要更大算力,你就没有扩展余地。云平台就很灵活,效率也高,资金宽裕就多用一些高性能机器,资金少可以用较低性能慢慢跑。有专门的算力平台,比如 autodl 或者 modelscope ,也可以用通用云平台的资源,比如阿里云的 ECS 抢占式实例,成本比常规实例低不少。花几万配一台机器,算上电费,你可以在云平台用很久了。
    shenqi
        63
    shenqi  
       1 天前   ❤️ 1
    当你问出这个问题的时候,感觉你还是没到需要真的自己购买一台实体机的程度。一堆按量租聘的云主机能供你选择避免你中途退坑。
    hmbb
        64
    hmbb  
    OP
       1 天前
    @leeg810312 可以先尝试一下这种方式学习大模型
    hmbb
        65
    hmbb  
    OP
       1 天前
    @shenqi 确实是,目前才刚开始
    shuimugan
        66
    shuimugan  
       1 天前   ❤️ 1
    @mewking 这个问题,首先要看不同编程语言是否有高质量的庞大的数据集,比如在 https://huggingface.co/datasets?sort=trending 搜数据集看加起来的行数,以及 github 仓库上 star 数多的各语言仓库。

    结合这个榜单也能看出来 https://huggingface.co/spaces/bigcode/bigcode-models-leaderboard ,不过这个榜单很久没更新过了,现阶段只能靠自己测了。

    其次看自己的水平了,使用 context7 这种 MCP Server 或者手工在上下文补全最新文档可以大幅度降低模型幻觉,加上现阶段小模型对于主流编程语言的语法没啥问题(关键词、类型、循环、判断、函数等),写出来的代码头头是道的。但是对于一些理论、概念的理解程度就不好说了。

    我一般假定 Q6 级别量化已经近乎无损了,然后去模型官网比如 https://chat.qwen.ai/ 选择 Qwen3-Coder-Flash 、Qwen3-30B-A3B-2507 这种 30B 级别的问一下看看,它能写对的话那么 Q6 级别的量化也能写对,Q4 的话可能再差个 1%到 2%,大不了我给它纠正。其实上限在于用户自己,比如我 java 水平不行,它写得头头是道我也评判不出好坏,因为语法已经没问题了,甚至库也用对了,但是实际上跑起来碰到 bug 就一脸懵逼。要是 CRUD 这种还好,要是问题底层一些的话 30B 级别的解决起来很容易像是鬼打墙一样,跑了几十 k 上下文也没有个结果。

    比如我自己最爱用来测大模型的一道题:“用 [x 语言] 的实现一个高性能的 HTTP Proxy ,要求支持普通 HTTP 请求转发和 HTTPS 隧道 (HTTP CONNECT),尽可能使用标准库”,把 [x 语言] 换成你最熟悉的那个然后让模型来跑几次,先看 api 有没有用对来判断幻觉大不大,再看能不能完成需求跑起来,反正在 c#、java 、rust 这种语言就经常搞不定,能一次性写对的就成为我常用的模型。

    也就是因为这个原因,我现在考虑把技术栈从 node 往 golang 转移,开源的模型写 golang 的能力挺不错,以前不想碰 golang 是因为水平差的人写起来就像是用 php 堆屎山一样,维护性、可读性太没下限了。现在有 ai ,默认就是中高级的水平,而且我本地跑 gpt-oss-120b 实在是太快了,写 golang 准确性也非常高,代码的可读性、可维护性、性能下限、资源占用都有保障了。
    mewking
        67
    mewking  
       1 天前
    @shuimugan 感谢,链接收藏了

    自己水平是很差的,非 IT 从业人员,作为爱好关注一点技术皮毛

    跟 GPT 免费版聊了几句这个问题,它说在它训练过的语料中,C/C++ 是行数最多的,但大多数是历史遗留,无注释的工程代码,对于它深刻理解语言无太多帮助。

    它说它理解最深的是 py ,因为有注释的代码最多,教学示例最多,文档和生态最丰富,其次是 js

    它还说,从人类程序员的角度,第一友好是 py ,如果综合人类友好 + 最强表达能力,最好是 C#,但是它对 C# 掌握程度不如 C/C++

    go 关键字最少,最简约,目前局限大概也是语料不够丰富
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2764 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 08:39 · PVG 16:39 · LAX 01:39 · JFK 04:39
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.