折腾了一晚上大模型，索然无味

83 条回复 • 2025-11-20 18:53:56 +08:00

1

OneLiteCore

3 天前

日常使用场景无非就是问技术思路/代码自动补全/翻译，个人用户的话有这个预算不如直接去买现成的 AI 服务一个月最多百来块。

只有到注重数据安全的企业级使用场景，比如要部署公司内部的代码补全或者 AI 问答服务这种需要避免公司资产和动向被当成免费语料的时候才需要。其他场景比如要生成视频和图片这种大规模的，或者 AI 女友之类的怕被赛博 NTR 的，但是这种 case 太少。

2

urlk

3 天前

既然你都能本地部署 AI 了，那么这个问题直接问 AI 它也会告诉你答案的

3

HojiOShi

3 天前

5060 ，甚至都不是大显存的 5060ti ，打打游戏画质高点都爆显存，搞本地 LLM 这些还是太勉强。

4

usn

PRO

3 天前 via iPhone

搞了半天本地部署是能得到比 chatgpt5.1 更聪明的回复还是比 gemini3 更漂亮的前端

5

coolfan

3 天前

5060 的显存规模跑大模型难有惊艳的效果 16g 的 5060ti 或许不错

6

crocoBaby

OP

3 天前 via iPhone

@OneLiteCore 我尝试了接入 trae ，发现并不支持本地部署的大模型，感觉有用的场景就是生成色图了，用小说的情节去生成

7

slowgen

3 天前

5060 太丐了，全新也掩盖不了丐的事实，你这个就像“新买了一个 500MB 容量的托管虚拟主机然后部署了一个 WordPress ，玩了一下主题和插件之后索然无味”，能怪 WordPress 太弱吗？

8

crocoBaby

OP

3 天前 via iPhone

@urlk 甚至听不懂我的问题，虽然它罗列了很多它能干的事情

9

crocoBaby

OP

3 天前 via iPhone

@HojiOShi 实用的话感觉还是得直接买 nvdia 的 ai 计算机，我查阅了一下资料，消费级显卡满足不了大部份使用场景，除非是微调大模型针对语料推理

10

crocoBaby

OP

3 天前 via iPhone

@usn 都不行，很鸡肋，只能学习到大概的部署和使用方法，想要获得从业技能不太科学

11

crocoBaby

OP

3 天前 via iPhone

@coolfan 大概能跑 30b 的吧加上量化优化，但是距离现在主流上的还差太远了

12

forisra

3 天前

7B 参数量的大模型本地部署的话就是已读乱回，当然没啥效果。

13

crocoBaby

OP

3 天前 via iPhone

@slowgen 对，你形容的很贴切，就是这个感觉，感觉想要入门 ai 开发，门槛挺高的

14

crocoBaby

OP

3 天前 via iPhone

@forisra 哥们都是玩的多少 b 的？完全没有思路有什么使用场景

15

forisra

3 天前

1

@crocoBaby 本地部署按照现在的显存价格就没啥好方案啊，司马黄仁勋之前还专门出了一个推理特化的产品，一看价格 5070 的算力 4 万块的售价.....

16

HojiOShi

3 天前

4

@crocoBaby #9 看来你查阅资料的能力不怎么样，能觉得英伟达那个小盒子实用，还因此否定所有消费级显卡。

17

usn

PRO

3 天前

@HojiOShi 好奇大佬是怎么搜集资料的

18

usn

PRO

3 天前

@crocoBaby #10 看个人

19

bwnjnOEI

3 天前

1

建议不要用 LM STUDIO 或 OLLAMA 这些玩意，最起码会用 llama.cpp （虽然这俩都是基于 llama.cpp ），生产级部署都是 vllm 和 sglang 或自己写 cuda 。上 huggingface 下个 gpt-oss-20b 能凑合用，qwen-coder-7b 能代码补全，还有 DeepSeek-OCR 啥的能玩的挺多的，甚至内存 64g+你都能跑 gpt-oss-120b 但可能只有几 tokens/s 。

20

crocoBaby

OP

3 天前 via iPhone

@HojiOShi 没有深入了解，大佬科普一下

21

bwnjnOEI

3 天前

1

@HojiOShi 那金色小盒子油管好几个博主都测完了：有点拉而且发热严重。

22

crocoBaby

OP

3 天前 via iPhone

@bwnjnOEI 目前硬件跑不动，而且 ai 萌新比较难上手

23

bwnjnOEI

3 天前

1

@crocoBaby 嗯显卡缺失丐，如果不像投资买显卡真的想练手租个 gpu 云现在 4090 很便宜的

24

crocoBaby

OP

3 天前 via iPhone

@bwnjnOEI 好嘟，感谢回答

25

Belmode

3 天前

装 CUDA ，跑各种视频处理工具

26

1up

3 天前 via iPhone

没什么用，这种数级的部署，已放弃

27

archxm

3 天前 via Android

1

整个美女，撸一发，索然无味

28

crocoBaby

OP

3 天前

@1up 感觉显卡可以退了,ai 用不上,游戏不知道玩什么

29

crocoBaby

OP

3 天前

@Belmode 性能会不会不太够啊哥,问 ai 说只能跑 512*512 的图片

30

fredweili

3 天前

1

7b 能干啥，16G M4 都能跑，大模型是啥，LLM 最基本的语义理解生成
5060 拿去打游戏更好

31

huang86041

3 天前

大模型靠的力大飞砖,你个本地私人部署,钱包不够厚不行的. 本地只能用用专业的小模型.

32

crocoBaby

OP

3 天前

@huang86041 今晚尝试一下图片和视频生成,看看能不能搞个免费版的小韩漫看看

33

penisulaS

3 天前

兄弟你这是小模型啊，其实搭建本地模型的优势用法在于搞瑟瑟，因为瑟瑟模型基本没有稳定的公共服务

34

vikim

3 天前

@penisulaS 瑟瑟一般能整出什么花样我挺好奇的

35

crocoBaby

OP

3 天前

@penisulaS 求科普瑟瑟玩法,我今晚试试

36

cyp0633

3 天前

@usn #17 前两天碰巧读过 lmsys org 的评测博客，推理性能 prefill 一骑绝尘，但 decode 太慢，导致整体比消费级显卡和 apple silicon 全面落后

37

tomclancy

3 天前

蹲一下教程，我这 gemma 3 27b 动不动拒绝回答

38

tomclancy

3 天前

@penisulaS #33
蹲一下教程，我这 gemma 3 27b 动不动拒绝回答，太靠北了

39

penisulaS

3 天前

@tomclancy 其实就是各种 NSFW/Decensored 模型，我用的模型比较老了，big tiger Gemma 27b/CusalLm 35B Beta Long 。不过有些未审查模型虽然能生成未审查内容，要么像发春的母猪，要么像干巴巴的木头，很下头。

40

Cheez

PRO

3 天前

本地模型本来就没有可玩性啊…… 就是免费、私密和自由，然后什么都没有了呀。理论上你可以 24 小时处理一些 7b 模型能做的事情，例如你的账单你觉得很私密，可以让本地模型去帮你分类记录；

我是觉得，没有必要本地……

41

crocoBaby

OP

3 天前

@penisulaS 有办法通过开放权重的大模型微调去做调教吗?

42

crocoBaby

OP

3 天前

@Cheez 单纯 chat 的本地部署完全没有必要,但是视频和图片的有待验证

43

penisulaS

3 天前

1

@crocoBaby hf 上不都有很多微调好的吗，直接用就是了，毕竟微调的成本也不低，效果也不一定好

44

YanSeven

3 天前

这种超小型的本地大模型，纯玩具吧。。。，确实没什么好玩的。

45

nash

3 天前

1

打游戏就专心打游戏，那玩意能干啥，要玩上云算力玩

46

1up

3 天前 via iPhone

@crocoBaby 真这样的话，是的

47

viking602

3 天前

5060 打游戏都不一定够用的东西跑大模型肯定不够用啊想玩模型去用云服务不好嘛为啥非纠结本地模型

48

Meteora626

3 天前

1

薅几个推理平台的羊毛，千万 token 慢慢用，自己部署没意思的模型太小了

49

bitmin

3 天前

1

7b 给翻译插件用已经算可用水平了，我核显都跑的飞快

联网搜索用 mcp 实现

50

czhen

3 天前

我还以为是那种人形大模型呢, 兴冲冲的点进来, 哎🥱

51

crocoBaby

OP

3 天前

@YanSeven gpt-oss-20b 的量化格式貌似也能跑,应该比 7B 好一点吧

52

crocoBaby

OP

3 天前

@viking602 主要想入门 ai 开发吧,但又不想投入太多

53

crocoBaby

OP

3 天前

@czhen 这也能联想到?!老司机!!!

54

Xyg12133617

3 天前

公司买的 90G 显存的机器给我们几个玩。从开始部署 qwen30b 满负载，到后面部署 STT 的模型，再到周年庆部署的 DreamO 。到现在的部署 sukura 模型和 qwen1.5-7b-chat ，确实没啥意思。就是折腾的时候有点费时间。可能最近又要部署 dify 这类工作流调用通用模型了。

55

autumncry

3 天前

1

借楼顺带讨论一下，自己本地部署，构建一个股票/虚拟货币之类的市场预测模型，是否可行呢？

56

crocoBaby

OP

3 天前 via iPhone

@Xyg12133617 纯部署吗？不过你们公司挺好的，愿意提供这么好的硬件，我公司写代码的电脑都能卡半天

57

crocoBaby

OP

3 天前 via iPhone

@autumncry 这个正是我的目的，目前还在摸索中

58

jmliang

3 天前

懒得折腾，gemini-2.5-flash-lite 很便宜了

59

shm7

3 天前

99.9999%的人从 2 年前开始就是在瞎玩，就和买 50 块的二手 cpu 组个机器差不多的

60

abel533

3 天前

本地 AI 生图合适，看看 SD,ComfyUI..本地无限制。

61

keller

3 天前

是谁告诉你学习 ai 相关的开发就必须要本地部署？

62

wwhontheway

3 天前

是谁告诉你学习 ai 相关的开发就必须要本地部署？

63

crocoBaby

OP

3 天前

@keller
@wwhontheway 呃,我猜的

64

coefu

3 天前

@autumncry 如果完成度算 100% 的话，99.99%的人大概能做到 10% 进度，往后就是极限。

65

herozzm

3 天前

本地大模型和线上大厂的相去甚远，小玩具都算不上

66

PbCopy111

3 天前

https://github.com/SillyTavern/SillyTavern

本地部署去，然后下一个本地模型，角色卡去 discord 的类脑找。

67

crocoBaby

OP

3 天前

@PbCopy111 大概了解一下,只能扣个 6

68

keller

3 天前

1

去注册个火山引擎账号，免费的 token 足够你玩很长时间了

69

YUCOAT

3 天前

在本地部署过 stable diffusion ，没玩多久就腻了

70

h4ckm310n

3 天前

我玩了快一年了，就是拿来涩涩的。
一开始用我游戏本的 3060 跑，但只有 6G 显存，跑个 12B Q4 都慢死。
后来用平时上班用的 macbook pro 来跑，32G 内存能跑 14B Q8 了。但是 mac 也只是生成阶段速度可以，处理输入还是慢，拿来玩画图也慢。
618 的时候自己组了一个台式机，4060ti 16G+5060ti 16G ，再加上 96G 内存，纯显卡的话可以跑 32B Q6 左右，加上内存可以跑更大的 MoE 模型。目前我主要用的模型就是 Qwen3 235B 2507 Q2 ，算是我本地能跑的最大的模型了。除了 LLM ，还可以玩画图，5060ti 跑 SDXL 速度比 macbook 快多了，但是跑 Wan 或者 Qwen Image 这样更大的模型还是慢。

71

Narcissu5

3 天前

你等于是在问：以目前的 AI 能力有什么好的落地场景？

半个纳斯达克都在等这个问题的答案

72

crocoBaby

OP

3 天前

@YUCOAT 别剧透啊,我还没玩

73

Xyg12133617

3 天前

@crocoBaby #56 部署加测试，加一部分开发吧

74

crocoBaby

OP

3 天前

@h4ckm310n 膜拜大佬,量化 Q2 不会精度太低导致不可用吗?我 5060 8G 跑 7B Q4 看来还是太保守了,今晚试试 14B Q4,不过 ai 也有说图片生成精度要求不用太高,有没有成品可以欣赏一下啊?

75

crocoBaby

OP

3 天前

@Narcissu5 瑟瑟是第一生产力!

76

edisonwong

3 天前

个人级别的没必要折腾，伪需求，除非你想搞色色不合规的东西
公司级别的最近折腾几台 dgx spark + mac ，还是挺多东西折腾+用途的

77

cheng6563

3 天前

7B 你还想要啥自行车，能出正常流畅的句子就差不多了。

78

cheng6563

3 天前

你不要小看大语言模型这个大

79

jjtang11

3 天前

ai 本地部署在我看来就是一种新的中年男人玩具，就像摄影，hifi ，nas...玩到最后玩的是器材本身

80

version

3 天前

文字类的没啥好玩...玩图像或者视频吧
内存 96g 加 5090D 32G 显存这个是起步价
跑出目前国内大企业的图像一样效果..因为他们都是拿开源模型来部署

81

h4ckm310n

3 天前

@crocoBaby 只要参数量够大（起码上百 B ），Q2 用着还是可以的。AI 生成的图片可以上国内的 liblib 或国外的 civitai 看

82

sharpy

3 天前

加点儿内存跑 qwen3-30b-a3b ，感受会不一样

83

CraftDeadMRC

3 天前

5060 的显存太小了吧，MoE 的话应该也只能到 Qwen3-Next-80B-A3B 的样子，然后这样还会有消费级内存带宽。不过个人使用的话其实本地只用跑 embedded 模型和 reranker 模型对上下文检索就行，然后 api 接 gemini 或者别的模型，要不然长上下文会很蛋疼