shuimugan 最近的时间轴更新
shuimugan

shuimugan

V2EX 第 83209 号会员,加入于 2014-11-23 14:34:54 +08:00
今日活跃度排名 18271
根据 shuimugan 的设置,主题列表只有在你登录之后才可查看
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
shuimugan 最近回复了
5 天前
回复了 Unclev21x 创建的主题 Apple 苹果刚刚推出了新款 Mac Studio
@mkdirmushroom
@jqknono
我的 Mac Studio 就是 192GB 的 M2 Ultra ,对于 M3 Ultra 跑 deepseek V3/R1 的速度我意见和 33 楼一致,最多是随着上下文越大速度不断衰减
5 天前
回复了 Unclev21x 创建的主题 Apple 苹果刚刚推出了新款 Mac Studio
@dongfanga 但是两者的激活参数差不多,速度上差距不大,得具体实测所有题目才好说,我只测了代码能力。而且 qwq-32b 跑起来条件太简单了,搞两张 16-24g 显存的卡,2 张 a770 都可以没什么压力
5 天前
回复了 Unclev21x 创建的主题 Apple 苹果刚刚推出了新款 Mac Studio
@dongfanga 可行啊,我玩了一天了,6bit 量化下回答质量和 grok3 差不多
6 天前
回复了 Unclev21x 创建的主题 Apple 苹果刚刚推出了新款 Mac Studio
32B 模型 4bit 量化在 M2 Ultra 可以跑到 42token/s (开启 KV Cache ),而 deepseek v3 和 r1 的激活参数量都是 37B ,总参数量 671B ,在 512GB 内存上跑 4bit 量化为主,大体上也是 40~45token/s 左右(对比 M2 Ultra 算力和带宽的提升和激活参数变化所得)。
对比 deepseek 现在的官网价格,v3 每百万 token 输出为 8 元,r1 是 16 元,用 Mac Studio M3 Ultra 512GB 拿来跑 deepseek v3 的话大概是 74249/8 * 1000000 / 45 / 86400 = 2387 天回本,跑 r1 回本速度快一倍,只需 1193 天。
8 天前
回复了 momowei 创建的主题 计算机 帮忙看看这个 diy 装机配置搞开发怎样
@ifwww 我装过 3 个开发机了,一开始都是想着扩展性,到最后最多也就插个显卡插个机械盘。不如小型化,平时也方便带去公司做个团队测试环境,淘汰了还方便寄给家人。
8 天前
回复了 momowei 创建的主题 计算机 帮忙看看这个 diy 装机配置搞开发怎样
搞个 7945HX 准系统就行了 比如 https://item.jd.com/10122934326058.html ,两千多,16 核 32 线程,功耗低性能强,搞成迷你主机方案还不占地方,再插 2 条 48g 内存,妥妥的小钢炮。
就是找出相关内容然后字符串拼接,看 llamaindex 代码就懂了,知识库都是围绕那三五十行代码做各种业务和 UI 的封装。
https://github.com/run-llama/llama_index/blob/81d4b871143ddd4a7cb90333a3d103fbb1f269c5/llama-index-core/llama_index/core/prompts/chat_prompts.py#L21

消耗 token 那是肯定的,所以去年 5 月 deepseek 把价格打到几乎是全行业的 1%,搞得其它几家也跟着降价,不然现在哪有那么多知识库的需求。
什么并发要求?
https://x.com/carrigmat/status/1884244369907278106 6000 美元,用双路 epyc + 24 通道 ddr5 跑 q8 规格,6~8 token/s ,实际功耗不到 400w ,当然随着上下文越大每秒 token 数会下降,而且不出意外并发只有 1 。

然后最近又出了一个更多快好省的方案 KTransformers
https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md
https://www.reddit.com/r/LocalLLaMA/comments/1ilzcwm/671b_deepseekr1v3q4_on_a_single_machine_2_xeon/

将闲置的专家从内存中卸载、将核心专家放入显存而边缘专家放入内存,和 23 年年底上海交大那个 PowerInfer 思路很像,充分利用 CPU 和 GPU 的资源,按照上面的 cpu 方案加几块卡就够了。


需求不急的话可以等一波,先用着各种供应商提供的 api ( together.aifireworks.ai 等)
https://docs.openwebui.com/features/ 这个集成了搜索,源码里集成了好几家搜索引擎,免费的话用的是 duckduckgo 的 https://github.com/open-webui/open-webui/blob/2017856791b666fac5f1c2f80a3bc7916439438b/backend/open_webui/retrieval/web/duckduckgo.py#L12 ,在容器里配个 http_proxy/https_proxy 或者丢海外部署就好了。
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3302 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 9ms · UTC 12:02 · PVG 20:02 · LAX 05:02 · JFK 08:02
Developed with CodeLauncher
♥ Do have faith in what you're doing.