V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
V2EX  ›  clemente  ›  全部回复第 2 页 / 共 47 页
回复总数  926
1  2  3  4  5  6  7  8  9  10 ... 47  
搜索 perplexity
长文本理解 gemini
代码 codex+cc
图片 gpt
日常 豆包
录音 通义听悟
open -a 'Claude' --args --proxy-server="http://xxxx.com:xxx" --proxy-bypass-list="localhost,127.0.0.1,::1"
open -a 'Codex' --args --proxy-server="http://xxxx.com:xxx" --proxy-bypass-list="localhost,127.0.0.1,::1"


最佳方案在这里
其实是模型拆到 硬件的 sip core 里面了 通常只能定制模型
12 天前
回复了 awesomes 创建的主题 分享创造 该运动起来了程序员朋友们
少吃 吃的好 睡得好 才是值得关注的

这是优化项 里面的 top1
上架流程快嘛
12 天前
回复了 followadc 创建的主题 Local LLM mac 64g 能部署哪个本地大模型
一般 小设备都跑 nvfp4 或者 fp8

mac fp8 的话 你大概跑 36 - 40+ 左右的差不多了 但可能你做其他功能就卡了
12 天前
回复了 followadc 创建的主题 Local LLM mac 64g 能部署哪个本地大模型
我正好写过类似工具

如果是稠密模型
运行时显存需求 = 模型参数 x dtype(是什么量化版本) + 冗余量 留给 kv cache

如果是 moe 的模型
实际运行时显存需求 少于上面


用 13b 模型为例
格式 每参数字节 13B 权重
FP16/BF16 2B ~26 GB
FP8 (E4M3) 1B ~13 GB
NVFP4 0.5B ~7 GB


kv cache 按照 1/4 冗余计算

26 * 5/4
13 * 5/4
7 * 5/4
@conky 美国身份证?
@TerranC 最新的 claude code 内置了 superpower skill
我觉得你这个用车 不如去买个二手的油车
从 优化这门学科的角度 你应该分析一下地球 top5 的浪费活动 然后优化他们 比 你现在考虑的重要的多
钝刀秀刀功

不如做全套 hook + ai
改了也没用 驱动和 Kernel 不支持
5 月 20 日
回复了 Rrrrrr 创建的主题 NVIDIA 去年 H200 能买,不让买是代替快出来了?
h200 算力很强大 还有 fp8 支持
5 月 20 日
回复了 meetyuan 创建的主题 程序员 大家都是怎么判断中转站安全性呢?
用 10 个冷门知识验证
@Ketteiron 你拿 自由市场的例子 来做推理 退不出的答案
@Ketteiron 你知道最近化债是做什么的吗? 一个系统要维护稳定 最先的动作是 投钱加固 而不是拆墙根
5 月 19 日
回复了 jony83 创建的主题 随想 对于目前的关于 ai 的看法和感受
典型的拿 明朝的剑 来斩 清朝的官
5 月 19 日
回复了 jony83 创建的主题 随想 对于目前的关于 ai 的看法和感受
现在世界模型还没有开始 范式也没有固定
你理解的 ai 和现在在发展的 ai 不是一回事
5 月 19 日
回复了 jony83 创建的主题 随想 对于目前的关于 ai 的看法和感受
`ai 本质是文本 tokenizer 化`
你说的是 llm ai

我估计你都不懂什么叫多模态吧
1  2  3  4  5  6  7  8  9  10 ... 47  
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   972 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 37ms · UTC 21:47 · PVG 05:47 · LAX 14:47 · JFK 17:47
♥ Do have faith in what you're doing.