V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  bwnjnOEI  ›  全部回复第 1 页 / 共 3 页
回复总数  55
1  2  3  
@zzutmebwd 你指的是单一量化格式吧,现在都是混合精度,比如 moe 里用 fp8 layernorm 里保持精度能掉多少精度,而且 kv cache 一般都不量化而且我们现在天天用的套餐都是量化后的模型。
@bwnjnOEI 难点就是瞬时 token 数量会不会爆显存,如果观测一段时间爆了要么加算计要么上手段比如 fp8 (前提调点精度能不能接受
@bwnjnOEI 但是我不建议使用 claude code router ,至少公司使用这个不可行,推荐 Bifrost go 写的比 litellm python 的快
好几个开源 llm 网关,统一所有接口而且可以遥测和统计 token ,另外多卡用 vllm 或 sglang 部署都有很好的并发优化。必须先部署上之后效果需要不断优化,就对着这俩文档研究参数和基本原理就行
12 天前
回复了 wyfig 创建的主题 程序员 你们的私人项目 git 库现在都保持到哪里?
去年纠结很久最后没买 nas 买的 macmini 挂尿袋,用的 gitea ,待机才不到 6w
@w3 怎么感觉变相夸自己呢
是侵入式遥测那家吗?我 X 的页面一翻译就崩溃 retry
买了 bandwagon ( LA )和 racknerd (圣何塞),从大概 11 月初 bandwagon 和 racknerd 都开始不稳定( hysteria2 和 Reality ),到了 12 月 bandwagon 恢复正常了但是偶尔也小抽风,racknerd 干脆用不了。坐标:辽宁移动。
2025 年 12 月 20 日
回复了 LimboRunner 创建的主题 VPS 我们的服务宗旨是不退钱! RackNerd VPS 大避雷
家里移动这两天连不上了已经 偶尔下午几小时能用 估计是线路问题
2025 年 12 月 14 日
回复了 dddddddy 创建的主题 Local LLM 想自己搞个量化投资模型,怎么解决训练资源的问题?
现在内存和固态涨成这样你得多花多少钱,等明年吧。另外,你可以看看 b/y 上的装机博主装机视频看看搞量化的都啥配置 3w 不算 gpu 应该够,我看他们至少 1 万多那个入门级线程撕裂着 >256g 内存 显卡当然越多越好
假设就是你想的那样其实也无所谓,即便是涉及敏感言论也可能无所谓,有所谓的可能是你有大额境外资产或加密货币等
你是没用 kimi 不然更抓狂
2025 年 12 月 10 日
回复了 divfooter 创建的主题 NVIDIA 美国解禁了 H200 显卡,那 5090 后面会不会同步销售了呢
不能解禁 因为他出了 pro6000d 你看他核心和带宽砍成啥了 还卖 4 万多
2025 年 12 月 10 日
回复了 monkeyWie 创建的主题 程序员 为什么都在吹 Claude Code,我感觉 Copliot 挺好用的啊!
虽然我不用 copilot 但是还得吐槽下 claude code 尽管官方说通过 @agent.md 支持统一上下文指令文档但是这么久了还不原生支持,太装逼了

虽然可以通过 ln 或 hook 解决但是给个人 diy 多智能体造成了很多麻烦 开多 worketree 容易乱
感觉和 llm 没有那么大关系,是全球裁员导致中高级工程师变少或忙不过来,初级工程师没人带度过学徒阶段比以前的人更慢,出错频率变高
onetab 应该没事吧,也是国人开发的吗?
2025 年 12 月 1 日
回复了 einsdisp 创建的主题 输入法 AI 时代了, Linux 下有好用的开源的中文输入法了吗
为什么没有自动补全的输入法
2025 年 11 月 30 日
回复了 punny 创建的主题 程序员 给所有 AI ChatBot 的一个建议
我记得去年有个开源项目的会话组织形式是基于树的,但是这种非线性的缓存命中率是怎么算的呢?会不会很费 token?
2025 年 11 月 30 日
回复了 beizhedenglong 创建的主题 程序员 有没有什么 AI 模型或者服务擅长鱼类鉴别
@beizhedenglong 我觉得不用上 vlm ,除非你还需要看图输出知识
1  2  3  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   995 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 34ms · UTC 22:34 · PVG 06:34 · LAX 14:34 · JFK 17:34
♥ Do have faith in what you're doing.