wenyifancc's recent timeline updates
wenyifancc

wenyifancc

V2EX member #334846, joined on 2018-07-24 10:03:59 +08:00
Today's activity rank 5192
wenyifancc's recent replies
19h 54m ago
Replied to a topic by tt83 程序员 字节这 Code Plan 诈骗吧
GLM-5.1 和 Minimax-M2.7 差不多就是 10 倍计费
@abc8678 我曾经在小米 14Pro 上通过 fastboot 导致黑砖,我确定切换的槽位是有内容的,最终是通过 9008 重新刷回来的,不用刷 userdata 可以保数据
PC 和这个设备通过有线网线连接吗?
Nov 22, 2025
Replied to a topic by wenerme 程序员 LLAMA CPP 比 Ollama 快得多
@mooyo 100 token/s 已经不错了,硅基的 API 服务也没这么快,某些模型甚至就 30 token/s;刚才折腾本地部署 GLM-4.6-355b-a32b,速度 5 token/s 图一乐,哈哈
Nov 21, 2025
Replied to a topic by wenerme 程序员 LLAMA CPP 比 Ollama 快得多
@mooyo 试试 vulkan 的后端,另外我使用核显(intel 的核显)速度明显是不如直接用 cpu 跑的,内存速度也有影响,我的内存频率是 6400M,双通道,192GB;
附上其他模型的性能供参考:(5090 显卡,显存够的情况下全部放显存;不够的情况下,加载模型时 moe 层卸载到 cpu,仅共享层和 kv 缓存放显存;通常显存使用 16g 以内)
以下模型精度都是 UD_Q4_X_KL:

qwen3-235b-a22b-2507-instruct: 7 token/s
qwen3-vl-235b-a22b-2507-instruct: 6 token/s
qwen3-vl-30b-a3b-instruct: 180 token/s
qwen3-vl-32b-instruct: 55 token/s
qwen3-vl-8b-instruct: 120 token/s

glm-4.5-air: 15 token/s
gpt-oss-120b: 30 token/s
gpt-oss-20b: 240 token/s
Nov 21, 2025
Replied to a topic by wenerme 程序员 LLAMA CPP 比 Ollama 快得多
@mooyo 这速度不对啊,我在 Intel Ultra 265k 使用纯 cpu 运行 Qwen3-30b-a3b-2507_UD_Q4_K_XL 在 32k 上下文长度下也能跑 32token/s,使用 5090 可以跑 300token/s
llama.cpp vulkan 后端
Sep 30, 2025
Replied to a topic by elboble Linux 阿里轻量云做转发,一半情况失败,
新增域名备案就行了,初审通过就给你放通了
syncthing
期待支持配置 turn 服务来兼容跨网转发的场景
@funky 另外,turn 的 Url 地址使用 127.0.0.1 是有问题的,这个应该是站在客户端的角度,客户端获取了这个配置然后连接 turn 服务器,设置 127.0.0.1 会导致客户端无法连接 turn 服务器,应该设置公网暴露的地址
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   6002 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 20ms · UTC 03:33 · PVG 11:33 · LAX 20:33 · JFK 23:33
♥ Do have faith in what you're doing.