@mooyo 试试 vulkan 的后端,另外我使用核显(intel 的核显)速度明显是不如直接用 cpu 跑的,内存速度也有影响,我的内存频率是 6400M,双通道,192GB;
附上其他模型的性能供参考:(5090 显卡,显存够的情况下全部放显存;不够的情况下,加载模型时 moe 层卸载到 cpu,仅共享层和 kv 缓存放显存;通常显存使用 16g 以内)
以下模型精度都是 UD_Q4_X_KL:

qwen3-235b-a22b-2507-instruct: 7 token/s
qwen3-vl-235b-a22b-2507-instruct: 6 token/s
qwen3-vl-30b-a3b-instruct: 180 token/s
qwen3-vl-32b-instruct: 55 token/s
qwen3-vl-8b-instruct: 120 token/s

glm-4.5-air: 15 token/s
gpt-oss-120b: 30 token/s
gpt-oss-20b: 240 token/s

Nov 21, 2025

Replied to a topic by wenerme › 程序员 › LLAMA CPP 比 Ollama 快得多

@mooyo 这速度不对啊,我在 Intel Ultra 265k 使用纯 cpu 运行 Qwen3-30b-a3b-2507_UD_Q4_K_XL 在 32k 上下文长度下也能跑 32token/s,使用 5090 可以跑 300token/s
llama.cpp vulkan 后端

Sep 30, 2025

Replied to a topic by elboble › Linux › 阿里轻量云做转发，一半情况失败，

新增域名备案就行了,初审通过就给你放通了

Sep 24, 2025

Replied to a topic by lrannn › Android › 安卓设备上备份数据到电脑上的最佳方案是什么

syncthing

Aug 28, 2025

Replied to a topic by molika › 分享创造 › 开源，肝爆了！基于 WebRTC 端到端的桌面共享/文本传输/文字传输已经都达到了可用状态！撒花~

期待支持配置 turn 服务来兼容跨网转发的场景

Aug 18, 2025

Replied to a topic by funky › 程序员 › 多人会议采用 webrtc 作为方案部署了 coturn 作为中继服务器。现在发现视频质量不高以及多人视频某一客户端的视频会卡一小会后又恢复正常，作为服务端应到 turnserver 配置哪些东西呢？解决了请喝杯咖啡

@funky 另外,turn 的 Url 地址使用 127.0.0.1 是有问题的,这个应该是站在客户端的角度,客户端获取了这个配置然后连接 turn 服务器,设置 127.0.0.1 会导致客户端无法连接 turn 服务器,应该设置公网暴露的地址

» More replies by wenyifancc