Qwen3.5-Sonnet-9B: 专为 Coding Agent 蒸馏的 9B 小模型

爱意满满的作品展示区。

最近炼了一个小模型放出来给大家玩，专门针对 OpenCode （还有 Claude Code ）做了蒸馏。

FP8 量化后权重大概 13GB ，单张 24GB 显卡用 vLLM 就能跑 200K 上下文。

核心目标：claude 的风格，降低 tool call 的失败率，让 agent 能跑更长的连续任务。

蹲一下：Bug 反馈、奇怪的 trace 、改进建议都欢迎 🙏

Supplement 1 · May 18

看起来大家的 Mac 基本都是 16GB，很难跑起来这个模型。

虽然我很不喜欢低精度量化，但是做了 GGUF 版本 (Q8_0, Q4_K_M, Q4_K_S):

祝大家玩的愉快

6 replies • 2026-05-17 11:12:30 +08:00

zhang666

May 16 via iPhone

22G 可以用吗？

kuhung

May 16

好奇有做效果测试和对比吗另外有考虑提供更近一步的量化和苹果环境的权重嘛

ytgui

May 16

@zhang666 试了下，19.5GB 显存可以跑 100K 的 context 长度

ytgui

May 16

@kuhung 还在跑，ifeval （指令跟随）和 gpqa_diamond （通用知识）没有弱化。我提供的权重是 hugging face 的标准 fp8 ，不是很熟悉苹果权重，可能会做～

tootfsg

May 16 via Android

好奇，这种和 gemma4 26b a3b 的 iq4xs 量化这种对比哪个好，尺寸可以说一样大。

ytgui

May 17

@tootfsg 跑分的话确实 30Bx4bit 高于 15Bx8bit 。但是实际体验其实不好，高峰期感觉到的那种模型降智，基本就是低精度量化版本的锅