最近炼了一个小模型放出来给大家玩,专门针对 OpenCode (还有 Claude Code )做了蒸馏。
FP8 量化后权重大概 13GB ,单张 24GB 显卡用 vLLM 就能跑 200K 上下文。
核心目标:claude 的风格,降低 tool call 的失败率,让 agent 能跑更长的连续任务。
蹲一下:Bug 反馈、奇怪的 trace 、改进建议都欢迎 🙏
🤗 HF: Qwen3.5-Sonnet-9B
最近炼了一个小模型放出来给大家玩,专门针对 OpenCode (还有 Claude Code )做了蒸馏。
FP8 量化后权重大概 13GB ,单张 24GB 显卡用 vLLM 就能跑 200K 上下文。
核心目标:claude 的风格,降低 tool call 的失败率,让 agent 能跑更长的连续任务。
蹲一下:Bug 反馈、奇怪的 trace 、改进建议都欢迎 🙏
🤗 HF: Qwen3.5-Sonnet-9B
看起来大家的 Mac 基本都是 16GB,很难跑起来这个模型。
虽然我很不喜欢低精度量化,但是做了 GGUF 版本 (Q8_0, Q4_K_M, Q4_K_S):
祝大家玩的愉快