@
beimenjun 通过询问作者得到一份真实场景的数据
一条中长复杂度的 App 自动化 case ,从进入洋葱 App 做题板块,到循环完成 5 道题,并断言结束页结果正确。该 case 实际共请求豆包视觉模型 doubao-seed-1-6-vision-250815 共 33 次。
在执行过程中,我们在调用层实现了 Token 经济熔断机制:当上下文 token 接近一档上限时,主动切断当前会话上下文并开启新一段请求,避免后续 prompt tokens 持续累积进入更高计费档位。这个真实案例中,第 21 次模型请求时 prompt tokens 达到 31,328 ,第 22 次请求被熔断切段后降到 2,982 。
这次真实执行的 token 数据为:总 prompt tokens = 486,363 ,总 completion tokens = 2,613 ,其中 cached tokens = 438,549 ,缓存命中率 90.2%,真实推理 token 为 50,427 。
按该模型一档计价口径估算:未命中输入 0.72 元 / 百万 tokens ,缓存命中输入 0.16 元 / 百万 tokens ,输出 7.2 元 / 百万 tokens 。
费用公式为:
总费用 = 未命中输入 token × 未命中输入单价 + 缓存命中 token × 缓存命中单价 + 输出 token × 输出单价
代入数据:
未命中输入 token = 486,363 − 438,549 = 47,814 ,费用约 0.034 元;缓存命中 token = 438,549 ,费用约 0.070 元;输出 token = 2,613 ,费用约 0.019 元。
所以这条 33 次模型请求的中长复杂度 case ,整体推理费用约为 0.12 元上下。该金额已经包含缓存命中 token 的计费,但未包含缓存存储费;缓存存储费量级很小,暂不计入。