80 TPS 的模型和 30 TPS 的简直两个世界。前者是一个 glm 的长时间都很快
至于模型的聪明程度对我这边 spec + plan + TDD 的约束下并不是那么重要
所以不知道有什么除了肉眼以外的好方法让我测一下
现在用 cc-switch 的测试功能勉强看个大概,但也不知道是首 token 慢还是 TCP 慢还是 tokens/S 慢