我最近发现 Copilot 涨价了,自己算了一下,感觉差不多涨了 10 倍。而且也有不少人说,不能光用 Token 量来衡量一个工程师的能力,更应该看实际产出了什么成果。
其实 AI 也是一样的道理。你说它效率高吧,那确实高,但遇到不同问题的时候表现差距特别大——有时候三下五除二就给解决了,有时候却磨磨唧唧的,白白浪费好多 Token 。
所以我就在想,是不是可以把我们对程序员的绩效考核方式,也拿来套在 AI 身上?(没错,我真是这么想的。)用这种方法来评估 AI 的真实能力,而不是光靠程序员的直觉来感觉它好不好用。
具体来说,可以用现有的绩效指标,比如一个功能预计要花多少“人小时”来完成( AI 可能不太适合用“人天”来算),再看看实际消耗了多少“人小时”。某个功能预计要消耗多少 TOEKN (或者直接就是 dollar ),实际消耗了多少。甚至这些绩效评价也可以直接让 AI 看到,这些在 Agent 上其实是可以做相关设置的。