1
maolon 16 天前
我觉得大部分目前的系统都是采用你说的 2.这个方案,也就是模型自己判断要不要召回。
至于速度问题,其实可以用一些 trick 解决,比如开始召回就会固定/非固定的输出语音,比如“让我想想”,“我回想一下我们聊过的内容”这样的语音来拖时间,一般再怎么搞 300ms 也能召回完成了,而你拖时间的这句话应该会比这个时间长。 我之前产品用的 livekit 他们的服务,你可以去看看。 |
3
galileo1214 16 天前
不是有 memery saver 吗?
|
4
xvan 16 天前
现在的召回速度大概多少,如果 1s 不到还凑合
记忆体有专用的组件,比如 mem0 ,但是速度就不太好保证了,用的 LLM |
5
cryptovae 16 天前
UX 设计, 在召回阶段让用户觉得是模型在思考
|
6
rizon OP 感觉收藏这个帖子的人很多,但是回帖很少,可能大家都有这方面问题,但是都没有很成熟的落地经验 吧
|
9
rizon OP 有大佬分享一下嘛
|