实时对话场景下怎么做 rag 不影响响应速度（最佳实践）

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

#背景

如果是一个不在意响应速度的场景，不在意成本的情况下。每句回复之前都可以做一次记忆召回，不过实际这样召回也不对，因为可能会导致重复召回的问题，所以还需要更多判断。有经验的大佬可以顺便分享一下这个点。

不过我想问的是，在实时对话，也就是期望保持低延迟的语音对话中，该如何触发记忆召回呢。

我能想到的就是 2 个方法：
1 ，前置一个小模型做意图判断是否需要召回记忆。
2 ，模型里加入一个召回记忆的 tool ，靠模型自己判断。
不过这个只解决了召回时机的问题，还需要解决召回速度，比如混合关键词检索等。

#问题

所以我的问题就是，

1 ，关于召回时机这里有什么好的最佳实践吗？
2 ，关于召回速度提升有什么好的方案吗？
3 ，目前有什么做的比较好的适合语音对话的可以直接去集成的产品吗

实时对话

记忆召回

响应速度

9 条回复 • 2025-11-05 13:53:56 +08:00

maolon

16 天前

我觉得大部分目前的系统都是采用你说的 2.这个方案，也就是模型自己判断要不要召回。

至于速度问题，其实可以用一些 trick 解决，比如开始召回就会固定/非固定的输出语音，比如“让我想想”，“我回想一下我们聊过的内容”这样的语音来拖时间，一般再怎么搞 300ms 也能召回完成了，而你拖时间的这句话应该会比这个时间长。

我之前产品用的 livekit 他们的服务，你可以去看看。

rizon

16 天前 via Android

@maolon 嗯嗯，感谢。我看看

galileo1214

16 天前

不是有 memery saver 吗？

xvan

16 天前

现在的召回速度大概多少，如果 1s 不到还凑合
记忆体有专用的组件，比如 mem0 ，但是速度就不太好保证了，用的 LLM

cryptovae

16 天前

UX 设计, 在召回阶段让用户觉得是模型在思考

rizon

16 天前

感觉收藏这个帖子的人很多，但是回帖很少，可能大家都有这方面问题，但是都没有很成熟的落地经验吧

rizon

16 天前

@xvan 这就是平衡问题了，用云服务而不是本地服务的话，延迟我感觉下不来

rizon

16 天前

@cryptovae 是，这是兜底设计。

rizon

15 天前

有大佬分享一下嘛