V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
rizon
V2EX  ›  程序员

实时对话场景下怎么做 rag 不影响响应速度(最佳实践)

  •  
  •   rizon ·
    othorizon · 16 天前 via Android · 2186 次点击
    #背景

    如果是一个不在意响应速度的场景,不在意成本的情况下。每句回复之前都可以做一次记忆召回,不过实际这样召回也不对,因为可能会导致重复召回的问题,所以还需要更多判断。有经验的大佬可以顺便分享一下这个点。

    不过我想问的是,在实时对话,也就是期望保持低延迟的语音对话中,该如何触发记忆召回呢。

    我能想到的就是 2 个方法:
    1 ,前置一个小模型做意图判断是否需要召回记忆。
    2 ,模型里加入一个召回记忆的 tool ,靠模型自己判断。
    不过这个只解决了召回时机的问题,还需要解决召回速度,比如混合关键词检索等。

    #问题

    所以我的问题就是,

    1 ,关于召回时机这里有什么好的最佳实践吗?
    2 ,关于召回速度提升有什么好的方案吗?
    3 ,目前有什么做的比较好的适合语音对话的可以直接去集成的产品吗
    9 条回复    2025-11-05 13:53:56 +08:00
    maolon
        1
    maolon  
       16 天前
    我觉得大部分目前的系统都是采用你说的 2.这个方案,也就是模型自己判断要不要召回。

    至于速度问题,其实可以用一些 trick 解决,比如开始召回就会固定/非固定的输出语音,比如“让我想想”,“我回想一下我们聊过的内容”这样的语音来拖时间,一般再怎么搞 300ms 也能召回完成了,而你拖时间的这句话应该会比这个时间长。

    我之前产品用的 livekit 他们的服务,你可以去看看。
    rizon
        2
    rizon  
    OP
       16 天前 via Android
    @maolon 嗯嗯,感谢。我看看
    galileo1214
        3
    galileo1214  
       16 天前
    不是有 memery saver 吗?
    xvan
        4
    xvan  
       16 天前
    现在的召回速度大概多少,如果 1s 不到还凑合
    记忆体有专用的组件,比如 mem0 ,但是速度就不太好保证了,用的 LLM
    cryptovae
        5
    cryptovae  
       16 天前
    UX 设计, 在召回阶段让用户觉得是模型在思考
    rizon
        6
    rizon  
    OP
       16 天前
    感觉收藏这个帖子的人很多,但是回帖很少,可能大家都有这方面问题,但是都没有很成熟的落地经验 吧
    rizon
        7
    rizon  
    OP
       16 天前
    @xvan 这就是平衡问题了,用云服务而不是本地服务的话,延迟我感觉下不来
    rizon
        8
    rizon  
    OP
       16 天前
    @cryptovae 是,这是兜底设计。
    rizon
        9
    rizon  
    OP
       15 天前
    有大佬分享一下嘛
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   3070 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 12:56 · PVG 20:56 · LAX 04:56 · JFK 07:56
    ♥ Do have faith in what you're doing.