用户要求提升，需要在语音识别时，区分不同的人，有什么好的方案？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 373 天前的主题，其中的信息可能已经有所发展或是发生改变。

老用户的要求提升：需要在语音识别时，区分不同的人，不知目前有什么好的方案？（注，用户愿意付费升级。我们原来对接的是腾讯语音识别）

语音识别

区分

方案

6 条回复 • 2024-10-21 14:39:19 +08:00

ferock

PRO

2024-10-20 09:58:10 +08:00 via iPhone

声纹识别，可以识别 A 用户和 B 用户的区别…

forgottencoast

2024-10-20 10:14:16 +08:00

以前用过 IBM 的 demo ，好像最多可以识别 4 个人。

easychen

2024-10-20 10:21:26 +08:00

呃，这个好像是常规需求啊，腾讯云都支持吧。

不知道你的需求具体是啥，如果是在一堆固定发音人中识别，腾讯云貌似自己有接口 https://cloud.tencent.com/document/product/1093/94481

如果是对话中区分不同的说话人，腾讯云的接口也有说话人分离参数 SpeakerDiarization 和 SpeakerNumber
https://cloud.tencent.com/document/product/1093/37823

当然，效果如何就要自己测试了…

leconio

2024-10-20 16:27:07 +08:00 via iPhone

这个模型
https://modelscope.cn/models/iic/speech_eres2netv2_sv_zh-cn_16k-common/summary

Latin

2024-10-21 11:04:34 +08:00

https://cloud.tencent.com/document/product/1093/94483
https://cloud.tencent.com/document/product/1093/37823
你们原先付费服务的说话人识别

XinPingQiHe

2024-10-21 14:39:19 +08:00

刚注意到还有这个接口谢谢二位提醒 @easychen @Latin