别人都在关心千问发布会上点奶茶，而我却关注……

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

千问发布会上演示语音交互时，如果现场嘈杂，甚至夹杂台下人声，是如何做到语音模型不会误输入的，背后的媒体技术是什么，降噪是如何处理的，是话筒自带降噪还是需要额外佩戴降噪麦克风，如果额外佩戴麦克风，那会不会受到扬声器音响的影响。
如果有性价比比较高的设备，求推荐

4 条回复 • 2026-02-09 10:44:06 +08:00

geomancy

6 天前 via iPhone

如果是特定演示者进行交互，也可以通过识别声纹定位到演示者。

unt

6 天前 via iPhone

@geomancy 嗯，后面可以试下

Cabana

6 天前 via iPhone

阵列麦克风，指向性麦克风，然后再做个实时降噪处理

Meteora626

5 天前

这是两码事，现在开源的语音模型都可以区分说话人了，你可以看看阿里开源的 asrfun 降噪、说话人识别一堆模型