ChatGPT APP 的语音输出是怎么做到那么逼真的？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 621 天前的主题，其中的信息可能已经有所发展或是发生改变。

试了下官方提供的 TTS 接口 https://api.openai.com/v1/audio/speech 语气是有点接近了，但是那些停顿，以及语气词，类似呃，嗯，这种类似真人一样的发音，接口没有生成，难道是通过算法自己插入语气词，再调用 tts 生成？

5 条回复 • 2024-01-17 10:28:24 +08:00

Tubbs

2024-01-16 18:37:02 +08:00

可以看下开源的 suno-ai/bark ，之前就有这个东西了

BenX

2024-01-16 22:49:07 +08:00 via iPhone

@Tubbs mark

ShawBen

2024-01-17 09:28:01 +08:00

@Tubbs 谢谢推荐，研究下看看，之前以为微软的 tts 已经足够厉害了，但也得用 ssml 才能做到类似的效果。

alanhe421

2024-01-17 09:49:20 +08:00

OpenAI 的 TTS 服务本身就已经有语气了吧，直接调 API 出个 audio ，听听也是这样

ShawBen

2024-01-17 10:28:24 +08:00

@alanhe421 是的，微软的已经很不错了，我也一直在用，不过体验了下 GPT APP 的语音输出，发现更像人，说话的顿挫感更强，而且还会自动加上一些停顿，语气词，虽然有点用例过猛的嫌疑，但是用户还是挺好这口