请问大神:
有一段英语谈话音频: Donald J. Trump is the 45th President of the United States.
请问有啥软件或算法能把上述一段谈话音频按照谈话的每个字切割成 N 段仅有一个字的短音频, 如切割成:
Donald
J.
Trump
is
the
45th
President
of
the
United
States.
切割成上述 11 段仅有一个字的短音频. 请问有啥软件或算法能自动实现这个功能?
烦请出出主意, 小女在此谢谢各位大神了!
1
knightdf 2020-11-12 14:57:15 +08:00
这直接按波峰波谷切就行了吧?
|
2
oatw 2020-11-12 15:02:58 +08:00
额,好像还是有难度的。英语为母语的人会有各种连读和略音,一句话里的发音都不是覆盖所有单词的,所以理论上来看是没法直接把每个单词从原音切出来的。
如果只是追求每个单词的发音,而不强求原声,觉得可以试试先调用语音识别的接口识别成文本,然后再 ai 读单词,哈哈哈~ |
3
laminux29 2020-11-12 15:06:59 +08:00 1
|
4
jmc891205 2020-11-12 15:10:29 +08:00
感觉各种连读吞音很难从音频上区分
你还是说说你为什么有这样需求吧 如果是先识别成文本,然后做分词,再按分词结果转换成每个词的语音,那我感觉还好做一些 |
5
takemeaway 2020-11-12 15:52:16 +08:00 1
语言识别-》分词-》获取时间轴-》切割音频
你是想做伪造音频的视频吧? |
6
loliordie 2020-11-12 16:11:48 +08:00
aws 和 google 有语音识别的开源 API, 可以去了解一下.
我使用过 aws 家的, 识别率非常高. |
7
shintendo 2020-11-12 16:26:02 +08:00
@takemeaway 我猜是做鬼畜素材
|
8
Elissa 2020-11-12 16:33:12 +08:00 via Android
猜测鬼畜音源+1
|
9
xuanbg 2020-11-12 16:43:23 +08:00
text to voice ?
|
10
QuinceyWu 2020-11-12 16:50:06 +08:00
自己剪把 2333
|
11
h4wklee 2020-11-12 16:52:09 +08:00
我
劝 你 耗 子 尾 汁 |
12
LinSP 2020-11-12 17:06:58 +08:00
用语音识别 API 获取词时间戳,然后根据时间戳自己去分下,一般的 API 都有这个功能
|
13
jones2000 2020-11-12 23:08:47 +08:00
语音转文本, 然后用语音一个一个单词念。
|
14
saulshao 2020-11-13 08:37:08 +08:00
首先是语音识别,然后 nlp
|
15
user8341 2021-01-05 02:47:06 +08:00
这个 idea 不错。做出来就是一个 youglish.com
|