V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
cnleoyang
V2EX  ›  程序员

从音频中分离中英文,有什么成熟的技术方案?

  •  
  •   cnleoyang · 2020-04-04 13:15:19 +08:00 via iPhone · 4287 次点击
    这是一个创建于 1698 天前的主题,其中的信息可能已经有所发展或是发生改变。
    对于混合了英文和中文(翻译)的音频,是否有比较成熟的技术产品 /服务可以实现单种语言内容的剥离?类似于自动剪辑为单中文或单英文的音频。
    17 条回复    2020-04-05 13:25:26 +08:00
    XanderChen
        1
    XanderChen  
       2020-04-04 13:43:58 +08:00
    emmmm...找个厉害的音频编辑软件,看看有没有独立音轨?然后提取出来?

    (是不是叫音轨?有错请指正。)

    大概就能想到这方法。还是你想用代码写个提取的工具,ffmpeg 看看有没有相关的方法?

    如果没有独立音轨...emmm...

    那就等大佬的方案吧...
    JerryCha
        2
    JerryCha  
       2020-04-04 14:52:57 +08:00   ❤️ 1
    不知道
    大概频域处理吧,两个人的说话声音肯定不一样,响度也可能不一样
    当然各自独立一条轨道肯定最容易处理
    V69EX
        3
    V69EX  
       2020-04-04 14:57:10 +08:00
    像 youtube 用的那种语音转字幕的软件,应该可以,字幕上有时间,根据转换后的文字是中文还是英文来反过来将视频分片。
    V69EX
        4
    V69EX  
       2020-04-04 14:57:48 +08:00   ❤️ 1
    就算软件只能识别英文也没问题,不能识别的就当中文了。
    llj5935
        5
    llj5935  
       2020-04-04 15:10:50 +08:00   ❤️ 1
    讯飞听见的语音技术可以识别中文中夹杂的英文单词,说明其算法能力具备识别中英文的功能。但是他们还没有做剪辑剥离,相信既然能识别,做剥离是很简单的了。
    cnleoyang
        6
    cnleoyang  
    OP
       2020-04-04 15:16:39 +08:00
    @XanderChen @JerryCha 谢谢。录音时没有考虑到音轨分离的问题,所以已经无法通过音轨来分离了。

    @V69EX Youtube 可以对纯英文的内容生成 CC,但混合语言的就不会生成了。
    cnleoyang
        7
    cnleoyang  
    OP
       2020-04-04 15:17:12 +08:00
    @llj5935 感谢提供,我去看看。
    diggerdu
        8
    diggerdu  
       2020-04-04 15:31:38 +08:00 via iPhone   ❤️ 1
    如果不是一个人说过的可以先做 speaker diarization
    llj5935
        9
    llj5935  
       2020-04-04 15:32:49 +08:00   ❤️ 1
    @cnleoyang 你可以通过讯飞听见自动形成时间轴,再通过时间轴自己做批量剥离
    cnleoyang
        10
    cnleoyang  
    OP
       2020-04-04 16:15:22 +08:00
    @llj5935 不错的思路,谢谢。
    cnleoyang
        11
    cnleoyang  
    OP
       2020-04-04 16:15:53 +08:00
    @diggerdu 请问有技术方案可以提供么?
    w1573007
        12
    w1573007  
       2020-04-04 16:52:01 +08:00 via Android   ❤️ 1
    开源项目:spleeter 。主要是音频人声分离,不过这个主要是对音乐中的人声进行提取,生成干音。楼主可以试试,我用它分离干音品质可以进行重新混音
    diggerdu
        13
    diggerdu  
       2020-04-04 17:18:13 +08:00 via iPhone
    @cnleoyang 开源的都不行 有算法工程师可以自己拿数据训
    cnleoyang
        14
    cnleoyang  
    OP
       2020-04-04 21:03:55 +08:00
    @diggerdu 理解了。
    winterbells
        15
    winterbells  
       2020-04-04 21:55:00 +08:00
    你这个 idea 实现起来有点 difficult 啊
    CaiXiaobai
        16
    CaiXiaobai  
       2020-04-04 22:09:05 +08:00
    科大讯飞有 声音识别转文字,你值得拥有
    liuzhiyong
        17
    liuzhiyong  
       2020-04-05 13:25:26 +08:00
    同意楼上的,这方面科大讯飞比较猛,用过他们的 TTS,非常牛。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1034 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 20:40 · PVG 04:40 · LAX 12:40 · JFK 15:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.