V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
xbox360
V2EX  ›  问与答

使用 whisper.cpp 加载 large-v3-turbo 模型生成字幕的问题

  •  
  •   xbox360 · 2 天前 · 668 次点击

    目标是中文语音生成字幕.因为显存只有 3G,所以只能用 ggml-large-v3-turbo.bin 和 ggml-medium.bin,但是生成的 srt 字幕,v3 在每一行里会将很多字挤在一起,而 medium 基本上每一行不会有太多字

    基本上个人觉得 medium 还可以

    还有如何在 prompt 控制输出成简体中文?有时候繁体简体混在一起,有时候全繁体或全简体.

    命令如下
    main.exe Z:\1.mp3 -m Z:\Model\ggml-medium.bin -l chinese -osrt
    
    5 条回复    2025-08-31 19:38:51 +08:00
    powerfulyang
        1
    powerfulyang  
       2 天前 via Android
    感觉 v2 中文效果 更好
    Liu6
        2
    Liu6  
       2 天前
    opencc 可以将繁体变成简体, 后处理一下就好了。
    zcf0508
        3
    zcf0508  
       2 天前 via Android
    whisper 的 prompt 不是命令,而是示例
    heimoshuiyu
        4
    heimoshuiyu  
       2 天前
    v3-turbo 效果不如 v3
    v3 中文效果不如 v2
    很难说 v3-turbo 和 medium 在中文上哪个更好

    使用 prompt 出简体我基本上是瞎写:“以下是简体中文的会议记录摘要。有完整的标点符号。”
    或者用 opencc 处理一下
    3G 显存够跑 large-v2 的,可以看我项目 https://github.com/heimoshuiyu/whisper-fastapi
    xbox360
        5
    xbox360  
    OP
       1 天前
    @heimoshuiyu
    3G 显存只能跑 large-v2-q8_0,这个容量为 1.54GB 的模型在 whisper.cpp 运行时占用显存达 2.9G,6 分 30 秒的音频输出字幕时间为 4 分钟多一点.
    而 large-v2 容量为 2.88GB,加载后也是占用 2.9G 显存,但可能是太大了,显卡满载占用 20 多分钟都没输出过一行字幕
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1360 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 19ms · UTC 17:00 · PVG 01:00 · LAX 10:00 · JFK 13:00
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.