比如通过一些软件生成了 srt 字幕文本,但是这些字幕文本都比较零散,可以通过写一个解析 srt 文本的程序让它们自动剪接生成一句完整的话吗?然后剪切合并后的语句的时间戳信息也自动合并!没想出啥思路可以解决,想用 Python 来写,搜了下有 srt 相关的库,但是具体的解析思路还没有!
还请相关前辈指导一些思路?不胜感激,^_^
![]() |
1
naminokoe 2024-05-02 13:55:42 +08:00
如何定义什么叫做一句完整的话?
|
2
dji38838c 2024-05-02 14:02:41 +08:00
中文吗
中文还是比较好搞的,做过 |
![]() |
4
summerlv OP @dji38838c 英文,想把英文弄成一句完整的话,然后翻译为中文,英文就是比较多语气词或者停顿的话就不好弄,而且最要命的是可能会有对话形式
|
![]() |
6
gaobh 2024-05-02 14:11:15 +08:00 via iPhone
扔给 gpt 直接组合就好了,不放心就用工作流就行了,这么简单的问题
|
9
mumbler 2024-05-02 14:32:52 +08:00
用 whisper 重新去识别生成字幕,prompt 告诉它按完整句子断句
|
![]() |
13
XCFOX 2024-05-02 14:57:49 +08:00
OP 用的什么什么软件生成的 srt ? 正常的语音识别输出的不就是一个完整的语句吗?
https://www.xfyun.cn/services/lfasr https://help.aliyun.com/zh/dashscope/developer-reference/paraformer-speech-recognition/ https://www.volcengine.com/product/asr |
![]() |
15
summerlv OP @XCFOX 剪映,用的剪映的智能字幕识别,识别出来的其实还蛮准确的, 但是就是因为对话形式的字幕,导致有些单词不能成句,然后就需要手动调,感觉比较麻烦,所以想着能不能解析下 srt 文本,然后能够自动调整下成句
|
![]() |
16
javaluo 2024-05-02 18:47:46 +08:00 via iPhone
有 Whisper 识别英文,说不定识别之后效果就么已经不错,没有那种断来断去的问题我
|
![]() |
17
sm1314 2024-05-02 18:50:24 +08:00
需要多模态视频理解,字幕信息量太少了
|
![]() |
18
sm1314 2024-05-02 18:51:23 +08:00
你就是想做视频解说吧,别想了,难度很大
|
![]() |
19
matthewzhong 2024-05-02 20:58:43 +08:00 ![]() |
![]() |
20
thinkm 2024-05-02 21:00:06 +08:00
这个比较难,目前没有好的方案
|
21
sighforever 2024-05-02 21:13:20 +08:00
我觉得 gpt 仔细限制一下提示词,应该能做到吧。文本重写基本上是 gpt 这种大语言模型最基础可靠的能力之一。
当然你的需求里面对语意方面的要求比较高,无论哪种都不太行吧。毕竟只有字幕这一个信息,对于完全理解文本内容多少有点不够。 |
![]() |
22
jdcola 2024-05-03 05:51:19 +08:00 via iPhone
@mumbler Whisper 的 prompt 跟 GPT 的 prompt 不是一回事,干不了这个。
|
23
luodan 2024-05-03 07:35:33 +08:00
可以分析一下某条字幕的结束时间和下一条字幕的起始时间。如果小于某个值就认为是一句话。不过遇到相声这类的估计就傻眼。最好还是让 AI 来分析音频,按不同频谱的声音先独立出来,再按时间间隔来分句子。
|
24
HENQIGUAI 2024-05-03 09:01:28 +08:00
不需要那么复杂,丢给通义听悟即可。
|
![]() |
26
jdcola 2024-05-05 11:43:40 +08:00 via iPhone
@mumbler 噢,那是的。楼主需要注意不是用 prompt 告诉 Whisper 该怎么做,而是上文预设兼风格示例。
|
![]() |
27
txanin 2024-05-13 11:46:59 +08:00
|