今天下载了一个 DVD 视频,字幕格式为 dvd_subtitle ,字幕锯齿感严重,因此想利用 OCR 把字幕识别成文字。
于是我在 github 找到了这么一个项目: https://github.com/vincrichard/VobSub-ML-OCR ,运行之后,发现自带的 easyocr 效果不太好,所以就又找了几个 ocr 的项目测试。
这是原图:

这是使用飞桨 PP-OCRv4 的效果(测试地址: https://aistudio.baidu.com/community/app/91660/webUI ):
高效率模型方案

高精度模型方案

这是使用微信提取出来的 OCR 测试的效果(来源于 https://www.v2ex.com/t/1120897 ):
"ocr_response": [
{
"bottom": 391.0640563964844,
"left": 199.8789825439453,
"rate": 0.9488778710365295,
"right": 513.5093383789062,
"text": "那麽我无论如何",
"top": 349.4739685058594
},
{
"bottom": 429.15313720703125,
"left": 220.19375610351562,
"rate": 0.9376645088195801,
"right": 492.0656433105469,
"text": "都要噌试一下",
"top": 392.0796813964844
}
]
这是使用阿里云百炼(地址: https://help.aliyun.com/zh/model-studio/models#55c81ba3ccgct )通义千问 OCR qwen-vl-ocr-latest 识别的结果:

于是我在 github 找到了这么一个项目: https://github.com/vincrichard/VobSub-ML-OCR ,运行之后,发现自带的 easyocr 效果不太好,所以就又找了几个 ocr 的项目测试。
这是原图:

这是使用飞桨 PP-OCRv4 的效果(测试地址: https://aistudio.baidu.com/community/app/91660/webUI ):
高效率模型方案

高精度模型方案

这是使用微信提取出来的 OCR 测试的效果(来源于 https://www.v2ex.com/t/1120897 ):
"ocr_response": [
{
"bottom": 391.0640563964844,
"left": 199.8789825439453,
"rate": 0.9488778710365295,
"right": 513.5093383789062,
"text": "那麽我无论如何",
"top": 349.4739685058594
},
{
"bottom": 429.15313720703125,
"left": 220.19375610351562,
"rate": 0.9376645088195801,
"right": 492.0656433105469,
"text": "都要噌试一下",
"top": 392.0796813964844
}
]
这是使用阿里云百炼(地址: https://help.aliyun.com/zh/model-studio/models#55c81ba3ccgct )通义千问 OCR qwen-vl-ocr-latest 识别的结果:



