受前段时间看过的一篇帖子启发,同时用 ocr 和视觉大模型进行识别,结果相同的才输出,输出质量感觉会非常高,缺陷是可能存在没输出的情况
![]() |
1
8355 5 小时 54 分钟前
这样的策略本质上是通过降低识别率来提高正确率
按我的理解一定是没有只使用 ocr 来的好 |
3
RotkPPP 5 小时 49 分钟前
vlm 还真没有 ocr 好用,而且 vlm 如果能正确识别出来,ocr 一定可以,但 ocr 能识别的,vlm 还真不一定。主要看业务场景吧
|
![]() |
5
huangzhiyia 5 小时 47 分钟前 ![]() 在 GitHub 上看到个挺有意思的开源解决方案 iOS OCR Server ,它把 iPhone 手机变成强大的本地 OCR 服务器。
基于苹果的 Vision Framework 实现高精度文字识别,支持多语言自动检测,只需在同一网络下通过 IP 地址访问即可使用。 GitHub: http://github.com/riddleling/iOS-OCR-Server |
![]() |
6
gpt5 5 小时 47 分钟前
这本来就是通过提高 frr 来降低的 far ,“缺陷”当然就是 frr 高了。far/frrd 的平衡,一般看具体场景。
|
![]() |
8
cctrv 5 小时 44 分钟前 via iPhone
VLM 的問題主要在 OCR 精度問題。
我是把 OCR 文本和圖像一併送入 VLM 。 那麼就可以完美降低 VLM 的 OCR 錯誤問題。 |
9
paopjian 5 小时 27 分钟前
前两天才看到的逆天例子 https://www.zhihu.com/question/302170944/answer/1952029733140268672, 日常里 OCR+VLM 应该是没问题, 恶意攻击那可真是防不胜防
对于清晰文字, 普通 OCR 已经很能打了, 手写识别这种上 VLM 可以解决部分, 但是两个一起问题就是 VLM 的准确性了, 差一个字这种你就舍弃会被认为阈值过高 |
![]() |
12
Julaoshi 5 小时 25 分钟前
忘了哪里看到的,似乎可以先放大再进行 OCR ,这样识别准确率就会提高
|
13
ltmst 5 小时 10 分钟前
阿里已经有了
我前些阵子测试了一下 效果只能说一般 |
![]() |
15
surbomfla 5 小时 0 分钟前
但这样做计算开销比较大
|
![]() |
16
InkAndBanner 4 小时 41 分钟前
我们使用了 QwenVL2.5 7B 在资质图片场景下做了大量的结构化信息提取 ,总的效果还是比 OCR 要好的,但是存在一定幻觉 比如信息自动补全,和联想的情况。如果图片重点字段出现的位置类似 可以在对话的时候 提供左上和右下两个点位的坐标 来提示模型提取重点区域 会优化提取效果。至于 ocr 信息辅助模型进行提取,也是已经验证过的好办法,但是模型结果用来和 ocr 做对比 我觉得只会在一些对准确容忍度非常低的场景 如金融票据才会采用。但是金融票据往往是标准票据 ocr 已经很能打了,非标场景才是 VL 模型的发挥阵地
|
17
Suinn OP @InkAndBanner 感谢分享,vlm 这块你们有试过 InternVL 或者 glmVL 吗,看最近的分数都挺高但是不知道实际能力和 qwen 比如何
|
18
dem0ns 4 小时 32 分钟前
既然是代码+代码实现 100%,那为什么不一步到位?既然能够一步到位,那么早就该有 100%的 OCR 。
|
![]() |
19
MIUIOS 4 小时 30 分钟前
还有一个缺陷吧,速度下去了
|
![]() |
20
InkAndBanner 4 小时 30 分钟前
@dem0ns #18 抱歉 没有 我们是阿里系的 优先用 qwen
|
21
AutumnVerse 4 小时 30 分钟前 via iPhone
这不就是多源对比纠错吗?
完整方案应该是这样的,3 个源 ocr 对比,如果有 2 个源一样,就直接取用,3 个全都不一样,丢给大模型或人工纠错。 纠错结果丢给 ocr 模型二次训练 |
![]() |
22
MIUIOS 4 小时 29 分钟前
我遇到你这个问题,我的做法是 OCR 出来后丢给 llm 大模型去修复
|
![]() |
23
malusama 4 小时 27 分钟前
直接 ocr 丢给 LLM 修复呗。 你这样一致的能有多少,准确率上去了不得看看能召回多少吗?
你这都没有多少是输出一致的吧 |
24
AutumnVerse 4 小时 26 分钟前 via iPhone
@Julaoshi 不可能,机器学习网络参数是固定的,无论你什么尺寸,前向传播前都会 resize 成固定尺寸
你觉得识别率高了仅仅是插针拉伸裁剪之类的算法导致识别结果不一样了而已,从算法原理上放大不可能影响识别率 |
25
Insolitude 4 小时 3 分钟前 via Android
调用过 Google 的 ai ocr 的接口,效果感觉还不如本地的 ocr ,,可能手写体 ai 会更好点。让 llm 优化传统 ocr 的结果,感觉是个不错的思路。目前我用的本地 ocr 主要就中文的标点会识别成英文标点的问题,发给 llm 很容易解决。
|
![]() |
28
canteon 2 小时 16 分钟前
人工校对
|
29
tusj 2 小时 10 分钟前
先 OCR 识别生成文本结果,再大模型对文本纠正一下低级错误。这样组合怎样?
|
![]() |
30
hccsoul326 2 小时 4 分钟前
月薪 3000 招个大学生人工识别
|
![]() |
31
kingofzihua 1 小时 39 分钟前
@hccsoul326 你这个最靠谱
![]() |
![]() |
32
billbob 1 小时 22 分钟前
100% 目前任何的技术方案都实现不了。能上 90%已经优秀了。专门场景识别的,特定数据训练能达到 99%往上
|
![]() |
33
retrocode 1 小时 22 分钟前
很久之前研究过 ocr, 然后自己训练. 是个金融项目反爬很厉害, 让 OCR 识别, 只识别数字然后导入到"老板自己的秘密算法"里出结果, 结果 OCR 不是很理想正确率 97/98 左右速度也慢, 完了老板还是不满意, 因为金融项目数字很多人工校对很麻烦, 折腾了快三月, 图片二值化,图在切碎些全全搞了, 最后切成了一个数字一张几 B 的图片.
在看之前编写的一堆规则把图片都切的细碎了, 一咬牙一跺脚,把所有图片的数字像素转成了字符串硬编码(类似 X 黑 X 白 X 黑 X 白这种字符串), 然后花了两天跑了下数据看有没有遗漏的没记下的像素组成, 结果识别率 100%(因为没走 OCR 直接比字符串). 速度还快以前转 OCR 一张小图 2~3 秒,现在 30 张图 2~3 秒. 这应该也算"要么识别准"的一种方案了,不过只适合固定来源的数字识别. |
34
Suinn OP @billbob 目前这个方案虽然无限降低了召回率,但几乎也过滤了所有假阳性的情况,现在比较头疼的点确实在于没法论证能达到百分百的准确率,直觉上来说总感觉就是无限逼近 100%😂
|
![]() |
36
showonder 53 分钟前
你这不如多换几个技术路线不同的 OCR ,效率更高还更便宜
|
37
Suinn OP @showonder 其实还是不太一样,说到底 ocr 本质基本是特征提取+分类,但 vlm 是有语义空间的,这种融合的说服力其实比单纯 ocr 的叠加要强上不少
|
![]() |
38
kinkin666 8 分钟前
要不试试先 ocr ,再连图带字(甚至可以包含文字流的坐标位置)一起给多模态的大模型归纳一下,
ocr 效率可能高,但是归纳能力不大好吧,大模型可以直接把扫出来的东西归纳成结构化数据(几级标题、表格列表、水印页码都能识别出来),这点通用 ocr 比不了 |
![]() |
39
mingtdlb 5 分钟前
你自己都讲了“输出质量感觉会非常高,缺陷是可能存在没输出的情况”,那还说啥呢
100 个样本,本来 vlm 能识别 80%,ocr 只能 50%,结果你输出就成 50% 了 |