V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
WuChats
V2EX  ›  问与答

求 OCR 识别固定表格内容解决方案

  •  
  •   WuChats · 26 天前 · 679 次点击

    现在有一个需求,希望在离线环境下,针对一些固定的表格进行识别。

    我现在用过 PaddleOCR 的表格识别模型,请问还有其他的更好的解决方案吗?

    例如充分了利用表格板式固定的特点,基于模板进行识别,感觉重点不是在识别上,而是如何对应好内容和其意义的关系

    10 条回复    2024-11-05 10:45:01 +08:00
    GopherDaily
        1
    GopherDaily  
       26 天前
    你自己先用 opencv 之类的处理下?

    opencv 识别出最外面的框之后,切割了再给 ocr ?
    可以走两个 OCR 进行一次校准
    alexsz
        2
    alexsz  
       26 天前
    难点是对 OCR 识别结果进行结构化输出吧
    8355
        3
    8355  
       26 天前
    我的理解就是 PP-Structure ,百度这边真的搞的蛮好的。
    cobbage
        4
    cobbage  
       26 天前 via Android
    paddleocr 有坐标的,乱的话自己排序。用 oc 切割表格出来也是排序,然后还是需要 ocr 。还有一种就是就是你表格比较有特点(类似身份证)可以训练模型借助 yolo 类的,在借助 ocr 工具。
    还有个好像叫无线/有线表格识别的。(阿里模搭里面的)。
    paddle 感觉好点可以自己编译别的需要调用方便点。其他移植有困难。
    WuChats
        5
    WuChats  
    OP
       25 天前
    @alexsz 对的,难点确实是结构化输出,只是识别的话,很多成熟的库可以直接用了
    WuChats
        6
    WuChats  
    OP
       25 天前
    @GopherDaily 嗯嗯,OpenCV 预处理有做过,效果会好一些。主要是想请教这种专门针对固定版式的表格照片的解决方案
    WuChats
        7
    WuChats  
    OP
       25 天前
    @8355 百度的 paddle 确实用着还不错,有很多场景的应用能力
    WuChats
        8
    WuChats  
    OP
       25 天前
    @cobbage 现在基本上可以用 paddleocr 的表格识别做好结构化了,只是训练成本比较高,针对固定板式,不知道有没有更简单的方案
    8355
        9
    8355  
       25 天前
    @WuChats #7 足够轻量,我用了 ocr ,效果完爆很多的付费 api 。
    alexsz
        10
    alexsz  
       25 天前
    @WuChats #5 对于固格式的表格可以根据 OCR 返回的文字内容和坐标手写一套固定的解析 key/value 的方法
    基本思路就是 遍历文字(块) -> 找到 key -> 根据 key 文字坐标找到紧挨着的右侧或者下方的文字块作为 value

    另外, 对于单元格的长度\高度\文字换行等细节需要考虑

    这种方法适用于电子文档, 对于纸质拍照或扫描的表格则受到 OCR(文字和坐标)准确度的影响
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2767 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 15:00 · PVG 23:00 · LAX 07:00 · JFK 10:00
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.