求 OCR 识别固定表格内容解决方案

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

现在有一个需求，希望在离线环境下，针对一些固定的表格进行识别。

我现在用过 PaddleOCR 的表格识别模型，请问还有其他的更好的解决方案吗？

例如充分了利用表格板式固定的特点，基于模板进行识别，感觉重点不是在识别上，而是如何对应好内容和其意义的关系

10 条回复 • 2024-11-05 10:45:01 +08:00

GopherDaily

26 天前

你自己先用 opencv 之类的处理下？

opencv 识别出最外面的框之后，切割了再给 ocr ？
可以走两个 OCR 进行一次校准

alexsz

26 天前

难点是对 OCR 识别结果进行结构化输出吧

8355

26 天前

我的理解就是 PP-Structure ，百度这边真的搞的蛮好的。

cobbage

26 天前 via Android

paddleocr 有坐标的，乱的话自己排序。用 oc 切割表格出来也是排序，然后还是需要 ocr 。还有一种就是就是你表格比较有特点（类似身份证)可以训练模型借助 yolo 类的，在借助 ocr 工具。
还有个好像叫无线/有线表格识别的。（阿里模搭里面的）。
paddle 感觉好点可以自己编译别的需要调用方便点。其他移植有困难。

WuChats

25 天前

@alexsz 对的，难点确实是结构化输出，只是识别的话，很多成熟的库可以直接用了

WuChats

25 天前

@GopherDaily 嗯嗯，OpenCV 预处理有做过，效果会好一些。主要是想请教这种专门针对固定版式的表格照片的解决方案

WuChats

25 天前

@8355 百度的 paddle 确实用着还不错，有很多场景的应用能力

WuChats

25 天前

@cobbage 现在基本上可以用 paddleocr 的表格识别做好结构化了，只是训练成本比较高，针对固定板式，不知道有没有更简单的方案

8355

25 天前

@WuChats #7 足够轻量，我用了 ocr ，效果完爆很多的付费 api 。

alexsz

25 天前

@WuChats #5 对于固格式的表格可以根据 OCR 返回的文字内容和坐标手写一套固定的解析 key/value 的方法
基本思路就是遍历文字(块) -> 找到 key -> 根据 key 文字坐标找到紧挨着的右侧或者下方的文字块作为 value

另外, 对于单元格的长度\高度\文字换行等细节需要考虑

这种方法适用于电子文档, 对于纸质拍照或扫描的表格则受到 OCR(文字和坐标)准确度的影响