V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
zztt168
V2EX  ›  Python

请教 OCR 银行流水 cell 定高定宽的处理

  •  
  •   zztt168 · 2023-06-12 12:31:10 +08:00 · 1538 次点击
    这是一个创建于 563 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我不是程序员,业余学过 python ,大概能写个爬虫的水平。

    请教下,我手边有扫描版的银行明细,大概有几百页,希望通过 OCR 的方式变为 Excel 表格。 昨天尝试了几个软件,都不大好用,想到用 python 做 OCR 。因为是相对比较结构化的数据,所以想能不能用定高定宽(确定好每个 cell 的坐标)的方式识别具体内容,然后按照顺序归入到不同字段。

    昨天看到了 easyocr 和 paddle ,感觉都有点复杂了,自己选定坐标定高定宽,是否更加方便,应该如何实现?如果有更好的方案,也请分享。谢谢。

    5 条回复    2023-06-12 13:41:50 +08:00
    liantian
        1
    liantian  
       2023-06-12 12:45:05 +08:00   ❤️ 1
    网上银行 > 账户 > 交易明细查询

    这是最简单的哈...认真的。

    回到主题,身为银行开发,给你说下我们是怎么 ocr 票据的

    核心是第一步,图像校正,就是把歪七扭八的图片矫正。这块你要去翻翻 github/google ,关键词 opencv 校正 图片。
    然后就是切片,就简单掠过了,这部要做的额外原因是银行有保密要求,同一张票的不同字段会给不同的外包复核。
    再然后是 ocr ,ocr 的关键是,训练几个只认数字的模型。部分位置只取数字,cpu 压力很低。

    目前银行还是由人工复核的步骤存在。不过如果只是流水,核对下总额也就 ok 了。
    dayeye2006199
        2
    dayeye2006199  
       2023-06-12 12:47:16 +08:00
    可以选个比较土鳖的 OCR 包,但是把扫出来的内容扔给 chatgpt ,你把表头信息告诉 chatgpt ,让他整理成 json 或者表格的格式。
    我试过,效果还不错的
    jifengg
        3
    jifengg  
       2023-06-12 13:19:41 +08:00
    1: https://web.baimiaoapp.com/image-to-excel
    2:QQ 或 TIM ,图片全部发给自己,查看图片,识别文字,“转为在线文档”,如果图内容是表格可以在“腾讯文档”生成 excel
    shuianfendi6
        4
    shuianfendi6  
       2023-06-12 13:37:53 +08:00
    table recognition 要么是用语义,要么是写后续处理的算法,paddleocr 在测试集上是比较好的了

    lz 这个可以把 ocr 输出的 anchor 信息用来排版,写排版的逻辑,如果对齐的比较好的话
    virusdefender
        5
    virusdefender  
       2023-06-12 13:41:50 +08:00
    转换为图片,按照你确定的位置切割之后再丢给 ocr 可能更简单,不太清楚那些库能不能只识别一部分区域
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4657 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 10:00 · PVG 18:00 · LAX 02:00 · JFK 05:00
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.