V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
BryceBu
V2EX  ›  Python

[求助] Python 读取电子发票 PDF 文件数据缺失

  •  
  •   BryceBu · 2020-01-14 14:14:55 +08:00 · 3677 次点击
    这是一个创建于 1774 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我用 pdfplumber 之类的库读取文件,仅能读到一点点数据

    用 pdf2image 转化成图片就是下面这样 👇

    在线 PDF 转 IMG 倒是完整的数据,可是不符合使用要求

    我怀疑是不是因为签名啥的,因为用 WPS 打开的时候有提示来着 👇

    请问有没有解决办法?

    9 条回复    2020-07-14 12:01:39 +08:00
    xiri
        1
    xiri  
       2020-01-14 14:38:01 +08:00 via Android
    pdf 对信息自动化处理来说简直是噩梦🙃
    EricInBj
        2
    EricInBj  
       2020-01-14 14:39:02 +08:00
    应该有错误输出的,大概率是字体缺失?
    BryceBu
        3
    BryceBu  
    OP
       2020-01-14 15:11:34 +08:00
    @EricInBj 感谢 我发现没解析出来的字体都是 STSong-Light

    我在网上下载了这个字体然后安装,结果都是华文宋体???

    然后再读取 PDF 结果还是缺失的
    PopRain
        4
    PopRain  
       2020-01-14 15:25:46 +08:00
    我觉得是类库不支持嵌入字体
    Rorysky
        5
    Rorysky  
       2020-01-14 15:26:39 +08:00
    pymupdf 试试
    BryceBu
        6
    BryceBu  
    OP
       2020-01-14 17:15:10 +08:00
    刚刚在 Ubuntu 上试了一下,可以识别了

    我下载的 STSong-light 字体文件都不能安装

    看来原因还是 Windows 不支持这个字体?
    huaxie1988
        7
    huaxie1988  
       2020-07-09 17:54:57 +08:00
    为什么我 windows 和 centos 都读不出来中文
    BryceBu
        8
    BryceBu  
    OP
       2020-07-14 12:00:01 +08:00
    @huaxie1988 #7 先用工具识别出 pdf 的字体,再查你的系统支不支持这个字体
    aec4d
        9
    aec4d  
       2020-07-14 12:01:39 +08:00
    先用工具把 PDF 文件标准化(比如内嵌字体),在用商业 PDF 软件尝试编辑,如果商业 PDF 软件能编辑你想要的文本,说明这个文本可以程序解析,并不是一张图片
    接下来就是用这种工具 https://github.com/pdfminer/pdfminer.six 读取文本
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2761 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 12:08 · PVG 20:08 · LAX 04:08 · JFK 07:08
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.