V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
whitewatercn
V2EX  ›  分享创造

使用 multi-ocr-sdk 快速调用 paddleocr-vl-1.5

  •  
  •   whitewatercn · 2 月 26 日 · 813 次点击
    这是一个创建于 44 天前的主题,其中的信息可能已经有所发展或是发生改变。

    关于 multi-ocr-sdk

    前倾提要

    最近发布的 paddleocr-vl-1.5 不知道大家体验了没有,效果非常不错

    2026 年 1 月 29 日,我们发布了 PaddleOCR-VL-1.5 。PaddleOCR-VL-1.5 不仅以 94.5%精度大幅刷新了评测集 OmniDocBench v1.5 ,更创新性地支持了异形框定位,使得 PaddleOCR-VL-1.5 在扫描、倾斜、弯折、屏幕拍摄及复杂光照等真实场景中均表现优异。此外,模型还新增了印章识别与文本检测识别能力,关键指标持续领跑。 https://www.paddleocr.ai/latest/version3.x/pipeline_usage/PaddleOCR-VL.html

    没体验过的可以在线体验—— https://aistudio.baidu.com/paddleocr 这张图是官方的案例,对于这种畸形的图片的识别效果非常好,常规的图更是不在话下 pasted-image-1772104892899.webp

    所以 multi-ocr-sdk 快( gui )速更新支持了 paddleocr-vl-1.5

    大幅简化了使用流程,只要指定 base_url 和 api_key 以及文件路径即可

    如何使用

    先安装

    pip install multi-ocr-sdk
    

    再使用

    import json
    
    from multi_ocr_sdk import PaddleOCRVLClient
    
    
    base_url = "http://10.131.101.39:8010"
    api_key = "test"
    
    # 默认模式:仅返回识别出的文字 markdown
    client = PaddleOCRVLClient(base_url=base_url, api_key=api_key)
    markdown_text = client.parse(r"examples/example_files/DeepSeek_OCR_paper_page1.jpg")
    print(markdown_text)
    
    # # 富结果模式:返回 Markdown + 每页版面定位信息(边界框坐标)
    # rich_client = PaddleOCRVLClient(
    #     base_url=base_url,
    #     api_key=api_key,
    #     return_layout_info=True,
    # )
    # result = rich_client.parse(r"examples/example_files/DeepSeek_OCR_paper_page1.jpg")
    # result_dict = result.to_dict()
    # print(json.dumps(result_dict, ensure_ascii=False, indent=2))
    
    

    最后

    欢迎大家 pr

    目前尚无回复
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2666 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 15:20 · PVG 23:20 · LAX 08:20 · JFK 11:20
    ♥ Do have faith in what you're doing.