V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
revival83
V2EX  ›  问与答

求教各位大神, 300 页的 pdf 病历材料,马赛克遮挡医院名患者名最高效的办法是什么?

  •  
  •   revival83 · 2018-07-04 21:58:25 +08:00 via iPhone · 3979 次点击
    这是一个创建于 2340 天前的主题,其中的信息可能已经有所发展或是发生改变。
    求教各位大神,300 页的 pdf 病历材料,马赛克遮挡医院名患者名最高效的办法是什么?
    35 条回复    2018-07-06 15:00:38 +08:00
    nutting
        1
    nutting  
       2018-07-04 22:56:16 +08:00 via Android
    固定位置?有 pdf 读写的程序组件批量处理一下
    revival83
        2
    revival83  
    OP
       2018-07-04 22:58:23 +08:00 via iPhone
    @nutting 位置不固定,而且 300 页都是 jpg 图片…
    shiny
        3
    shiny  
       2018-07-04 23:04:09 +08:00
    招一个大学生专门干这事。手动狗头
    hundan
        4
    hundan  
       2018-07-04 23:09:39 +08:00   ❤️ 1
    在 pad 上手动打码,应该会方便点,毕竟触屏,也就 300 页,一个上午应该能打完。
    非要用程序写的话, 可以调用识图的 api,切图识别,然后根据情况调整程序,定位,再打码,应该会比较复杂,如果没写过的话,写起来可能不止一个上午……
    torbrowserbridge
        5
    torbrowserbridge  
       2018-07-04 23:09:54 +08:00 via Android
    分给 100 人干
    Tetsuchou
        6
    Tetsuchou  
       2018-07-04 23:14:49 +08:00
    雇个民工打出来涂掉再扫描
    Sanko
        7
    Sanko  
       2018-07-04 23:20:06 +08:00 via Android
    300 快我手动干了
    revival83
        8
    revival83  
    OP
       2018-07-04 23:23:15 +08:00 via iPhone
    @hundan
    @Sanko 关键是这些 pdf 里的都是图片,直接 photoshop 一页一页打码儿再合成
    PP
        9
    PP  
       2018-07-04 23:26:30 +08:00 via iPad
    不建议对图片进行识别,千张以下没必要。可以做 pdf2jpg,然后直接对图片进行处理,处理好之后再统一输出成 pdf。中间图片处理环节可以批处理,很多软件提供批处理工具,能分组就分组,不能分组就手动刷。如果没有更好的选择楼主可以试试,毕竟这是个笨办法。
    revival83
        10
    revival83  
    OP
       2018-07-04 23:26:43 +08:00 via iPhone
    @hundan pad 可以找,但是 pdf 里 300 页都是图片,有 pad app 支持吗
    revival83
        11
    revival83  
    OP
       2018-07-04 23:30:35 +08:00 via iPhone
    @PP 这思路不错,我想想办法怎么把 pdf 解压成图片
    PP
        12
    PP  
       2018-07-04 23:34:13 +08:00 via iPad
    @revival83 有现成的工具啊,各种超星工具套装。老归老,用起来还是很方便的。
    revival83
        13
    revival83  
    OP
       2018-07-04 23:34:44 +08:00 via iPhone
    @PP 我是 Mac 我装个虚拟机看看 h   h   h
    PP
        14
    PP  
       2018-07-04 23:40:39 +08:00 via iPad
    @revival83 十年前我就是这么干的,去水印,哈哈。记得保留自己做的各个批处理和设置文件,今后工作可能还会用到。
    revival83
        15
    revival83  
    OP
       2018-07-04 23:48:57 +08:00 via iPhone
    @PP 前辈有联系方式吗给一个 想请教请教
    zhengjian
        16
    zhengjian  
       2018-07-04 23:49:47 +08:00
    @revival83 你是 mac,自带的预览就已经很强了呀。
    isbase
        17
    isbase  
       2018-07-04 23:49:56 +08:00
    pdf expert 可以批量涂黑或者删除
    stabc
        18
    stabc  
       2018-07-04 23:51:46 +08:00
    300 页不值得去做批处理。手动。你发帖这时间估计已经码好 100 页了。
    PP
        19
    PP  
       2018-07-04 23:52:47 +08:00 via iPad
    @revival83 非常抱歉,我历来不在 V 站进行私人联络,大约四五年前仅联络过两次。前辈不敢当,达人数不胜数,怎么排都轮不到我。笨办法倒是有一些,如果您需要,请尽管问,我知道的都会告诉您。
    revival83
        20
    revival83  
    OP
       2018-07-04 23:56:56 +08:00 via iPhone
    @PP 理解理解 😂
    revival83
        21
    revival83  
    OP
       2018-07-04 23:58:19 +08:00 via iPhone
    @zhengjian 貌似发现新大陆!我赶紧去试试!
    PP
        22
    PP  
       2018-07-05 00:22:02 +08:00 via iPad
    @revival83 抱歉啊,私心作祟。

    我尽量回忆一下当年的做法,纯属笨办法。当年处理 pdf 封装图片时,批量输出是第一步,真正的核心是将图片全部转成 png 灰度格式,因为接下来要用图片软件对这些灰度图片进行批处理。具体办法是通过图片软件内置工具编写批处理脚本,对不同灰度范围或具体灰度值进行不同处理如删除、加重和替换。可能是当年软件 bug 的原因,每次批处理过的图片会有大约 1%的图片被漏过,所以我对批处理后的图片重新执行一次批处理后再做检查筛选。其余的工作都有简单工具,网上应该有许多存档,如何处理应该可以随意了。时间太久,恐有遗漏,姑且当作给有需要的朋友们一点小参考。
    revival83
        23
    revival83  
    OP
       2018-07-05 00:27:47 +08:00 via iPhone
    @PP png jpg 到无所谓只要是我这些图片都是病历,都是密密麻麻的文字中会包含隐私文字,所以每一页都跟看字典似的要读一遍,所以效率很低。没有什么捷径…我的操作是:
    1. Photoshop 打开 pdf 选取一页
    2. 打马赛克
    3. 保存图片
    4. 将所有图片打包 pdf

    想问下把 pdf 一页一页变成图片 在 mac 上有简单的办法吗
    PP
        24
    PP  
       2018-07-05 00:34:09 +08:00 via iPad
    @revival83 我不清楚,我只 z   d
    PP
        25
    PP  
       2018-07-05 00:34:48 +08:00 via iPad
    我只知道 windows 下没有问题。
    zzj0311
        26
    zzj0311  
       2018-07-05 00:49:29 +08:00 via Android
    @revival83 adobe acrobat 可以导出 jpg/png
    KevZhi
        27
    KevZhi  
       2018-07-05 01:03:43 +08:00 via iPhone
    不想写代码的话就 ocr 以后搜索 搜到结果手动抹 然后校对
    revival83
        28
    revival83  
    OP
       2018-07-05 08:39:02 +08:00 via iPhone
    @zzj0311
    @KevZhi 感谢大家
    laolinn
        29
    laolinn  
       2018-07-05 08:49:55 +08:00 via iPhone
    @shiny 一份就一两块钱,肯定有大学生抢着来干
    revival83
        30
    revival83  
    OP
       2018-07-05 09:36:05 +08:00
    @laolinn 一份两三百页。。
    revival83
        31
    revival83  
    OP
       2018-07-05 10:06:51 +08:00
    @zhengjian 这个方法我试了,打开之后能把罩住的部分删掉
    revival83
        32
    revival83  
    OP
       2018-07-05 10:08:14 +08:00
    @KevZhi 有推荐的工具吗 老铁
    qvvo
        33
    qvvo  
       2018-07-05 10:26:37 +08:00
    如果医院和姓名都是打印的,带标题框的,比较容易搜索的那种,
    比如:姓名:xxxx

    可以先用 Adobe acrobat 自动识别一下中文,然后做全文搜索,搜到后就手工打码
    这样总比一页一页自己翻看简单一些
    ccoming
        34
    ccoming  
       2018-07-05 11:53:29 +08:00
    @revival83 win 上有雪莹虚拟打印,mac 的找找类似的吧。另外,直接在 pdf 上面做线框或者画笔这样的标注,不能打印出来?
    chenjau
        35
    chenjau  
       2018-07-06 15:00:38 +08:00 via Android
    码农遍地爬的地方竟没人提 shell 和 ghostscript ?随便转
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2617 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 01:41 · PVG 09:41 · LAX 17:41 · JFK 20:41
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.