V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
ZAXON
V2EX  ›  Python

做了一个破解字体反爬虫的小工具

  •  
  •   ZAXON ·
    zxjlm · 2020-12-17 11:37:51 +08:00 · 2513 次点击
    这是一个创建于 1466 天前的主题,其中的信息可能已经有所发展或是发生改变。

    找了一份面向监狱编程的实习工作🤣,在破解某个网址的字体反爬虫的时候,觉得这种反爬虫思路很是新奇,主要就是做映射字典这种精神污染的工作过于折磨,宁愿去搞 js 逆向,至少能让自己感觉是在干技术活儿😣

    所以为了避免话半天的时间去做映射字典,我花了一天的时间做了一个破解工具(😩)

    部了个Demo,有兴趣的可以玩玩,用的是阿里云的学生机,配置抗不住,所以加了个文件限制,即使是这样也不知道能撑住几个人一起用,崩了的话可以看看github上面的.

    希望这个小工具能够给和我从事同样工作的人们提供到帮助😃

    第 1 条附言  ·  2020-12-18 09:40:04 +08:00

    另外OCR的图片都是uni956C.png这种理想情况下的,OCR识别率不高会不会是过拟合了,我在这方面也只是有所了解,不知道有没有大佬给个优化方向😅

    5 条回复    2020-12-18 18:23:18 +08:00
    warcraft1236
        1
    warcraft1236  
       2020-12-17 11:40:05 +08:00
    好东西,看之前先顶一下
    leafleave
        2
    leafleave  
       2020-12-17 18:58:51 +08:00
    所以进能够使用网站提供的小样本进行测试
    错别字:进→仅
    ZAXON
        3
    ZAXON  
    OP
       2020-12-18 09:29:34 +08:00
    @leafleave 嗯,目前是依赖于 chineseocr_lite 做本地的 OCR,不过也提供了百度的接口,有条件的话用第三方接口识别率可能会更高。
    我也不知道现在国内的 OCR 哪家比较厉害,计划是再加一个腾讯的接口。
    毕竟 OCR 不能保证 100%的识别率,这也是做成 web 服务的原因,最后必须要经过一次人工核对的。
    leafleave
        4
    leafleave  
       2020-12-18 16:49:45 +08:00
    有没有可能在 ocr 之后再利用输入法的词库检测出来可能的错别字,再尝试匹配其他相近的字符,这样可以提高准确率
    ZAXON
        5
    ZAXON  
    OP
       2020-12-18 18:23:18 +08:00
    @leafleave 本质上这是通过将字体文件(fft\woff\woff2)中的每个字转换为 png 图片,来后针对每一张图片做 OCR 。有兴趣的话可以看看[实现思路]( https://blog.harumonia.moe/font-antispider-cracker/)。

    最终是对含有单个字的图片进行识别,而不是对一段话的识别。

    你说的这个思路倒是可以通过引进不同的 OCR 方式来检测出有争议的识别结果。
    其实目前程序的设计还是有问题的。比如如果使用了第三方 OCR 做增补,这个增补只是针对本地 OCR 没识别出来的图片,而不是本地 OCR 识别错的图片(蛋疼的是这个错误只有人工能判断)。诸如此类的,我计划等周末再琢磨琢磨提高准确率的方法。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1603 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 16:35 · PVG 00:35 · LAX 08:35 · JFK 11:35
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.