之前遇到过某评的加密,字体文件总字体数好像 600 多个,很多博客也将全部的字体发出来了,解密思路也是:就是下载字体文件然后转成 xml 文件,解析获取 xml 文件中的字体 xy 坐标点,然后以该字体的 xy 坐标点作为键,该字体文件的对应的字作为值存到一个基础映射表里(dict),下次网站继续更换字体文件同样解析字体文件难道 xy 坐标点去遍历字典即可拿到对应的字体。
该种做法是你已经有全部的字体作为基础,但是遇到有的网站字体文件包含几千的字体,难道需要先按照顺序手打一遍全部的字体去做映射吗?各位大佬有什么好的方法吗
1
nyanyh 2020-04-28 17:56:36 +08:00
直接 OCR 识别怎么样
|
2
imn1 2020-04-28 18:05:50 +08:00
不需要吧,有个映射表就行了,程序可以搞定
|
3
MrhuangSTR OP @nyanyh 那种返回的网页源码字体是乱码的也能行吗
|
4
MrhuangSTR OP @imn1 关键就是这个映射表,怎么让字和编码或者字体的 xy 坐标一一对应起来
|
5
qwlhappy 2020-04-28 23:17:54 +08:00
最后是想要文字还是字体?能不能给个样例网站观赏下 :P
|
6
MrhuangSTR OP @qwlhappy 最后是想要解密成正常的文字。https://www.cods.org.cn/ 这个网站,查询一次看信用代码和公司名字字体都加密了。
|
7
chenstack 2020-04-29 15:08:52 +08:00
可以考虑获取字体中所有字元绘制到图片然后 ocr
或者如果能知道是哪种源字体的话,直接用读入源字体比较 glyf,获取映射关系 |
8
MrhuangSTR OP @chenstack 可以从网站上获取到的字体却不能从源字体找到,这种怎么破
|
9
MrhuangSTR OP @chenstack 从抓取的网站下下载下来的字体不一定能在源字体中找到
|
10
chenstack 2020-04-30 09:40:11 +08:00
@MrhuangSTR 看 css 字体名称是 SourceHanSansCN-Normal,用网上的字体试了一下,只有一部分能匹配,可能该网站的字体混入了粗体等非 normal 的字体
|