我在 safari 或 chrome 导出 pdf,然后放到 liquidtext ( ipad )选择中文摘要出来时乱码,或在 mac 的 preview 里,复制粘贴乱码
有的 pdf 好象没这个问题。
用 acrobat 分析了字体,有问题的 pdf 是用 pingfangsc,但这个字体我看 mac 和 ipad 都是自带的 我也改过 safari 的 encoding,无论 UTF8 还是 GB18030 都没用
有解决方案吗?
1
dodolee 2021-04-07 22:35:04 +08:00
只能 OCR
|
2
dodolee 2021-04-07 22:36:41 +08:00
|
3
ho121 2021-04-07 22:40:17 +08:00 via Android
可能本来就是乱码,然后用特殊的嵌入字体渲染
|
4
oldjerry 2021-04-08 10:15:02 +08:00
PDF 为了保持排版效果和尽量缩小文件尺寸,有时候字体是内嵌的,而且是用了那些字符嵌入哪些,相当于 PDF 文件里有个自建的字体,编码也是重新编的。英文还好字符少,一般都是对应的。这种情况下的中文很多都不能保留原字符编码了,拷贝出来就是乱码。
|
5
Anshay 2021-04-08 11:44:02 +08:00
可以考虑截图后识别文字。
|
6
cmichael OP 我说的前提是,我已经看过 pdf 内嵌字体了,里面是用了 pingfangSC,mac 和 ipad 都是自带的……
|