首页
注册
登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请
登录
V2EX
›
问与答
想提取英文书籍 pdf、mobi 和 epub 中的目录(table of contents)的结构和内容有什么好的方法或现成的工具吗?
zeroze
·
2019 年 5 月 10 日
via iPhone · 1983 次点击
这是一个创建于 2471 天前的主题,其中的信息可能已经有所发展或是发生改变。
想提取目录内容请问有什么好的方法?工具?
求大佬明示?
目录
提取
contents
mobi
5 条回复
•
2019-07-15 16:36:14 +08:00
1
colewp
2019 年 5 月 10 日 via iPhone
2
iText 或者 Apache PDFBox,之前毕设做过类似项目
2
dsg001
2019 年 5 月 10 日
2
以前用 python 写过,zipfile 打开 epub,lxml 解析 toc.ncx
3
zeroze
OP
2019 年 5 月 10 日 via iPhone
@
dsg001
准确度大致怎么样啊?有什么坑吗?
4
dsg001
2019 年 5 月 10 日
1
@
zeroze
符合标准的 epub 无坑,偶尔有加密的无法读取,用 calibre 去除就行。
5
zeroze
OP
2019 年 7 月 15 日
自己研究了下,比较好的方法貌似是使用 mupdf 自带工具 mutool,具体操作有 stackoverflow 的帖子,自行搜索下
另外有坑 mutool 提取出来还需要洗
编码是 utf16 的
关于
·
帮助文档
·
自助推广系统
·
博客
·
API
·
FAQ
·
Solana
·
2141 人在线
最高记录 6679
·
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 34ms ·
UTC 11:26
·
PVG 19:26
·
LAX 03:26
·
JFK 06:26
♥ Do have faith in what you're doing.
❯