V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
weakish
V2EX  ›  问与答

有没有什么抓取新浪博客做电子书的工具?

  •  
  •   weakish · 2017-10-05 12:38:58 +08:00 · 3478 次点击
    这是一个创建于 2600 天前的主题,其中的信息可能已经有所发展或是发生改变。
    抓取某博主的全部博文,生成 mobi 或 epub 电子书。

    好像没找到现成的。GitHub 上单纯抓取的倒找到几个,但好像都是纯文字的,图片都不管。
    14 条回复    2018-03-21 10:16:15 +08:00
    takanasi
        1
    takanasi  
       2017-10-05 12:45:09 +08:00
    你愿意出多少钱?
    weakish
        2
    weakish  
    OP
       2017-10-05 13:09:28 +08:00
    @takanasi 呃,这是「问与答」,不是外包节点。我问下有没有现成的轮子,没有的话我可能自己造。
    cynicalwalker
        3
    cynicalwalker  
       2017-10-05 13:13:56 +08:00 via Android
    我只知道有抓知乎内容的,不过已经弃坑了
    isCyan
        4
    isCyan  
       2017-10-05 13:48:18 +08:00 via Android
    关键词 新浪博客导出工具
    weakish
        5
    weakish  
    OP
       2017-10-05 14:48:06 +08:00
    @isCyan 没搜到什么有效的结果,搜到不少 GUI 的专有软件。主帖没说清楚,需求是开源。
    Yvette
        6
    Yvette  
       2017-10-05 14:48:35 +08:00 via iPhone
    帮人找过没找到,后来花了几块钱去淘宝做了份导出到 PDF,效果比想象好。
    weakish
        7
    weakish  
    OP
       2017-10-05 14:50:20 +08:00
    @cynicalwalker 我去年写过抓知乎专栏的命令行工具(带图片,但不支持增量抓取) https://github.com/weakish/ceylon-zhihu 不知道现在还能不能用
    isCyan
        8
    isCyan  
       2017-10-05 14:51:25 +08:00
    @weakish 没有,花钱吧,我说的就是 GUI 的专有软件,要不只能自己写,我之前也有找过
    SENSIR
        9
    SENSIR  
       2017-10-05 15:26:42 +08:00 via Android   ❤️ 1
    @weakish @cynicalwalker
    歪个楼,我最近刚好在弄知乎读读日报的抓取,可以抓个人首页流和热门文章流,自动制作 mobi 文件(.net core 程式),感兴趣可以看一下…
    https://github.com/ludoux/DuduSpider
    TigerK
        10
    TigerK  
       2017-10-05 16:34:00 +08:00
    以前有一个博客备份工具,可以把新浪博客和百度空间的文章都下载下来,然后导出 html 文件的。
    今年还继续更新呢,不过是要收费的,地址是 http://www.pt42.cn/blog_backup_index.htm
    Junyiz
        11
    Junyiz  
       2018-01-24 18:16:06 +08:00
    http://d.junyi.me/ 新浪博客导出工具,导出 html 文件
    weakish
        12
    weakish  
    OP
       2018-01-24 21:38:52 +08:00
    @Junyiz 一直显示「努力抓取中。。。」
    Junyiz
        13
    Junyiz  
       2018-01-26 14:41:08 +08:00
    @weakish 你再试试 ~~
    Junyiz
        14
    Junyiz  
       2018-03-21 10:16:15 +08:00   ❤️ 1
    @weakish 抓取某博主全部博文并生成 html 的命令行程序: https://www.npmjs.com/package/dature
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2950 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 41ms · UTC 12:36 · PVG 20:36 · LAX 04:36 · JFK 07:36
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.