V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
guoziq09
V2EX  ›  问与答

请教个爬虫问题,请问这样有风险吗?会被请喝茶吗

  •  
  •   guoziq09 · 2024-05-21 10:56:43 +08:00 · 2762 次点击
    这是一个创建于 391 天前的主题,其中的信息可能已经有所发展或是发生改变。
    目标:
    1.爬取目标是国内的小说站点,起点、晋江等。
    2.爬取的数据主要是榜单、收藏、订阅等数据。不包含小说本身的文章。
    3.爬取时间每小时一次。

    用途:
    1.主要用来做数据分析。
    2.次要目的想自己做个导览网站/应用。

    robots.txt
    以起点举例:
    User-agent: ClaudeBot
    Disallow: /

    User-agent: ChatGPT-User
    Disallow: /

    User-agent: GPTbot
    Disallow: /

    User-Agent: *
    Allow: /
    Disallow: /*.css
    Disallow: /*.js
    Disallow: /so/*

    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap2.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap3.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap4.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap5.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap6.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap7.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap8.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap9.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap10.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap11.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap12.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap13.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap14.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap15.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap16.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap17.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/page-sitemap.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/sr_playlist-sitemap.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/post-archive-sitemap.xml
    Sitemap: https://www.qidian.com/zhuanti/qyn/category-sitemap.xml


    以上,会有法律风险吗?
    ----------------------------------------------------

    进一步:
    如果以上数据我作为收费项目,会有法律风险吗?
    18 条回复    2024-05-21 21:33:33 +08:00
    taipei
        1
    taipei  
       2024-05-21 11:12:44 +08:00
    别碰, [非法获取计算机信息系统数据、非法控制计算机信息系统罪] ,以及非法经营罪,可以了解一下
    忙活一场,一旦有事,都是非法所得,全部收缴
    guoziq09
        2
    guoziq09  
    OP
       2024-05-21 11:26:50 +08:00
    @taipei 所以我只是根据他的 robots.txt 的规范爬取数据自用也会有法律风险么
    hereIsChen
        3
    hereIsChen  
       2024-05-21 11:26:55 +08:00
    爬虫写得好,牢饭吃到饱

    如果是免费的,问题应该不大,优书这些差不多
    收费的话,就有风险
    darkengine
        4
    darkengine  
       2024-05-21 11:28:16 +08:00
    收费必吃牢饭。免费的,解释权也不在你手上,就看他们搞不搞你了。
    Jinnrry
        5
    Jinnrry  
       2024-05-21 11:37:56 +08:00
    @guoziq09 法律不认 robots.txt ,我记得有前例的,按照 robots 爬,照样是非法入侵计算机罪
    Ericcccccccc
        6
    Ericcccccccc  
       2024-05-21 11:43:30 +08:00
    搜索 爬虫 坐牢
    LiLaoMo
        7
    LiLaoMo  
       2024-05-21 11:46:34 +08:00   ❤️ 1
    有风险。但是基本和你翻 qiang 一样,一般都没啥太大问题。
    这么低的频率,并且又不是爬取付费内容。
    moluyouwo
        8
    moluyouwo  
       2024-05-21 12:19:33 +08:00
    3 个要点。公开数据,没阻塞服务器,非盈利。触碰任何一个别人都有依据起诉。
    gaobh
        9
    gaobh  
       2024-05-21 12:21:32 +08:00 via iPhone
    放国外,找个抗投诉的 vps
    Y25tIGxpdmlk
        10
    Y25tIGxpdmlk  
       2024-05-21 12:27:19 +08:00
    @Jinnrry #5 那为啥搜索引擎可以爬?因为有执照吗
    Jinnrry
        11
    Jinnrry  
       2024-05-21 12:38:58 +08:00 via Android
    @Y25tIGxpdmlk 我不知道,我只知道法官不懂 robots 也不认 robots 。对方真有证据证明你爬了,也用了他的数据,起诉你的话照样进入
    guoziq09
        12
    guoziq09  
    OP
       2024-05-21 12:41:00 +08:00
    @taipei
    @guoziq09
    @hereIsChen
    @darkengine
    @Jinnrry
    @Ericcccccccc
    @q727729853
    @moluyouwo
    @gaobh
    @Y25tIGxpdmlk
    多谢各位,主要是最近看了看 flutter ,想自己写个跨平台的 app 用来练练手。小说是我平时比较喜欢打发时间的方式,后边发散的可能很多人跟我有同样的感觉。做好了能否收费。
    看了几位的,感觉还是自己坐着玩比较好。
    ----------------
    话说我这样跟搜索引擎有啥区别吗?
    Y25tIGxpdmlk
        13
    Y25tIGxpdmlk  
       2024-05-21 12:46:46 +08:00   ❤️ 1
    @guoziq09 #12 自己练手写着玩没啥问题,你也就一小时一次,别把人家服务器爬挂了,没人管你。
    收费那就性质变了,有些东西随便搞搞没人管你,但是按法律来说要上纲上线,怎么样都能给你套上去用
    dedad558
        14
    dedad558  
       2024-05-21 13:22:05 +08:00 via Android
    前怕狼,后怕虎,事情就做不了。人言可畏。
    热榜网站爬虫授权了吗?
    AI 侵犯知识产权授权了吗?
    虽然这话大逆不道,违反正常思维,但...
    mythjava
        15
    mythjava  
       2024-05-21 17:16:56 +08:00
    你要怕你就多跳几层
    我之前的公司 搞多好多好多手机卡 专门来处理爬虫流量的 什么都爬什么都不看 就是干
    leesa
        16
    leesa  
       2024-05-21 18:22:14 +08:00
    已经有类似的网站了,叫起点图
    https://www.qidiantu.com/booklists/
    hujun528
        17
    hujun528  
       2024-05-21 20:22:50 +08:00
    建议打工
    mumbler
        18
    mumbler  
       2024-05-21 21:33:33 +08:00
    爬虫本身不违法,看你怎么用爬下来的数据,如果你盗版,那肯定要坐牢的,但如果你用于训练大模型,就没事
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   972 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 19:31 · PVG 03:31 · LAX 12:31 · JFK 15:31
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.