xiaoyu9527
V2EX  ›  问与答

scrapy 如何在抓取链接的部分就确认链接已经抓取了。

  •  
  •   xiaoyu9527 · Jun 1, 2017 · 1299 views
    This topic created in 3283 days ago, the information mentioned may be changed or developed.

    最近想搞一个项目。

    抓一个 1000W 数据的站点。

    前期考虑分批抓取。 这时候就有问题了。

    有时候可能会碰到抓取链接重复的问题。

    我现在想知道的是。 如何再抓取链接的部分就把重复链接进行放弃呢?

    我看了很多方案都是抓取到最后的时候进行排除。

    No Comments Yet
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3369 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 36ms · UTC 11:12 · PVG 19:12 · LAX 04:12 · JFK 07:12
    ♥ Do have faith in what you're doing.