首页
注册
登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请
登录
V2EX
›
问与答
Python 如何实现对单页面增量爬取呢?
jakeyfly
·
2018 年 3 月 27 日
· 1928 次点击
这是一个创建于 2927 天前的主题,其中的信息可能已经有所发展或是发生改变。
比如一个页面 上面就是一个表格 不定时的会增加一行信息 如何对这样的类型进行增量爬取呢,只爬取增加的内容?
增量
Python
页面
定时
6 条回复
•
2018-03-28 09:22:45 +08:00
1
hardman
2018 年 3 月 27 日 via Android
判断行数固定时间就 OK 不停检测行数
2
kkzxak47
2018 年 3 月 27 日 via Android
不可能只爬取增加的内容,你不把网页拿下来,怎么知道有没有变化?
自己做去重
3
jakeyfly
OP
2018 年 3 月 27 日
@
kkzxak47
是下读取数据后对比,那是否只能一条条的跟数据库的对比 没有的才写入这样?
4
locoz
2018 年 3 月 27 日 via Android
每一行有没有 id 之类的标识 有的话可以把 id 存到 redis 增量的时候查 redis 就行了 速度比较快
5
jakeyfly
OP
2018 年 3 月 28 日
@
locoz
有个时间 但是 存在 redis 里 除了 list 别的不能选择最后一个入队列的来对比时间啊
6
ebingtel
2018 年 3 月 28 日
根据链接,保存的时候 INSERT IGNORE?
关于
·
帮助文档
·
自助推广系统
·
博客
·
API
·
FAQ
·
Solana
·
5754 人在线
最高记录 6679
·
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 24ms ·
UTC 02:49
·
PVG 10:49
·
LAX 19:49
·
JFK 22:49
♥ Do have faith in what you're doing.
❯