不会python写爬虫,来v2ex求助
要求:
1 支持用户名密码登陆论坛,论坛为一问一答形式,深度都为1级。
2 匹配特征字段“生日”帖子标题,并抓取指定论坛网页1-300页。
3 根据帖子的跟贴,抓取的生日帖子的跟贴的源内容,加工并排列成指定格式的txt文本文件。
生成txt文件
格式如 姓名 抓取日期 生日
王五 20150803 20100801
赵六 20150803 19800901
3 放到vps里7*24小时运行,抓取会员生日。
如能用shell脚本实现更佳
本人QQ 324013020