V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  samray  ›  全部回复第 6 页 / 共 8 页
回复总数  142
1  2  3  4  5  6  7  8  
2017-06-22 19:23:31 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@doggg 对于学校图书馆的网站,真的只会把网站爬崩,不会有反爬策略这种东西存在的.
2017-06-22 17:43:45 +08:00
回复了 samray 创建的主题 Linux 浅谈 Linux 开发环境无缝迁移
感觉各有所长吧,只是不同的取舍和选择.并不是所有的 Linuxer 都有用过 ansible, 但是基本比较有经验的 Linuxer 用户多多少少都会一点 shell .
2017-06-22 16:03:05 +08:00
回复了 samray 创建的主题 Linux 浅谈 Linux 开发环境无缝迁移
@jyf007 交流的想法,并不是通用的解决方案哈.我没有用过 gentoo,但是相信 gentoo 下面还是会有 zsh 和对应的别名,环境变量配置的.然后就可以进行适配.
2017-06-22 16:01:27 +08:00
回复了 samray 创建的主题 Linux 浅谈 Linux 开发环境无缝迁移
@whatot 但是某些部分,python 还是要调用 shell,例如你使用 apt-get 安装工具,这个 python 还是要调用  shell 命令吧.所以我觉得,小的东西,涉及到很多  shell 命令的操作,尽量都用 shell script 解决.此外,并不是所有的系统都会默认带有 python 环境的,但是 shell 这个解释器是一定会有的.
2017-06-22 15:37:24 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@fate0 抱歉,一直理解错了你的观点 :(
2017-06-22 14:50:09 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@fate0 我倾向于使用的就是 bloomfilter,只是当变成分布式爬虫的时候,可能会因为分布式的设计不一样而导致不一样的问题出现.单机使用 bloomfilter 和分布式不一样,可以新建一个 master 节点,然后所有的需要爬取和已爬取的 url 都保存在 master,然后 slave 节点只需请求待爬 url 就好.但是这种方式不同于  scrapy-redis,就需要自己使用 bloomfilter 以及编写调度器
2017-06-22 14:45:19 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@fate0 在这个项目中,我是直接用 scrapy-redis 来,而 scrapy-redis 是把 request 的指纹保存起来进去去重的.只是感觉这样的做法不是很符合我自己的做法,因为就我看来,去重应该是直接对 url 去重.感觉这是不同的取舍,所以感慨一下.
2017-06-22 13:47:48 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
附加一个个人推测,但未证实.在双11或者是 618 搞活动的时候,电商网站的反爬虫策略一般都会关闭,或者不会那么严格,因为面对洪峰一样的流量,需要把尽量多的资源用于处理客户端请求,而越复杂的反爬机制,需要的验证就越多,耗费的资源也会相应增加.不过这个只是个人主观感觉+合理推测,未证实.
2017-06-22 13:41:08 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@suliuyes 其实,并不是那么绝对的,例如爬淘宝,即使你经常换代理 IP,也没办法突破它的反爬策略,因为爬虫无论怎么慢,对比人来说,操作都太快了.再比如爬取 QQ 空间,并不是简单的模拟请求登陆就可以了,再你登陆之后,服务器会在 cookie 中返回三个值 p_skey,skey,rv2,然后作移位和与或操作得到一个 gtk 值,然后每次请求都要附上这个 gtk 值,不然都是 403. 更不要说 Google 的人机检验机制,不是人类根本用不了.代理 IP 是一个关键点,但是并不是全部.如果你爬取的网页超过 1000 + w,光是去重就是一个值得深究的问题了.个人小小愚见 :)
2017-06-22 13:34:57 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@xiaomeimei 相信你指的应该是  PhantomJS  和  selenium  配合使用来模拟浏览器,但是这样对于爬虫来说实在太耗费资源了,相当于打开一个没有 GUI 的浏览器,然后解析需要爬取的页面.这个只能作为不是办法的办法了.
2017-06-22 13:32:08 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@lanpong 已经修改.谢谢你的建议.
2017-06-22 11:29:32 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
并没有了解过..
2017-06-22 10:42:29 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@ayiis 为京东引入流量 :)(不要打我)
2017-06-22 10:33:10 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@xiaomeimei 其实 QQ 空间也很难爬,想起我之前写的爬取 QQ 空间照片的爬虫. https://github.com/samrayleung/qzonePictureSpider .用了一个星期来解决登陆问题,还有需要根据 cookie 计算密钥.
2017-06-22 10:31:01 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@bozong 好啊.可以相互交流,相互学习嘛
2017-06-22 10:29:56 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@ayiis 我干了什么好事?
2017-06-22 10:24:05 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@jccg90 @xiaomeimei 淘宝天猫真的欺负不动.是被欺负 :(
2017-06-22 10:08:51 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@fiht 就 scrapy-redis 而言,因为用 redis 取代了 scrapy 自带的 collection.deque,就可以把需要爬取的队列从保存到内存中变成了保存到内存数据库中,但是这个时候,原来配置 collection.deque 使用的调度器就没办法使用了,也没办法进行分布式调度,于是 scrapy-redis 重写了 scrapy 的调度器.
2017-06-22 09:58:51 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@fate0 我知道,所以我之前提到的文本的代理 IP 会用尽就是我在爬虫过程中实际遇到的问题.可能我表达不够清晰,让你误解了.抱歉.其实我觉得爬虫的反反爬虫策略是一个问题.还有需要重点关注的是去重.之前我写的单机爬虫我都是用布隆过滤器来实现去重.只是这个项目是分布式的,用到 redis.就直接在 redis 去重.但是感觉效率没有布隆过滤器高.尤其是我这种直接从<a>标签中爬取 URL 的策略.去重就尤其重要.
2017-06-22 09:53:34 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@ajan 只是爬取商品信息和商品评论,并未涉及到交易记录.
1  2  3  4  5  6  7  8  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2648 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 17ms · UTC 02:55 · PVG 10:55 · LAX 18:55 · JFK 21:55
Developed with CodeLauncher
♥ Do have faith in what you're doing.