V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  kohnv  ›  全部回复第 4 页 / 共 4 页
回复总数  76
1  2  3  4  
2016-07-30 16:41:14 +08:00
回复了 Buffer2Disk 创建的主题 程序员 有杭州滨江的盆友介绍下租房经验咩?
我在豆瓣的滨江租房小组上找的. 1500 不算贵了, 滨江放假都这样
2016-07-30 00:38:54 +08:00
回复了 wangxn 创建的主题 C 请问 C 中的空数组怎么理解?
这个叫柔性数组, 实现可变长 struct 的一种常用技巧.
2016-07-16 14:35:51 +08:00
回复了 tikazyq 创建的主题 Python 为爬虫构建代理池
@hunk 购买的其实也是不可靠的代理, 只不过人家帮你做了一个 api 封装, 你可以直接使用 api 来获取而不用自己抓了. 这些代理很多都不能用.

貌似网上的代理都是他们开了几台 vps 然后 24 小时全网连接代理常用的端口一个个试出来, 很多是网络中某个人开了代理给自己用的, 也因此可能很快这个代理就没用了.
2016-07-16 10:30:42 +08:00
回复了 tikazyq 创建的主题 Python 为爬虫构建代理池
说说当时遇到的一些问题和解决方案吧.

1. 验证代理可不可用可以用这个代理去抓取某个很短的网页, 例如我当时是从百度主页随便找了一个 ajax 请求的 URL, 然后比较爬到的内容是不是正常. 这样可以剔除掉不可用的代理, 并把可用的加到代理池中. 这里所谓的不可用其实有多种可能, 例如超时, 返回 501 等异常状态码, 返回广告页面等. 光测试 ip 响应时间是不行的, 只能检查到超时的情况. 这样做确实验证的速度很慢, 但是实际运行过程中好几小时才需要抓取新代理, 然后验证, 因此对吞吐量的影响并不大. 这里的前提是只在加入到代理池时验证一次, 在使用过程中不再定期验证, 否则的话会极大的影响效率.

2. 网上的免费代理有效时间不长, 例如刚刚验证过能用的代理, 可能过了十几分钟不能用了. 所以哪怕是经过了验证的代理也仍然是不能完全信任的, 代理池中需要在发现代理不能用的时候剔除不可用的代理. 如何发现代理不能用其实是个问题, 对于超时, 501 等状态码可以再代理池中检查, 但是有些代理返回广告页面, 那么代理池在不知道用户想爬什么内容的情况是无法分辨取到的 response 是正常的还是代理返回的广告. 因此这里需要有爬虫在 parse 过程中发现异常之后主动通知代理池代理不可用. 当然你也完全可以假设, 通过第一步中验证的代理哪怕不可用了也只是超时, 不会出现刚开始可用, 后来返回广告这种情况.

3. 有些代理会缓存页面, 导致爬到的内容是旧的, 这个目前我也没想到办法. 不过好在我爬的页面不会频繁更新, 爬到过期的数据也无所谓.
2016-07-16 10:16:12 +08:00
回复了 tikazyq 创建的主题 Python 为爬虫构建代理池
不好意思 说到爬虫想当然以为是 scrapy 了.
2016-07-16 10:14:35 +08:00
回复了 tikazyq 创建的主题 Python 为爬虫构建代理池
https://github.com/kohn/HttpProxyMiddleware
针对网上的免费代理做的代理池, 解决了 lz 难点中的第一点.
2016-07-08 18:05:54 +08:00
回复了 clorts 创建的主题 Linux kvm 底层虚拟化用的还是 qemu?
kvm 实现了 cpu 和内存的虚拟化, 但是设备的虚拟化还是由 qemu 来完成.
2016-05-17 00:00:33 +08:00
回复了 Cybertron 创建的主题 程序员 求推荐一款电脑包, 15 寸以上电脑用。
2016-03-06 23:18:51 +08:00
回复了 PerterPon 创建的主题 Node.js 2016 年阿里云实习生招聘开始啦( 前端和 nodejs )
今年阿里云实习只招前端吗? c++招吗?
因为信号本身就是发给整个进程而非进程中单独一个线程的
2015-09-29 12:35:51 +08:00
回复了 colorsand 创建的主题 MySQL mysql 不能远程连接
上午刚试了试 mysql 的远程连接. 一开始也连不上, 后来发现是 windows 的防火墙没有添加 mysqld.exe
2015-08-20 17:19:10 +08:00
回复了 StackGao 创建的主题 macOS 寻求将当前窗口移动到另一个显示器的最快办法
buttersnaptool 设置个快捷键直接移动下一个显示器并全屏
2015-08-19 23:19:18 +08:00
回复了 aprikyblue 创建的主题 程序员 遇到朋友提交的这种代码该怎么办
这么多数字以后要改死
2015-05-16 10:45:20 +08:00
回复了 O21 创建的主题 程序员 求外包 PHP 前端 Python 都行~~ 还有服务器维护也行 (有案例)
番号搜索器那个和我直接打开btdigg.org搜索有啥区别...?
2015-03-31 19:35:27 +08:00
回复了 yuewolf 创建的主题 Python 第一个有点用的程序写出来了!激动中的疑惑
我觉得用argparse等命令解析的包, 直接在运行的时候指定你那些start_num等参数, 这样逼格高一点蛤蛤
1  2  3  4  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3877 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 26ms · UTC 05:09 · PVG 13:09 · LAX 21:09 · JFK 00:09
Developed with CodeLauncher
♥ Do have faith in what you're doing.