具体地址在这里,由于写的有点匆忙,就请大家见谅啦,https://github.com/lateautunm/aioip
1
munn 2018-10-13 10:33:59 +08:00 via iPhone
厉害了 手动支持
|
2
Lateautumn OP @munn 没有没有,辣鸡一只
|
3
SpiderXiantang 2018-10-13 14:20:57 +08:00
免费代理池最大的问题是可用率
|
4
dorothyREN 2018-10-13 15:19:04 +08:00
有个问题就是怎么验证有效性,或者多长时间验证一次有效性。
|
5
Lateautumn OP @SpiderXiantang 对,就是因为网络上爬来的 IP 数据格式比较乱,可用性比较低,才更需要实时,快速准确的识别有效的 IP,所以对于这个项目来说,最重要的也就是关于大数据方面的处理,这个可能以后需要更加精准的优化,目前来说只是希望用 kafka 做个实时流处理。
|
6
Lateautumn OP @dorothyREN 这个是两个问题,( 1 ) Q:怎么验证有效性; A:若是抓取的 IP 有有效时间根据有效时间来判断,如果没有,则是根据比较大众的方法,采用将 IP 作为代理去访问网站看是不是连接的上( 2 )多长时间验证一次有效性:这个时间间隔主要也是考虑到有些网站的 IP 会显示最后验证时间,所以根据这个来判断, 我会将这个时间设置为 1 分钟。
有个很严重的问题就是 IP 数量非常大的时候,以每分钟去验证 IP 会有难度,这个我觉得以后也是一个有优化空间的点。 |
7
asszxx123123 2018-10-15 11:45:58 +08:00
顶楼主一个。
|