1
wang2191195 2012-12-14 14:52:04 +08:00
scrapy 你值得拥有
|
2
enj0y 2012-12-14 14:52:54 +08:00
使用云的理念,用访客的资源来爬行,节约服务器资源。。
哈哈,估计这样的网站没有人敢访问。 |
3
kenneth OP |
4
flyingkid 2012-12-14 15:15:59 +08:00
设置一个规则 http://*.hao123.com/*
其他的全部调过。 |
5
kenneth OP @flyingkid 我要抓全站的域名,当然不能控制域。scrapy链接提取的时候,只要有链接,我就要去匹配,所以我补知道如何处理这块。
|
6
zuroc 2012-12-14 15:22:12 +08:00
|
7
zuroc 2012-12-14 15:23:26 +08:00 1
|
8
momou 2012-12-14 17:16:32 +08:00
|
10
tioover 2012-12-14 18:33:36 +08:00
curl拉下来
然后找出所有<a> |
11
dreampuf 2012-12-14 20:52:43 +08:00
wget -e robots=off -r -T 3 --domains=hao123.com www.hao123.com
for i in `find . -iname *.html`; do cat $i | grep "http:" | sed 's/^.*http/http/' | cut -d'"' -f1 | sort -u;done |
12
greatghoul 2012-12-14 21:06:59 +08:00
wget 就搞定了。
|
13
glsee 2012-12-14 22:41:03 +08:00
|
14
barbery 2012-12-15 10:02:08 +08:00
右键网页另存为。。。。用正则提取。。。。
|
15
im924106179 2012-12-15 15:55:22 +08:00
100rmb包搞定
|
16
kenneth OP @im924106179 你能搞定就上代码,100rmb我付你。
|
17
xjay 2012-12-16 14:11:25 +08:00
scrapy 你值得拥有,呵呵。
用CrawlSpider,写好rules规则,然后在parse_item里面就可以处理你要的数据了,再实现一个pipeline数据管道,把你要的数据保存起来,就ok了。 |
18
ccdjh 2012-12-16 15:32:39 +08:00
爬取应该不行,你写个爬虫,总有你控制不住,或者没有那么智能。
你还不如写一个按页抓取的。就是你输入http://www.hao123.com/hardware 把http://www.hao123.com/hardware上的站提取出来,并且转json就好了。没必要钻胡同 |
19
xieranmaya 2012-12-17 19:03:08 +08:00
这样行不行,用jQuery
$("a").each(function(){ $("<div></div>").load(this.href).appendTo(document.body); }); |
20
ADIVILOrz 2012-12-18 23:25:07 +08:00
|
21
kenneth OP |
22
bigdude 2012-12-19 13:59:49 +08:00
wget 啊
|
23
IFoon 2012-12-19 16:19:25 +08:00
用采集工具啊。。
www.sensite.cn |
24
adyizhan 2012-12-19 23:16:35 +08:00
@im924106179 怎么联系。
|
25
ADIVILOrz 2012-12-19 23:28:46 +08:00
|
27
ADIVILOrz 2012-12-20 21:00:38 +08:00
@kenneth 看你入什么库,什么表结构。sqlite3,postgresql,mysql都有CLI工具,shell可以直接调用导入文本。
|
28
secretworry 2012-12-20 21:06:22 +08:00
@kenneth echo "YOUR_SQL_HERE" | $MYSQL 就能输入数据库了。
其中MYSQL="mysql -u"(YOUR MYSQL ACCESS COMMAND) |
29
aksoft 2012-12-21 22:25:35 +08:00
都是NB人,学习下..
|