做个简单易用通用型采集器不容易,这个项目已经花了 6 年时间,还没完还将继续。
3 年前第一次发布
http://v2ex.com/t/65371#reply149
第一次发布后有人说太复杂,有人说应该提供独立的 WEB 管理界面等等,花了 3 年时间在这个版本都有实现,并且做了很多的重构与功能完善。
三年前注册的用户,可以直接安装使用(鸟巢采集器个人用户终身免费使用),
项目地址
https://github.com/speed/newcrawler
目前还不打算开放注册,准备再测试一个月(请不要申请邀请码)
鸟巢采集器
http://www.newcrawler.com
测试帐号(请使用海外节点,因为 GAE,OpenShift 都已被墙)
username:test
password:test
演示视频
http://video.newcrawler.com/newcrawler_v2.2.mp4
http://ww3.sinaimg.cn/large/5e24c9a7gw1f2sj1vgfx8j20zk0rhtg2.jpg
1
rubyvector 2016-04-11 10:28:49 +08:00 1
楼主强人哦.界面细腻,功能强大到难以想像.不知道处理有 IP 限制的页面是否有解决方案
|
2
mazyi 2016-04-11 10:31:50 +08:00 1
cool
|
3
shiny 2016-04-11 10:35:15 +08:00 1
以前也考虑过写类似东西,但思路不及楼主。看得出花费了大量心血。
|
4
stiekel 2016-04-11 10:41:07 +08:00 1
有毅力,一个项目能够坚持这么多年,赞!
|
5
yanyuan2046 2016-04-11 10:42:39 +08:00 1
牛逼,能用 6 年做一件事的都是牛人
|
6
server 2016-04-11 10:51:03 +08:00
牛人,毅力!!
|
7
whahuzhihao 2016-04-11 10:58:30 +08:00
好棒!楼主好毅力
|
8
pypy 2016-04-11 10:59:00 +08:00
好厉害!学习楼主这种精神!
|
9
sohoer OP |
10
mew7wo 2016-04-11 11:15:32 +08:00
楼主牛人 已安装试用
|
11
kukat 2016-04-11 11:18:32 +08:00
有 docker image 吗?
|
12
sewyu 2016-04-11 11:22:03 +08:00
吓到了,好强大。。。。 绝对大神
|
13
sohoer OP |
14
feather12315 2016-04-11 11:25:54 +08:00 via Android
@sohoer 爬虫共享赞一个。
|
15
sylviayoung 2016-04-11 11:30:01 +08:00 via iPad
佩服楼主持之以恒的精神!
|
16
leehon 2016-04-11 11:30:05 +08:00
6 年有点太长,一直是楼主一个人开发吗
|
17
alongdj 2016-04-11 11:33:57 +08:00 via Android
楼主好毅力…
|
18
inoricho 2016-04-11 11:34:08 +08:00
楼主大触!
|
19
wuyadong 2016-04-11 11:54:01 +08:00
楼主,吊~!
|
20
zeac 2016-04-11 11:56:12 +08:00
佩服~
|
21
keepcleargas 2016-04-11 11:59:12 +08:00
大牛 膜拜.
|
22
Kilerd 2016-04-11 12:01:25 +08:00
太厉害了,坚持了那么久,我很久之前也写过一个,不过完全不通用啊。
|
23
mahone3297 2016-04-11 12:05:15 +08:00
什么毅力居然让你坚持了 6 年。。。赞。。。
|
24
kutata 2016-04-11 12:06:08 +08:00
这项目的构建方式刷新了三观,好腻害.....
|
25
qa52666 2016-04-11 12:29:14 +08:00
牛逼
|
26
soulteary 2016-04-11 12:30:43 +08:00
成功炸出来潜水党...点赞。
|
27
dong3580 2016-04-11 12:38:35 +08:00
已经 star,真是膜拜大牛啊,
|
28
ixinshang 2016-04-11 12:41:02 +08:00
在树莓派贴吧 看过一个类似的 info
|
29
sunbeams001 2016-04-11 12:45:40 +08:00
定制度和完成度都好高……膜拜下
|
30
Xrong 2016-04-11 12:45:46 +08:00
我了个去啊,牛逼到家啊。。。给楼上点个赞啊
|
31
heige853 2016-04-11 12:49:17 +08:00
看了下 好牛逼 颠覆了对以往采集工具的理解~
|
32
Asimov 2016-04-11 12:49:29 +08:00 via Android
回家试试
|
33
missqso 2016-04-11 13:00:27 +08:00
好厉害啊,很多 ux 动画也是非常的精致。
|
34
FanError 2016-04-11 13:02:09 +08:00
一登录进去 NPE 了哦
java.lang.NullPointerException at lllllllllllllll.IIlIIllllIIlllllI.lIlIllIllIIIllI(Unknown Source) at lllllllllllllll.IIlIIllllIIlllllI.IIIIIllIlIIIIII(Unknown Source) at lllllllllllllll.IIlIIllllIIlllllI.IIIIIIlllIlllIl(Unknown Source) at lllllllllllllll.IIlIIllllIIlllllI.IIlIIIlIlIIlIIl(Unknown Source) at lllllllllllllll.IIlIlllIlllIlIIII.lIIllIllllIIIIl(Unknown Source) at lllllllllllllll.IIlIlllIlllIlIIII.check(Unknown Source) at sun.reflect.GeneratedMethodAccessor60.invoke(Unknown Source) at sun.reflect.DelegatingMethodAccessorImpl.invoke(Unknown Source) at java.lang.reflect.Method.invoke(Unknown Source) at lllllllllllllll.IIlIlIllIIIlIlIll.IIIIlIlllIIlIll(Unknown Source) at lllllllllllllll.IIlIlllIlIllllIIl.call(Unknown Source) at lllllllllllllll.IIlIIlIIIlIIlIIII.IIlIIlIlIlIlIIl(Unknown Source) at lllllllllllllll.IIlIIlIIIlIIlIIII.service(Unknown Source) |
35
Caratpine 2016-04-11 13:03:51 +08:00
好厉害,赞赞赞
|
36
loadingimg 2016-04-11 13:04:45 +08:00
膜拜一下
|
37
ketle 2016-04-11 13:07:08 +08:00
可视化的怎么弄
|
38
Sunya 2016-04-11 13:09:56 +08:00 via iPhone
wecl come back 😆。赞
|
39
csx163 2016-04-11 13:29:50 +08:00
三年前看过,记得当时根本无从下手,现在真的好用多了。 [赞]
|
41
sohoer OP 上一次发布有人说访问太慢,
所以我自己实现了分布式同步,目前有三个节点, aliyun 、 gae 、 linode 被墙的资源如 GAE 请使用 linode(海外节点)访问 |
42
frankmdong 2016-04-11 14:05:12 +08:00
好毅力 已 star
|
43
xiaogouxo 2016-04-11 14:13:22 +08:00
楼主太刁了。已 star
|
44
walkershow 2016-04-11 14:25:06 +08:00
楼主牛逼啊!
|
45
sohoer OP @leehon 一直都是一个人开发
有时候想想都觉得自己很强大,坚持这么久做一件事情 无数次编译,数不清的重构,每一次重构都很痛苦 刚开始程序员生涯的时候做过很多垃圾站,也用过不少采集器 后面知道 GAE 免费,于是想用很多的 GAE APP 来搭一个免费的爬虫网络(违反 TOS ) 基于 GAE 开发后发现 PAAS 平台限制太多,后来加上了标准的 JAVA 环境支持 目前同时支持 GAE 与标准 JAVA 环境,开发上也增加不少难度, 谁让我想吃免费的蛋糕呢! 最后大家都能有免费蛋糕吃 |
46
xingshu 2016-04-11 14:36:52 +08:00
能留个邮箱么,有点其他需求,希望能通过邮箱沟通。🤗
|
47
sohoer OP |
49
fengxiang 2016-04-11 15:15:29 +08:00 via Android
手动点赞,楼主能坚持真的很厉害。不像某些项目,一堆 bug 还到处宣扬。
|
50
gimp 2016-04-11 15:36:48 +08:00
佩服楼主的毅力和能力,点赞!
|
51
mcwanderer 2016-04-11 16:13:45 +08:00
膜拜
|
52
badcode 2016-04-11 16:15:17 +08:00 1
看哭了,我确定是回这贴的
|
54
DesignerSkyline 2016-04-11 16:36:35 +08:00
给你点赞啦!希望以后也继续更新
|
55
Flygoat 2016-04-11 16:40:01 +08:00 via iPad
垃圾站助手?
|
56
sohoer OP @Flygoat 现在不做垃圾站了,像这样的 http://www.shishibi.com(半成品)
|
58
sohoer OP |
59
ven 2016-04-11 18:03:57 +08:00
太强大了!赞!
|
61
binux 2016-04-11 18:06:56 +08:00
|
62
ddter 2016-04-11 18:26:27 +08:00
不是泼冷水啊,这个跟八爪鱼比起来有啥明显的优势吗。。。
|
63
jiezhi 2016-04-11 18:41:14 +08:00
牛人,学习坚持精神!
|
64
sohoer OP @ddter 八爪鱼带个浏览器跑耗资源,好处是真的通用,八爪鱼能在 gae,openshift 上跑吗?
|
65
sohoer OP |
66
HanSonJ 2016-04-11 19:08:38 +08:00
我吓尿了,好厉害!
|
68
leafof 2016-04-11 19:18:01 +08:00
很牛!可惜暂时用不到
|
69
ftp11yyy 2016-04-11 19:30:38 +08:00
点赞,好厉害!
|
70
lemayi 2016-04-11 19:37:01 +08:00
太 nb 了!
|
71
alocne 2016-04-11 19:37:43 +08:00
好厉害
|
72
isb 2016-04-11 20:06:33 +08:00
惊呆。~ 好厉害!!
|
73
yylzcom 2016-04-11 21:00:18 +08:00 via Android
我见过的收藏人数最多的一个帖子
|
74
imWBB 2016-04-11 21:26:46 +08:00
点赞
|
75
xiaocsl 2016-04-11 21:34:39 +08:00
在以前的公司,有过类似的.
我负责前端,开发一个 Chrome 插件,来让人选择爬取的内容. 楼主这个,看功能要完善好多.犀利啊~ |
76
huijian222 2016-04-11 22:05:49 +08:00
cool
|
77
jaylong 2016-04-11 22:38:14 +08:00
好棒!
|
78
hpeng 2016-04-11 23:03:33 +08:00
好牛逼。读书的时候就有这个想法,但是并没有做下去。实在佩服,佩服。
|
79
h4lt 2016-04-11 23:12:31 +08:00
叼炸了。正好有相关的需要,学习学习。
|
80
strwei 2016-04-12 00:03:14 +08:00
功能强大到爆,可惜不适合小白用
|
81
branchzero 2016-04-12 01:52:35 +08:00
好强大啊,已 star ,佩服 LZ 的毅力!
|
82
konakona 2016-04-12 02:01:47 +08:00
看了介绍视频,很强大!
非常感谢楼主分享! |
83
jacker 2016-04-12 08:38:47 +08:00
和国外的 kimono 太像啦
|
85
cxshun 2016-04-12 09:26:19 +08:00
好强大,佩服楼主!
|
86
codeyung 2016-04-12 15:01:22 +08:00
支持楼主!
|
87
wq2016 2016-04-12 15:15:09 +08:00
支持一个!
|
88
myforgame 2016-04-12 15:52:48 +08:00
屌爆了
|
90
jacker 2016-04-12 21:17:35 +08:00
以前做过 SEO ,采集方面主要是采集后伪原创处理然后发布,现在主要做一些运营方面,会遇到需要采集一些数据做分析,根据这两方面我个人感觉可以加上的几个功能是
1.根据部分开源的程序有通用的规则,方便小白来采集(如 WordPress ,或者 magento ); 2.对接一些 API ,如 copypass 等 如果能根据数据生成图就更好啦 kimono 可以生成自己的 API ,这个功能也是非常不错的 |
91
viosey 2016-04-13 00:21:57 +08:00
太强大了, 虽然说个人免费使用, 但是即使收费了也是毫不犹豫的买买买
|
92
sohoer OP |
93
vvaaiinn 2016-04-13 11:26:21 +08:00
NB 啊。求个邀请码注册玩玩
|
94
wingyiu 2016-04-15 19:29:03 +08:00
NB
|
95
wingyiu 2016-04-15 19:36:31 +08:00
test 账号进去各种 error ,引导做得不好,居然不是开源,不过好像反编译就行了
|
96
quericy 2016-04-20 09:11:33 +08:00
看完 LZ 的项目,感觉自己写的爬虫的通用性就是个笑话
6 年....佩服 LZ 的毅力 |
97
mew7wo 2016-05-25 12:51:23 +08:00
个人安装之后,用什么帐号可以登录使用个人采集器
|
98
wujunze 2016-08-19 13:48:22 +08:00
佩服楼主的毅力
|
99
coolloves 2016-08-20 07:25:34 +08:00 via Android
膜拜!!!!
|
100
fanghui 2017-02-21 00:31:17 +08:00
@sohoer 主要问题是没有 xpath 表达式显示在页面的左上角,你可以看下截图,截图地址: https://pan.baidu.com/s/1ctf1Yu
|