一步采集(OneStepSpider) - 网页列表数据的自动识别尝试

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

爱意满满的作品展示区。

这是一个创建于 2761 天前的主题，其中的信息可能已经有所发展或是发生改变。

大家好！我是"一步采集"的作者。地址： http://onestepspider.51pashanhu.com/

一步采集通过分析网页 HTML 结构，尝试自动识别出页面中的列表数据，比如 V2EX 列表的主题数据，包括字段标题、时间、作者、阅读量等等。还有常见的表格类数据。

并且，程序内还有一套“分页识别算法”，自动分析出下一页，以实现采集分页数据的功能。

优点：相对于其他同类产品，一步采集的速度是有非常大的优势，采集一个常规网页，基本都是在秒级别。

缺点和不足：对于 Ajax 加载的网页还不支持，详情页的识别还在开发中。

这个产品目前还是一个 Demo 阶段，欢迎大家提供宝贵意见！我们持续改进！

7 条回复 • 2018-02-06 05:54:41 +08:00

oness

2017-06-17 12:23:40 +08:00

核心点就 2 个：自动识别列表算法、自动识别分页算法。
下一步的自动采集内容页，涉及正文提取算法。这个目前有很成熟的算法，很好搞定。

whung

2017-06-17 15:07:27 +08:00 via iPhone

收藏下支持一下你

mingyun

2017-06-17 23:12:29 +08:00

试了下，速度挺快的，都不用写代码了

watermelon92

2017-06-17 23:39:31 +08:00

实测速度的确快啊，怎么做到的

oness

2017-06-18 09:48:24 +08:00

@whung
感谢！
@mingyun
@watermelon92
哈哈，相比其他一些云采集是快很多。
不过，可改进的地方还很多

xiaoqiang0704

2017-06-18 16:31:30 +08:00

确实很方便。可以进一步分享实现的方式吗

jayli517

2018-02-06 05:54:41 +08:00

找东西的时候发现的，已经 200 多天了，不知道还更新不更新了，爬山虎采集器倒是评测感觉挺好的