各位爬虫大大们,在爬取数据时,是一个网站一个网站的分析来爬取的,还是说有一种通用的方式来进行? 抓取数据的入口和抓取到的数据是如何保持通用性呢?
1
onlyice 2017-08-02 07:09:19 +08:00 via Android
没有通用的方式,一个一个来
数据通用性的话,先多观察你要爬的网站的数据结构,再根据这个定出你的数据库结构。遇到新网站不兼容时,积极重构代码和数据库 |
2
jingniao 2017-08-02 07:13:12 +08:00 via Android
如果想要格式化的数据,没什么好的方法。
非格式化的数据那就是搜索引擎的那样的了。 |
5
chendajun 2017-08-02 09:23:43 +08:00 1
做爬虫也好多年了,一般抓取网站中的标题,文章发布时间,正文,文章图片。可以做到 80%用通用规则解决。
1,标题:在提取链接的时候把 link title 保存下来 2,文章发布时间:用网页 heads 里的 last modify 3,抽取正文:有开源的模块( Python 有 readability-lxml,Java 有 JoyHtml 4,文章图片:在抽取的正文中提取<img> |
6
est 2017-08-02 09:37:00 +08:00
正文抽取
其实有可视化的元素选择器。 |
7
Hello1995 2017-08-02 10:31:12 +08:00 via Android
要我肯定选( Java 的) jsoup,虽然也要每个站分析,但轻松多了。
|
11
ivechan 2017-08-02 17:55:08 +08:00
就算强如 Google Baidu, 也需要别人提交 sitemap 来提升被收录的"体验",
通用正文(or 其他)提取是一个技术难点. |
13
slideclick 2017-08-03 11:10:27 +08:00
现在 google 你搜索一些 how to 它会出来一个步骤,我觉得是 goolge 机器判断出来的,不是站长提交的. 这个技术估计 goolge 比较先进,个人爬虫只能 xpath 了
|
15
yeless 2017-08-03 14:18:49 +08:00
有个 正文抽取咯
|
16
sunwei0325 2017-08-10 18:37:30 +08:00
可视化抓取可以试一下 portia
https://github.com/scrapinghub/portia |