1. 百度每天抓数十万的网站,他们的正文提取,标题提取,发表时间统一格式化,文章出处等,都是专人去写 xpath, re, css selector, bs 吗?
2. 还有个问题,数十万的网站,他们的文章翻页有上千种,他们怎么去做到的翻页问题,难道也是专人去写 xpath, re, css selector, bs 吗?
3. 很多网站做了图片、视频防盗链,但是百度将原网站所有的图片、视频等全包同步到了自己的存储器里面,请问,对于防盗链的网站的资源,他们也是专人去做处理吗?
4. 本人是个爬虫新手,遇到的问题就是上面的问题,其实这几个问题也是通用爬虫的问题,求各位给点意见和建议。
5. 不胜感激涕零。