1
DT27 2015-12-16 12:11:58 +08:00 1
一般情况下都会设计成区别 display:none 之类的元素的。
|
3
az OP |
4
DT27 2015-12-16 12:16:21 +08:00
@az 你说的是什么机器?如果说百度之类的采集机器的话,不区别。如果是整站下载之类的机器,会把原样采集下来。
如果是仅采集 HTML 页面内容,隐藏内容不会出来。 如果是 HTML 代码,那不论隐藏不隐藏只要是 html 里的都会出来。。。 |
7
ChiChou 2015-12-16 12:53:54 +08:00
爬虫不是浏览器,可以把 HTML 原封不动地抓下来,你可以自行使用 CSS Parser 处理,或者直接上 headless browser 自动渲染
|
10
Slienc7 2015-12-16 13:01:30 +08:00 1
基本不存在“一般破解验证码的机器”这类东西,大多都是手动分析 HTML ,然后针对你这个网站来写程序获取验证码,再破解的。
CSS 隐藏这种能坑掉一些小白。 JavaScript 动态加载验证码又能坑掉一堆小白。 然而这些并没有卵用,稍微基础扎实一点基本都能得到你的验证码地址,然后用的你的验证码去做识别或者连接打码平台破解。 根本的还是加强验证码强度,或者 reCaptcha 这类。 |
12
qq286735628 2015-12-16 13:46:19 +08:00
看你用什么爬。例如 PhantomJS 衍生出来的一系列无界面浏览器,这种爬页面,什么都能识别
如果仅仅是最早期的爬网页文件并解析 html ,那就识别不了 CSS 和 JS 了 |