最近,在写网站黑链识别,但是对于各种网站的链接,怎样有效地能够识别出,该 href 就是黑链,或者减少误报率,各位老司机有没有各种好姿势。
1
qqpkat2 2016-08-04 09:46:31 +08:00
这很难识别,黑链直接加到你正常的友情链接那里去,你怎么识别
要么就看过滤黑链的关键字,比如什么私服啊,不孕不育啊 曾经黑了几百网站放黑链的路过。 |
2
xhowhy 2016-08-04 10:02:11 +08:00
黑链现在也不必隐藏了
|
4
SlipStupig 2016-08-04 13:36:19 +08:00 2
@latent 之前做过类似的挂马检测,不知道你是本地还是远程,远程麻烦一点,我说一下之前检测挂马的方法:
1.优先检测外链,本地样本算一个模糊 hash ,再比对远程下载的内容如果比对成功,就是被黑了 2.基于 url 参数测试,很多做挂马会判断你的浏览器版本,根据这个去模拟不同参数输出结果(容易误报),还是要检测差异有多大,比如用普通参数访问没内容,如果用 baidu spider+这个 ua 头就会跳转,这个一定有问题 2.基于模板聚类去识别(很多都是动态文件),但是里面的 css 布局和元素分布是相同的,可以做一个有效识别(其实就是那么几票人干的,需要一定的样本做 k-mean ) 3.基于链接相似度抓取网页,跟当前 url 参数差异很大的,比如某网站都是:/index.php?mode=page&number=1 这种有 990 个,突然出现了一个:/hack/hack.html ,这个链接可以报可疑,然后结合关键字(很多都是广告联盟的,可以分析一下这类特殊链接是否是网站联盟) 4.开沙盒行为检测,模拟浏览器去访问,然后根据规则分析沙盒内的异常行为(估计你用不到) |
6
imn1 2016-08-04 14:14:22 +08:00
你是拉登还是蓝灯?
想知道你对黑链如何定义,这个决定范围 |
7
ershisi 2016-08-04 15:04:29 +08:00
链接的颜色判断 /链接的位置判断。 head foot 里的链接判断。另外,各种脚本下现在的黑链不应该是判断爬虫然后再展现了吗?
|
8
tSQghkfhTtQt9mtd 2016-08-04 17:04:37 +08:00
|