1
shellex 2012-03-08 13:28:50 +08:00
类似内容审查吧。关键是怎么你们定义垃圾网页的?
|
2
Huntor OP 毕设只有题目,关于垃圾网页的界定,可以由自己判断,通常对于垃圾网页的定义:不能为用户提供有效信息,仅仅为了提升在搜索结果中的排名。另外,关于这本书《开发自己的搜索引擎-Lucene 2.0+Heritrix》谁有电子版的可以发我吗?
|
3
Tianpu 2012-03-08 14:39:13 +08:00 via iPad
我觉得可以从机器学习的角度考虑
对应着比如垃圾邮件就有比较成熟的方案,傅立叶级数筛选什么的 具体参考ruanyifeng.com的某一篇博客,有不错的入门介绍 |
5
kfc315 2012-03-08 17:02:56 +08:00
俺不做这一块儿。
不过,进入一个新领域前,google scholar 和 arnetminer.org 会是最好的工具。 找一些 survey / review 之类的看看吧。这种课题不可能没有人没做过。 @Tianpu 说的那篇博客是《黑客与画家》中的一章。这本书很好,推荐。 |
6
wong2 2012-03-08 17:16:30 +08:00
|
7
Huntor OP 感谢楼上各位给予的帮助,《黑客与画家》这本书虽然一直有听过,但是没怎么看过,正好借此机会,仔细研究下这本书~
|
8
Ricepig 2012-03-09 20:30:14 +08:00
用贝叶斯,或者SVM吧
其实感觉很多垃圾邮件过滤的技术可以直接用 |
9
hq5261984 2012-03-09 21:38:34 +08:00
这个往深了说就是语义网络。
单靠关键字肯定不行。涉及到人工智能N复杂,你们导师出这个题目,他自己都不懂,国内没几个能搞明白的。随便写写忽悠他吧。 |
10
Huntor OP 语义网络?人工智能?介个表示压力越来越大。。。记得某童鞋说过:咱搞技术的,写论文就算要忽悠,也要忽悠出技术含量~
|
11
sobigfish 2012-03-11 01:21:22 +08:00 via iPad
按分数来怎么样广告多20分(粗略的算法)flash/控件多20 全是关键词,没有完整的文章80 没有原创50。只要分数高于60就算垃圾网站了
|
12
tttwww18 2012-03-11 01:29:50 +08:00
一两句说不清,自己看论文学吧
http://ilpubs.stanford.edu:8090/646/1/2004-25.pdf https://wiki.engr.illinois.edu/download/attachments/188588798/WebSpamSurvey.pdf?version=1&modificationDate=1318004145000 涉及一些基本思想和个别算法,希望能给你思路 (英文看得蛋疼就看中文吧,给个中文博客给你 http://hi.baidu.com/shichunqi/home) |
13
argentum 2012-03-11 12:28:02 +08:00
lz毕设咋弄这么学术的、、、我见过的有计算机重点学科的985也有人在做图书管理系统啊、、、
|
14
freefcw 2012-03-11 12:48:24 +08:00
这个题目还真是噱头大。。。如果真要说做的话,估计光垃圾网页的检测这个课题我估计就可以做一堆博士出来了= =
但是我真的不知道垃圾网页的检测和垂直搜索有啥关系。。。怎么扯上来 |