楼主是普通大学软件工程专业大四学生,这是我的的毕业设计作品: http://find.marwin.cn/ .爬取了微博热搜榜,通过对热搜微博的评论进行情感分析,然后统计 postive 和 negetive 评论的比例,在左侧导航栏使用 emoji 直观地给出大致情况,从 positive 到 negative 分别是👏😃👤😡👿。本人之前也是从里没有接触过算法,学习了两个星期写了一个基于朴素贝叶斯的简单文本分类算法,而且目前训练集数据不足,判断的准确率比较低,所以我点击评论右侧 positive 和 negtive 标签可以进行误判的反馈。
问题来了,这个毕业设计开题的时候我选择是做一个使用 NLP 技术自动分析舆情的系统,快速发现舆论趋势不对劲的话题。但是后来越做发现越来越偏离当时的主题,主要是我技术有限,做成了这个样子。学校老师开题的时候说毕业设计主要有两个方向,一个是具有商业价值的应用类,一个是学术探索类。我的这个毕业设计商业价值几乎没有,学术更不谈了,所以我怕到时候答辩的时候比较困难。
V 站大神很多,看能不能给点意见,我这个毕业设计还能进行哪些方面的补救,还可以增加哪些功能。
1
threebr 2020-04-06 16:04:56 +08:00 via Android
只要 ppt 写得好,就有商业价值
|
2
threebr 2020-04-06 16:09:47 +08:00 via Android
比如你可以说你的毕设将来有可能发展成具有商业价值的系统 /你已经搭好了框架 /这是商业系统的一个子系统
|
3
1more 2020-04-06 16:21:44 +08:00 1
negetive -> negative
|
4
iasuna 2020-04-06 16:26:44 +08:00 via iPhone
国内某二流 985 毕业 我觉得本科毕业设计在我们这个级别的学校就是得过且过 基本都放了
|
5
closedevice 2020-04-06 16:30:02 +08:00
舆情推荐的毕业设计太多了,早期见过很多毕设是很基于贝叶斯和 SVM/KNN 做的,不知道你这的特点是什么?如果是本科毕业的化,还是能过的,可能查重是个问题
|
7
mdah233 OP @closedevice 其实我怕的一点就是这个,同类型的太多了。但是以我现有知识,算法上的差异化简直不可能,功能上的创新也没有想出来不错的
|
10
fishCatcher 2020-04-06 17:10:23 +08:00 via iPhone
没事,好多研究都是没有价值 骗经费的,本科毕设更没人看
|
11
chen7ie 2020-04-06 18:30:32 +08:00
国内末流 985 毕业
本科毕业设计只要是自己做的,就算需求没都完成,都能随便过 我知道没过的,都是抄的,答辩解释不清 |
12
christin 2020-04-06 19:09:48 +08:00 via iPhone
不说明 emoji 的顺序我还没看懂啥意思,本科老师接触这些 emoji 的可能比较少吧。在表情后面加上文字说明会好一点
|
13
mdah233 OP @christin 就是按照 positive 和 negative 的比例分了五个区间对应五个 emoji,从左到右分别是非常正面,正面稍多,中立,负面稍多和非常负面。因为我的前端适配了手机屏幕所以导航栏的位置很小,只能塞下 emoji
|
14
kasper4649 2020-04-06 23:00:35 +08:00 via Android
不知道你们具体要求咋样的,我是做行人重识别,导师要求注重原理,比如问原理要会回答,为什么用 ResNet,和其他模型有什么区别啥啥啥的,web 简单展示下就行了。他说主要是培养读论文尤其是国际顶会的能力....。
|
15
daimiaopeng 2020-04-07 09:09:52 +08:00
好像一点都不准确,人家死了还笑脸
|
16
mdah233 OP @daimiaopeng 确实还不太准确,不过笑脸只是代表正面评论比较多,比如表示祝福或者感动的评论会归类为 positive,emoji 可能是要换一下了有点歧义
|
17
mdah233 OP @kasper4649 我自己用的算法基本原理还说得出来,但是我看我同学的毕设很多都很高大上,我还是觉得只用了一点文本分类算法太简陋了没有亮点,所以想通过增加其他功能提高复杂度
|
18
dlsflh 2020-04-07 12:46:03 +08:00 via Android
遇到抽象話怎么办?
|
19
kasper4649 2020-04-07 12:52:09 +08:00
@mdah233 别人做的是纯开发嘛,那肯定不能就简单展示下。答辩到时候就吹自己尝试过哪些 NLP 算法,为什么选择当前的算法,是基于什么考虑的,有哪些数据论点做支撑,甚至做了那些改进后召回率精确率提高了。
|
20
mdah233 OP @dlsflh 这个只能通过堆语料了,如果消极语料里面出现了很多🐎,那么判断的时候出现🐎会提高判为消极的概率。我用的很简单的文本算法,目前只能做到这个程度了
|
21
daimiaopeng 2020-04-07 15:43:36 +08:00
@mdah233 现在热搜都自带表情了
|
22
mdah233 OP @daimiaopeng 我看了一下手机微博热搜的表情包,感觉应该是根据热搜里面的博文使用的表情包来确定的,只有部分有。我这里的表情包只是想直观地反映评论分布,背后其实是就是一个表示比例的双精度浮点数。
|
23
zcfnc 2020-04-07 17:44:09 +08:00 1
貌似和我之前在学校做过一个网易云课堂评论分析的课程设计有点像,不过我没有做前台,只是通过对某个课程的评论然后提取出大家对这门课存在哪些问题,然后老师对症下药什么的。
1. 做这个情感分析的话一定要语料够多,即使微博的训练集不足也可以去网上找一些类似的带标签的预料作为训练,做这个数据主要是需要数据标签多才比较准确一些 2. 然后弄到了别的语料之后里面的训练集的处理,分词的实现,textrank 或者 pagerank 啊,为什么用这种技术,也很简单可以往里面加一加(其实如果做 nlp 的话分词很重要的) 3. 主页上可以加个评论词云什么的,可以展现出大家普遍对这个热点有什么想说的,python 几行代码就搞定了 4. 答辩的话感觉就是和老师吹比,有些东西你没有用到但是你能吹的出来自圆其说老师到时候也不会看你的代码的。我学校比较垃圾去年毕业的因为那个翟博士学校还搞了个预答辩说什么最严一届答辩学校要卡多少人不给毕业巴拉巴拉,其实也就那样,你这个里面的东西还是有点少,自己想办法补充一些,难的东西不会做那就把简单的东西多堆砌堆砌也差不多的,本科我觉得毕业是真的简单。我去年帮别人写了个论文,然后自己答辩完立马又帮那个同学辅导答辩的,最后也拿了很高的分。 |
24
fromdark 2020-04-07 19:21:35 +08:00
如果都是套用框架的话,毕设也就过于简单了
|
25
benen005g 2020-04-07 22:57:11 +08:00 via Android
做的不错了
|
27
mdah233 OP @fromdark 怎么说呢,我使用的框架都是一些比较基础的框架,比如爬虫就用了发送 http 的库和解析 json 的库,这两个库如果直接拼接 http 协议和拿 json 当字符串解析的话也可以实现功能但是没有必要,类似有高级语言就不用汇编写代码。web 方面 spring 已经是基础设施一样的存在肯定绕不开的。算法部分除了分词都是我自己写的,确实刚刚学习机器学习,算法都需要慢慢来,后面会考虑把分词部分重构成自己写的算法。
|
28
viewan 2020-04-08 12:32:35 +08:00 via Android
emoji 第一个表示啪?
|