搞个 demo 很容易实现,打磨这个事儿就是个长期的事情了,折腾了好长一段时间,正式将 NLP 迁移到我们的文智平台,后端还在开发的 to do list 里,人手吃紧要干的事儿有点多。
还是先来个尝鲜吧。
http://txtai.com/product/nlp.shtml
自然语言处理围绕情感分析的场景,目前还是适用于标准的新闻内容,以及文档内容的情感识别,口语化识别可能还是一个超级漫长的过程。
欢迎大家帮忙提提建议,这套业务已经集成到我们的舆情监控业务里,对这方面应用,或者对舆情产品感兴趣的可以联系我,我发 0.1 折体验卷。
1
tailf 2018-04-11 14:28:21 +08:00 2
NLP:你老婆?
|
2
164607638 2018-04-11 14:29:40 +08:00
我觉得啊,这个项目小看了中华文化尤其是汉语的魅力
|
3
ryV60s 2018-04-11 14:32:47 +08:00
比如:"草泥马,哈哈"
正面 57% 负面 42% -.- |
4
zhangzhang 2018-04-11 14:36:35 +08:00
「你说的真对,嘻嘻」
正面 77.24% 负面 22.76% |
5
timwei 2018-04-11 15:06:45 +08:00 1
"我今天是作为一个长者来跟你们讲的"
正面 83% 负面 17% 8-) |
6
LadyChunsKite 2018-04-11 15:20:03 +08:00
“无 fuck 说”
正面:89.6% 负面:10.4% |
7
murmur 2018-04-11 15:21:08 +08:00 2
以前做舆情项目
现在认为中文情感分析就是做梦 以中文的博大精深 以及资深网民多年对抗关键字过滤的经历 绝大多数人都可以笑嘻嘻的骂你 mmp |
8
takato 2018-04-11 15:23:21 +08:00
压缩的维度太小了。。。。实在不是 NLP 的正确用法。。
|
9
cosmic 2018-04-11 15:23:40 +08:00 2
华为手机电池用得太快了
结果:0%负面,100%正面 私以为这样的结果,用来做口碑监控,怕不是要把一些公司坑死。 只用情感词典的话,要做的规则太多了,建议增加语料库,电商网站的评论多标注,用 CNN 或者 LSTM 训练 |
10
fanhaipeng0403 2018-04-11 15:24:26 +08:00
呵呵
正面 100% |
11
ucaime 2018-04-11 15:34:11 +08:00
http://nlp.qq.com/
腾讯的也叫文智,有什么关系吗? |
12
yianing 2018-04-11 15:53:03 +08:00
水不在深,亦可赛艇
正面:97.74% exciting ? |
13
wy315700 2018-04-11 15:57:10 +08:00
怎么联系楼主
|
14
Devilker 2018-04-11 15:59:26 +08:00
还是太年轻
正面:92.8 负面:7.2 |
15
lanyi96 2018-04-11 16:05:48 +08:00
我是你爸爸
正面:100 |
16
Greatshu 2018-04-11 16:13:38 +08:00 7
|
17
qiyuey 2018-04-11 16:17:05 +08:00
你们还是要学习一个闷声发大财
正面:79.36 负面:20.64 |
18
reeonce 2018-04-11 16:23:35 +08:00
特朗普
正面: 50% 负面: 50% |
19
weizhen199 2018-04-11 16:36:01 +08:00
呵呵
正面: 100% 负面: 0% |
20
ThirdFlame 2018-04-11 16:37:15 +08:00
我去你妹,妹家
正面:80.87% 反面:19.13% |
21
gitopen 2018-04-11 17:05:30 +08:00
今天天气真好啊。我心情真不爽。
。。判断 100%正面。。。这准确率。。。。 |
22
chemzqm 2018-04-11 17:11:39 +08:00 1
百度
正面:0% 反面:100% 我很满意 |
24
Kilerd 2018-04-11 17:19:05 +08:00
我给你买几个橘子回来
正面 83% |
25
hanbing135 2018-04-11 18:41:50 +08:00 via Android
感觉 nlp 根本解决中文这个问题
|
26
casparchen 2018-04-11 18:49:39 +08:00 1
老婆和隔壁老王经常来往
正面: 58.16% |
27
overflowHidden 2018-04-11 18:52:15 +08:00
你妈做的红烧肉棒极了
正面 35% 负面 65% |
28
BingoXuan 2018-04-11 18:55:17 +08:00 via Android
“我们一起去吃鸡吧”,正面 80%左右,果然中文博大精深
|
29
keenwon 2018-04-11 18:56:07 +08:00
9 折就是 * 0.9
0.1 折就是 * 0.01 这样理解对吧? |
30
locktionc 2018-04-11 18:59:33 +08:00
食屎啦你
正面 100% 负面 0% |
31
guokeke 2018-04-11 19:27:49 +08:00
"你老婆就是我老婆"
正: 97.45% 负: 2.55% |
32
guokeke 2018-04-11 19:30:40 +08:00
|
33
diggerdu 2018-04-11 20:31:21 +08:00
"板马养的"
正: 100% |
34
yankebupt 2018-04-11 22:43:56 +08:00
大概试了一下,这个很可能是直播网站里用专门被人工标记为活跃喷子用户和导致被禁言的弹幕为数据训练的。
带有"开挂"字样的弹幕大多识别为正面居多,但是"五五开挂"四字成型语可准确识别为负面 100%, 显然经过针对采样。 感觉这类技术不怕不准确,就怕有针对性的学习管理者的癖好然后不断演化,成为管理方选择性呈现舆情的帮凶和对于徇私而屏蔽特定舆情时推卸责任的替罪羊。 即使发展不到那个地步,想到直播平台点开每个人的时候都有个此人弹幕平均健康度之类的指标列在上面就挺过分的。 如果这个正负面数据泄露了,成为你的广告提供商个性化推送什么广告时的参考依据,辅以你的弹幕关键字,甚至成为一种隐藏的个人评级,是不是更过分。 |
35
Xs0ul 2018-04-11 23:09:11 +08:00
感觉上,按百分比显示不太合理?平平淡淡没什么情感的也是 50-50,有喷有赞的也是 50-50
|
36
roychan 2018-04-11 23:34:47 +08:00
阿猫阿狗都 NLP 了。可以请你们给你们的网站加上 SSL 吗?
|
37
wdlth 2018-04-11 23:47:12 +08:00
有钱是可以为所欲为的
正面:31% 负面:69% |
38
yankebupt 2018-04-11 23:49:21 +08:00
感觉也可以面向个人,上传个人历史弹幕数据或历史帖子,给出评分,让个人对自己在平台上 NLP 机器人给的隐藏分大概什么样有个了解....
|
39
aheadlead 2018-04-12 00:11:34 +08:00
搞个大新闻!
正面:81% 负面:19% |
40
Antidictator 2018-04-12 09:24:12 +08:00
打扰了
正面:54.75% |
41
duowb 2018-04-12 09:41:14 +08:00
澳门荷官在线发牌
正面:100% (#^.^#) |
42
cluulzz 2018-04-12 09:41:31 +08:00
"蛤蛤蛤蛤蛤蛤蛤"
正面:50% 负面:50% |
43
LeoNG 2018-04-12 12:15:55 +08:00
你好棒棒哦
正面:100% |
44
quu OP @zhangzhang 希望能看一下前提条件哈 [目前还是适用于标准的新闻内容] ,中文太伟大,很多语义换个环境就不是原有的意思了,让机器去理解这些实在太难完成。
|
45
quu OP @cosmic 感谢建议,已打赏,这块其实已经加了一些行业语料库了,但是体积确实不够大。
我看了一下历史内容,你的这条确实要深度优化。 |
47
quu OP @roychan 作为一个安全背景出身的团队,我想问一下,SSL 到底解决了什么问题?在我们这个场景应用又可以帮助我们解决了什么?是否有直接性影响?
|
48
pmispig 2018-04-12 13:50:40 +08:00
作为一个安全背景出身的团队,居然还能问,SSL 到底解决了什么问题....?
看来你是个小白吧,我只说一点,网站内容劫持。 |
49
zhangsen1992 2018-04-12 14:14:56 +08:00
samples:呵呵
你妈逼你结婚了吗 去你大爷家给你大爷祝寿 |
50
fiht 2018-04-12 14:34:36 +08:00
base64: 5Lmg5YyF5a2Q5oiQ55qH5bid5ZKv
正面:98% base64: 5Lmg5YyF5a2Q6KaB5YGa55qH5bid5LqG 正面:57% |
51
Greenm 2018-04-12 14:43:31 +08:00 1
有注册功能涉及用户资料不上 https,还能大言不惭的问 SSL 到底解决了什么问题。
现在是不是安全背景门槛这么低了?使用过漏扫是不是也算有安全背景的团队? |
52
xiongshengyao 2018-04-12 14:51:02 +08:00
天冷了,我妈逼我穿秋裤
负面: 80.84% 正面: 19.16% 这个很负面吗?明明就是中性吧 |
53
CloudnuY 2018-04-12 15:02:57 +08:00
|
54
xiangyuecn 2018-04-12 15:14:06 +08:00
|
56
shiny 2018-04-12 17:33:46 +08:00
都 2018 年了还在问 SSL 到底解决了什么问题
|
57
BoiledEgg 2018-04-12 17:46:48 +08:00
全楼看下来,这广告效果很好,哈哈哈哈哈
|
58
cnallenzhao 2018-04-12 20:37:24 +08:00
小米手机太卡了,别买
正面 63% ? |
59
roychan 2018-04-13 21:37:17 +08:00
@quu
SSL 解决的问题只需要用搜索引擎搜索一下就可以,有人可以比我说得更加清楚。SSL 对于 NLP 本身当然没什么用,但是既然用户需要使用浏览器和 HTTP 协议去使用你发出来的这个 demo,那么我认为加上 SSL 是有必要的。抛开“保护用户”不谈,首先也是保护你们自己。:) It's 2018. |
60
quu OP 先感谢,各位基于标准“新闻”下帮忙找误报问题的朋友,NLP 这东西要持续打磨,这些问题永远解决不完,所以我们后续会考虑把接口放开,找志同道合的朋友来一起完善。
对于一些没看清前置条件,就开始用“口语话”、“网络语”、“谐音错别字”来刻意找问题的朋友,我只能用“调皮”来形容,NLP 想要理解这些东西,三五年都搞不定,中文太复杂了,目前没有看到任何一个对这种复杂语境,处理的很得心应手的,我们只能尽量完善自己,持续打磨。 对于某些学了点狗屁基础的,就拿着眼界里的理解来看待业务张嘴乱喷的,我想用“心理畸形”来形容,不是所有的东西都是绝对的,尤其是安全这件事儿上,以为引用了什么就会怎样,怎样,只是知道如果不做这些也许会导致出现某个结果,先别急着喷,闷头问问自己你真的会利用吗? 那再问问自己,是不是真的用了就万事大吉了吗? 如果还想张嘴闭嘴“不了解点背景就用个过来人身份调侃和口出狂言”,我不和你争,你是对的! 安全无绝对,过度的依赖所谓的经验和标准,就是最大的问题。 有没有用? 有点用! |
61
chendeshen 2018-04-22 20:15:25 +08:00
能有 rest api 接入吗
|