正在做的,对文章标题分析,提取关键字,但关键字肯定是已经在标题中存在的,设想自行维护一个列表,可以自由扩充,但仍需要人工参与,与其这样,还不如人工提取关键字。
进而想到神经网络这高深的科技,是否有解决类似问题的可能? 个人经验有限,或许有更好的技术解决类似问题,请赐教。
1
theFool 2016-05-28 23:39:17 +08:00
tf-idf ?
|
2
hunk OP @theFool 忘记说了,测试过用结巴分词,其中有 TF-IDF 和 TextRank 取关键字, TextRank 效果比较好,在添加了用户字典后,对 TextRank 无任何影响,倒是 TF-IDF 不错。
但问题很明显,仅仅是在分析的文本中抽取关键字。 我想实现的是这样,提到“监控”这名词,能联想到“摄像头,光纤,交换机”等一系列相关词组,人工定义也可以,只是工作量不小。 |
5
pimin 2016-05-28 23:53:01 +08:00 via Android 4
用高射炮打蚊子是否可行?
我觉得是成本和操作上都把简单的问题复杂化了。 我给楼主提个思路: 提取关键词之后,访问关键词的 wikipedia , Google 搜索前 20 条内容进行关键词放大提取。 |
6
spider82 2016-05-28 23:57:05 +08:00
不懂,不知道是不是和专家系统或问答社区关联相似问题用的技术类似。
|
7
alexapollo 2016-05-29 00:19:49 +08:00
word2vec 直接就可以解决这个问题
|
8
hunk OP @alexapollo 谢谢,正在看。
|
9
h4x3rotab 2016-05-29 02:33:23 +08:00 via iPhone
@alexapollo 请假 w2v 如何解决这个问题
|
10
binux 2016-05-29 04:26:26 +08:00
1. 需求不明确,「监控」联想到「摄像头,光纤,交换机」和关键字抽取有什么关系?联想是联想,抽取是抽取。
2. 你有训练数据吗? |
12
srlp 2016-05-29 16:56:35 +08:00 via iPhone
哈哈, word2vec
|
13
hunk OP 继续请教 word2vec 用法。
我想将文章的标题和内容作为学习的字典, gensim 示例中字典是 list 格式,我将一篇文章标题和内容的分词放在 list ,是否增加其相关性? c 版本似乎是采用 tab 和空格分隔,是否也存在换行的问题? |
15
hunk OP @h4x3rotab 不分词不能用,分词了关联性小,是这意思不?
那该如何用呢,原以为,在同一行能让 w2v 认为关联性更高呢。 |
16
h4x3rotab 2016-05-30 21:16:34 +08:00 via iPhone
@hunk w2v 是要先把文章分词,然后把所有词都交给它,他会给每个词训练出一个向量表示,而且相似的词的向量会相似。所谓相似的词,其实是指一对词,他们所出现的上下文相似。所谓向量相似,就是说它们的夹角小,或者欧式距离小。所以说,如果你还没认出这个词,就没法分词,也就没法去算相似度了。
|