1
neosfung 2019-02-01 17:02:54 +08:00 1
|
2
Sanko 2019-02-01 17:05:30 +08:00 via Android
jieba
|
4
neptuno 2019-02-01 17:38:21 +08:00
分句?标点符号,换行符分一分?感觉这种东西自己写写比较好,重点是分词吧
|
5
inhzus 2019-02-01 17:41:33 +08:00 1
正好可能以后用到, 稍微写了写
使用的第三方库 [HanLP]( https://github.com/hankcs/HanLP) 代码: https://gist.github.com/imagecser/ea03d286838fb9afe7e20fba46c4ecd2 结果: 如果非要用 python 的话, 参考一下 pyhanlp 就好了 |
6
a41050447 OP @neptuno 主要是要考虑各种规则,括号,引号,双标点,小数点,url 这些,还可能是中英混合的文档,造轮子太废时,
|
8
yuikns 2019-02-02 07:24:03 +08:00
|