1
jadec0der 2017-09-29 17:50:38 +08:00
|
2
ipconfiger 2017-09-29 17:54:20 +08:00 2
简单点的可以用结巴分词来实现, 先分词, 然后区分词性, 针对地址这类你可以先用全国行政单位数据库来构建一个结巴的词库, 姓名也是, 电话号码什么的最容易识别, 可以单独提前提取出来
|
3
movistar 2017-09-29 17:59:07 +08:00
不需要通过分词解决这种问题
实际上这是一个可穷举的场景 省市县乡街道数据都是现成的,直接穷举即可,从高到低的范围依次向下匹配 |
4
QAPTEAWH 2017-09-29 18:11:55 +08:00 1
也可能是请了很多初中生...
|
5
v9ex OP @ipconfiger 谢谢,去研究下
@jadec0der 大方向? @movistar 但是省市区实际上相互中间都有重名的,比如广东省,排除省这个字,还有市区里面也有广东字样的 @QAPTEAWH 请教下初中生的费用 /条 |
6
v9ex OP @ipconfiger 非常感谢,已经解决
|
7
govtoex 2017-09-29 18:25:53 +08:00 via Android
为啥我首先想到的是正则...
|
8
kdwycz 2017-09-29 18:34:42 +08:00
还有个思路是调用地图的 API,搜索结果就是格式化的数据
|
9
kdwycz 2017-09-29 18:35:47 +08:00
名字电话的话= = 电话很好识别出来,名字一般和电话离得很近。。。吧(粗略思路)
|
10
takato 2017-09-29 19:25:27 +08:00
深度学习兴起以后的 NLP,大致上可以认为,词性分析其实是一个降低准确率的行为。。。
现在的姿势都是如下的: 给字编 ID,变成字典 将一句话变成一串数字放进模型,指定好每一组数据正确的结果 训练 然后对输入的数据做预测就可以了,相对来说还会比不分词的准确率高一些。 |
11
virusdefender 2017-09-29 20:08:01 +08:00
其实是有个人在后台帮你拆分开的
|
12
jadec0der 2017-09-29 23:18:03 +08:00
如果是人工做的话差不多一毛一条吧,不过响应时间只能做到秒级了 →_→
|
13
kevinzhwl 2017-09-30 01:20:40 +08:00 via iPhone
@v9ex 这个穷举应该是有一定条件限制的,比如第一个是省级行政单位,最多是地级市,而且你输入的地址分段的个数已经暗示了第一个是省级,然后后面的会在这个限制下继续查找,也就可以大部分排除了重名的情况
|
15
lixile 2017-09-30 09:39:29 +08:00
我来吐槽一下 之前咸鱼上的发货信息复制出来是带 收件人:XXX 的
结果 居然不能识别出收件人是谁 我表示 差评! |
16
kevinzhwl 2017-10-01 10:47:40 +08:00
@v9ex 单纯看 3 级是有重名的,但基于 1,2 级的 3 级是没有的。地址库 /表一般都是树形结构存放,有分级、上下关系等内容的
|
19
kaiser1992 2018-11-01 15:04:22 +08:00
有能把方案详细阐述一下的吗
|
20
eijnix 2018-11-24 17:43:56 +08:00
能说下最后是怎么做的么?
|
21
kaiser1992 2018-11-27 10:39:56 +08:00
挖个坟,求大佬翻牌
|
22
v9ex OP @kaiser1992 github 搜索结巴分词即可
|
23
kaiser1992 2018-11-27 15:45:43 +08:00
@v9ex 好的,谢谢,我再想想
|
24
izoabr 2019-09-03 12:31:14 +08:00
去 gayhub 上找了一下,发现这个的效果还不错。
https://github.com/wzc570738205/smart_parse |