这是一个创建于 4490 天前的主题,其中的信息可能已经有所发展或是发生改变。
一些背景信息:
-500w的文本数据(字母、数字,汉字,特殊符号);
-每条文本数据格式较固定,例「*张小明*18800008877*深圳*」;
-「*」可能包含和手机号位数一样的数字;
-「姓名」里面的字也有可能和「城市」名字重合;
3 条回复 • 1970-01-01 08:00:00 +08:00
 |
|
1
gamexg 2013 年 11 月 1 日
条之间的分隔呢? 如果有的话,正则应该能提取出来。 姓名里面不会含有数字;手机号码有一定的位数,开头也是固定的。
|
 |
|
3
slixurd 2013 年 11 月 2 日
500w条不自己写个c++小程序来跑?python什么的也行.. awk如果会用更好,直接写bash
|