1
hatcloud 2018-04-17 15:20:18 +08:00
拼音的结构型非常强,比如 BeiJing 必然是 B(声母) ei(韵母) J(声母) ing(韵母) 这样的,而声母和韵母都是有限的集合,是不是可以通过先匹配是否有复数个这样的 声母 - 韵母 对来判断英文文章里面的拼音呢?
仅提供思路,没细想过 |
2
goreliu 2018-04-17 15:28:58 +08:00
可以把所有单字的拼音打个表(网上很容易找到),然后依次匹配,能匹配上超过两个连续单字拼音的单词就算拼音词,需要注意一些特殊情况(比如儿化音 r 之类)。
|
3
Sylv 2018-04-17 15:30:58 +08:00 via iPhone
好奇想问下筛选出这些拼音的目的是什么?
|
4
murmur 2018-04-17 15:33:03 +08:00
这叫命名实体识别 应该是很老的研究方向了 英文应该只会比中文更简单
|
5
fgodt 2018-04-17 15:35:36 +08:00 1
使用常用英文单词就能筛选出大致结果了,然后再精细筛选
|
6
hsuan 2018-04-17 15:37:58 +08:00 via Android
声母韵母的组合不就那么些,如果一个单词可以完全拆解成声母韵母组合,那它就是拼音,当然肯定有误判的。
|
8
WildCat 2018-04-17 15:52:10 +08:00 3
|
9
noNOno 2018-04-17 20:04:20 +08:00
一个简单的方法,将英文词典作为一个词典表,在文章中进行匹配
非匹配的部分就是拼音. 这样通过匹配词典的方法筛选出拼音. |
10
congeec 2018-04-17 21:43:16 +08:00 via iPhone
用英文拼写检查,拼音肯定是错的。这不就过滤出来了
|
12
congeec 2018-04-17 23:31:40 +08:00 via iPhone
|
14
Lanceliel 2018-04-18 09:34:50 +08:00 via Android
这个需求所在的工作流程中,是否允许对自动筛选所得的初步结果进行人工审核以修正结果集?
如果要求自动输出高正确率的专有名词列表,这就是个不折不扣的 NLP 问题,请参考 4 楼和 8 楼的回答。 如果工作流&&工作量允许人肉检查,那么实际只需要为人类核查员标示“可能是拼音的词”,有个无需依赖外部库的办法:现行汉语拼音方案中单个字可能出现的拼音组合大约是四百个,逐词匹配是否含且仅含以上组合(以及分字符)。如果原文中含有威妥玛 /耶鲁等其他拼音方案的话这个列表还会更长一点。 至于为什么这种基于拼写匹配的结果必须人工审核……请看以下例子: The most straightforward method for a crimp to shanghai a sailor was to render him unconscious, forge his signature on the ship's articles, and pick up his "blood money." 根据上下文可以判断,这段话中的 shanghai 是一个英语动词,而非地名“上海”。 |