作者:宋彤彤
自然语言处理( NLP )是人工智能中很重要且具有挑战性的方向,而自然语言处理的第一步就是分词,分词的效果直接决定和影响后续工作的效率。我们生活和工作中每天都产生着大量的中文数据,由于中文和英文在词句方面有很大的不同,比如英文单词之间以空格作为自然分界符,而中文只是字、句和段能通过明显的分界符来简单划界,“词”和“词组”边界模糊,中文分词相对复杂和困难。所以我们来讨论一下中文分词( Chinese Word Segmentation,CWS )。
中文分词指的是讲一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。现有的分词方法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
基于统计的分词方法建立在已有的大量已分词文本,即语料库的基础上。为了做出实用的分词工具,不光需要高效的算法,大规模语料库也必不可少。对于缺乏经费的研究团队和个人,往往只能得到 sighan2005 等屈指可数的几个小型语料库。而且这些语料库的标注规范还互不兼容,无法混合起来训练。
已经有团队开始研究如何利用多方语料库来联合学习中文分词,比如 Chen 等人 2017 年精心设计的对抗神经网络,针对每个语料库提取分词标准相关或无关的特征,但表现不理想。再就是接下来要介绍的 Han He 等人 2018 年提出的方案:受谷歌多语种翻译系统启发,利用工程思想,用标签标识不同标准的数据集,这样就可以识别出自哪个标准的数据集,通过不同语料库之间的迁移学习提升模型的性能,同时输出多标准的分词结果。
训练用到的模型是大家熟悉的 Bi-LSTM + CRF。在具体联合训练中将引入的两个人工标识符视作普通字符,不必人工区分句子的来源。这两个人工标识符会提示 RNN 这个句子属于哪种分词标准,使其为每个字符生成的 contexual representation 都受到该分词标准的影响。
测试的时候,这两个人工标识符起到指定所需分词标准的作用,但并不计入准确率的计算。
论文在标准的 sighan2005 和 sighan2008 上做了实验,没有针对性调参的情况下依然取得了更高的成绩(当时设备条件限制,所有数据集上都用了同一套超参数)。所有分值都通过了官方评测脚本的验算。下图的 baseline 是在各个语料库上单独训练的结果,+naive 是合并预料却不加标识符的结果,+multi 是论文中联合训练方案的结果。
该试验使用的特征是极小的,仅仅是字符和 bigram。如果像最近流行的做法加入 12 个 nagram、词典特征( word embedding ),可能还会有进一步提升。但论文中心是一个简单的多标准分词方案,主打精简高效,并非追求高分胜过效率,所以没有采用这些特征工程的手段。在 sighan2008 上的实验及结果在这里不在赘述。
这是一种简单的多标注中文分词解决方案,可以在不增加模型复杂度的情况下联合多个语料库训练单个模型。该方案虽然简单,但的确带来了显著的性能提升(特别是对于小数据集如 WTB )。但特别大的数据集收益很小或无法受益(如 MSR ),留作未来研究。这里我们提供该文章的项目地址和一些参考资料,感兴趣的同学可以进一步探索。
项目地址:https://momodel.cn/workspace/5dc9114b269cf99a59565610?type=app
**
博客:http://www.hankcs.com/nlp/segment/multi-criteria-cws.html#respond
博客:https://www.cnblogs.com/shona/p/11540353.html
博客:http://www.360doc.com/content/19/0305/12/99071_819341146.shtml
博客:https://blog.csdn.net/qq_26598445/article/details/81298456
论文:Effective Neural Solution for Multi-Criteria Word Segmentation, 2018,https://arxiv.org/abs/1712.02856
Mo(网址:https://momodel.cn)是一个支持 Python 的人工智能在线建模平台,能帮助你快速开发、训练并部署模型。
Mo 人工智能俱乐部 是由人工智能在线建模平台(网址: https://momodel.cn )的研发与产品团队发起、致力于降低人工智能开发与使用门槛的俱乐部。团队具备大数据处理分析、可视化与数据建模经验,已承担多领域智能项目,具备从底层到前端的全线设计开发能力。主要研究方向为大数据管理分析与人工智能技术,并以此来促进数据驱动的科学研究。
目前团队每两周(周六)在杭州举办线下沙龙,进行机器学习相关论文分享与学术交流。希望能汇聚来自各行各业对人工智能感兴趣的朋友,不断交流共同成长,推动人工智能民主化、应用普及化。