自然语言处理，分词问题

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2205 天前的主题，其中的信息可能已经有所发展或是发生改变。

今天在 GDD 听了 tf.text 主题演讲，演讲者在 demo 中使用 Unicode 分字，把中文句子分成单字。

而我和同事在过去多用词典法分词。

想要讨论下分字和词典法分词两个效果有什么差异，结果一直没能堵到演讲者 😂。

不知道各位在应用过程中有没有对这方面做过评估。

分词

演讲者

词典

GDD

6 条回复 • 2020-10-21 12:48:41 +08:00

chinvo

2019-09-11 16:06:18 +08:00 via iPhone

🤪

shikimoon

2019-09-11 16:28:07 +08:00

bert 一把梭

chinvo

2019-09-11 17:19:07 +08:00 via iPhone

@shikimoon #2 问题就在于 bert 预处理用的是 Unicode 分字，就比较想了解分字和分词对最终结果有啥不同影响

capo

2019-09-11 23:58:10 +08:00

场景模型的不同都会使分词方式有不同的效果试一试就知道了

shikimoon

2019-09-12 10:52:44 +08:00

@chinvo 哈工大有篇 paper 是用分词的，不同 task 相比分字效果不同

shm7

2020-10-21 12:48:41 +08:00

这问题过去有一年了，也许 lz 已经变成一个入门选手。入门选手都是知道怎么操作的了。分词不分词，看什么场景，比如你做 textrank，不分词就不能用。如果是用于深度学习的输入，又分使用场景；比如分类，可分可不分，分了一般效果略好；再比如做实体序列标注，你要是分了，加入分词边界和实体边界不贴合你咋整？只要做过几个简单任务，有点思考，这些根本不会有。没做过的，纯粹看着玩。我觉得没比较了解这个问题。