如题,用的白霜词库,已经快一年了。虽然一直在用,以前就遇到过这些问题但还能忍受,不过最近经常要写一些东西,这方面的困扰明显严重了很多。
比如下面这些句子:
渐渐地就不在意了: (「不/在意/了」被理解成了「不再/一乐」)
以前就会这样: (「以前/就会」被理解成了「一千九/会」)
不管怎么使劲都不行: (「不管怎么/使劲/都/不行」 => 「不管怎么/是/筋斗/不行」)
无论如何你都不可能再离开这里了: (「离开/这里/了」 => 「离开/这/离了」)
还有一些可能有些强求的例子,因为即使是别的输入法也可能处理不好。
这不是你该管的事情:
这种方法会更加有用: 之所以会出现「游泳」这个搭配可能跟我之前有一阵子经常打「游泳」有关,但是我觉得连词性都判断不出来也不太正常吧……
想问问大家有没有什么好的解决办法?
1
noisay 3 天前
同感,这个好像几个词库的效果都不是很好
|
2
omz 3 天前 via iPhone
你之所以用不联网的输入法,不就是因为你能接受这些缺陷吗
|
3
yukino 3 天前
我选择 [小企鹅输入法]( https://github.com/fcitx-contrib/fcitx5-macos/tree/master)
![不管怎么使劲都不行]( https://s2.loli.net/2024/12/15/7eyh8NEkpxuGn3a.png) |
5
NoOneNoBody 3 天前
好像并没有分词,只是匹配越长优先级越高而已
我这里(养了多年)可以打出“不在意了”,因为词库中有“不在意” |
6
billlee 3 天前 1
RIME 没有语言模型,根本没有分词的能力
|
7
docx 3 天前 via iPhone
个人觉得词库从自己用了多年的搜狗之类导出,再适应一段时间,就很可以了。大可不必去用什么所谓的三方库。
|
8
TrembleBeforeMe 3 天前
试试带语言模型的万象拼音 https://github.com/amzxyz/rime_wanxiang_pro
|
9
kimizen 3 天前 2
你挂个云输入法就好了 https://github.com/hchunhui/librime-cloud
|
10
kimizen 3 天前
@TrembleBeforeMe 这个和雾凇比起来如何?
|
11
sinzhishuibie 3 天前 via Android
用全拼打长句有点给自己找麻烦,我自己打字习惯都是两三个字一打两三个字一打,不管用什么输入法都这样打字
|
12
jiaoyidongxi 3 天前
搭车问一下,我在 windows 上的每夜版小狼毫,每次更改配置文件后,手动重启完全没反应,只有重新进入 gui 设置界面,换一下自带默认皮肤才会自己重启生效配置。各位有碰到这种情况吗?
|
13
Irilsy OP @TrembleBeforeMe #8
@kimizen #9 感谢两位老哥的推荐,我去尝试一下。 @docx #7 谢谢哥提醒,突然想到可以把之前用了很久的搜狗个人词库导入进 Rime 。 @sinzhishuibie #11 只打短语不打句子确实会好一点,但是有时候即使打短语也会有类似的问题(因为即便只有一两个词也可能出现分词错误),而且 Rime 似乎是存在根据词语搭配来调频的策略,打句子都一些时候比打短语会更方便。 @NoOneNoBody #5 我的词库里面也有「不在意」这个词,不过还是会有问题,感觉可能还是「不再」这个词频太高了。 |
14
TrembleBeforeMe 2 天前 4
@kimizen #9 https://github.com/amzxyz/RIME-LMDG 下载模型,把 https://github.com/amzxyz/RIME-LMDG/wiki/%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E5%8F%82%E6%95%B0%E9%85%8D%E7%BD%AE%E8%AF%B4%E6%98%8E 里面第一行的代码加入使用的*.schema.yml 结尾就行了。
|
15
TrembleBeforeMe 2 天前
![1.webp]( https://p.sda1.dev/20/bdbf9bbcdcdde62b0ca2f028e7cc971e/1.webp)
![2.webp]( https://p.sda1.dev/20/7793862a47af23c9c149dfc37d3c45fe/2.webp) ![3.webp]( https://p.sda1.dev/20/891faeb694c26acf4885c68dc650b1cc/3.webp) ![4.webp]( https://p.sda1.dev/20/fd570045406dedd406a42bfa5b4e506a/4.webp) rime-frost 加语言模型后的效果 |
16
kimizen 2 天前
@TrembleBeforeMe 如果想加入到覆写里怎么改格式呢?不想直接改动原本的方案,我都用的 custom.yaml
|
17
TrembleBeforeMe 2 天前
@kimizen #14 那就按 patch 格式加到*.schema.custom.yaml 里
|
18
kimizen 2 天前
@TrembleBeforeMe 的确,连空格都不用修改直接都 custom 里都可以……现在长句子都非常智能完全不用调整词频……
|
19
Irilsy OP @TrembleBeforeMe #14 谢谢大佬,这个太强了,我试了很多容易分词错误的或者搭配错误的句子,有一大半加了模型之后表现都好了很多。
而且感觉 100M 的模型和 300M 的模型之间有用差距,比如「能约上吗」在 100M 会被误解析成「能月上马」,300M 就不会有这个问题。 不过感觉模型会受到用户词库词频的干扰,比如我刚刚打了个「上马」,现在不管用哪个模型都会被解析成「(月/约)得上马」了。 |
20
TrembleBeforeMe 2 天前
@Irilsy #17 我先试着打了「能约上吗」,确实首位候选是「能月上马」;但是当我单独打了一次「约上」之后,100M 的模型首位候选也变成了「能约上吗」。如果电脑性能不错,用 300M 也许更好吧,但 100M 对于日用已经足够了。
|
21
yumenaka 2 天前
非常好用。只要不是很罕有的句子,都能很容易地匹配到。
|
22
Volekingsg 1 天前 via iPhone
请教下启动了 grammar 也没有那个正无穷符号,这个是咋开的
|
23
Irilsy OP @Volekingsg 那个正无穷符号不是语言模型的,是白霜词库( rime-frost )自带的,正无穷符号表示不是挂载的词库和个人词库中的词,而是根据已有词库拼接的;还有星号表示是个人词库中的词(就是之前打过的),没有符号表示是挂载词库中的。参见 https://github.com/gaboolic/rime-frost/issues/12
|
24
GabrielS 1 天前
1 渐渐地就不在意了
渐渐的 就不再 一乐 是因为词库里有“就不再”,这种可以考虑后续删掉 2 以前就会这样 一千九 会这样 这个无解 rime 会把你的输入分割尽量短。如果打”以前就会“是没有问题的, 以前+就会的词频大于一千九+会的词频。但是”以前 就会 这样“ 会分割成 3 段,"一千九 会这样”只有两段。 即使 "以前 + 就会 + 这样"的词频大于"一千九 会这样“的词频也不行,rime 有限分割成 2 段。 3 不管怎么使劲都不行 这个是正常的,可能是你的用户词频影响了。 4 无论如何你都不可能再离开这里了 这个是正常的,可能是你的用户词频影响了。 5 这不是你该管的事情 这不是你改观的事情 这是因为”改观“的词频大于”该管“,除非上语言模型 不然无解 6 这种方法会更加有用 这个是正常的,可能是你的用户词频影响了。 如果你写东西多,其实可以关闭用户词库。或者试试双拼加形,墨奇音形,也是白霜作者做的 |
25
kimizen 51 分钟前
用了好几天
反馈一下,万象大模型配合云输入纠错,完全可以和那些在线输入法掰手腕了…… |