V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
whitewatercn
V2EX  ›  分享创造

将任意书籍转换为 rime 词库

  •  
  •   whitewatercn · 1 天前 · 698 次点击

    前情提要

    半年多前主包开始构建 rime_clinic 医学输入法词库项目,将能找到词库全部改成 rime 格式以后,发现一个大问题:

    中医常用的术语并没有人做!

    于是主包又开始开发rimetool 工具包,方便医学生将任意中医图书转换成输入法词库(当然,你也可以用于转换其他内容,不止是中医图书)

    正式介绍

    rimetool 支持 pip 安装,可以将任意长的书籍、论文、文章、句子等转换成 rime 可以使用的词库

    你可以直接使用命令行操作,比如

    rimetool --t txt -i something.txt 
    

    就可以得到四个词库,任选你需要的版本使用即可

    • word 词语
    • short 短句
    • long 长句
    • Full 上三个合并

    另外也可以部署 web gui ,方便不习惯命令行的用户使用

    rimetool web
    

    目前 web gui 已经部署,你可以试试看 https://rimetool.beginner.center/

    更详细的 文字/视频版 使用教程 https://forum.beginner.center/t/topic/2160

    The End

    通过这个项目结识了很多朋友,得到了很多鼓励,学到了很多新知识,接下来会继续完善相关功能,敬请期待

    也欢迎各位大佬 pr 、催更

    Status board · rimetool todo

    4 条回复    2025-09-09 23:34:09 +08:00
    zpvip
        1
    zpvip  
       1 天前   ❤️ 3
    别助力中医了, 让它慢慢地和辫子, 裹脚布一起消失吧.
    omph
        2
    omph  
       1 天前   ❤️ 1
    多谢分享,用的 jieba 分词啊,确实专业词汇还得自己动手
    请忽略某些不礼貌的楼层,平和平静平等
    whitewatercn
        3
    whitewatercn  
    OP
       1 天前 via iPhone
    @omph 目前的思路:
    先用 jieba 分词,之后使用 nlp 分,再往后会基于用户提交的数据结合 jieba 和 nlp 分词(大家打字的时候怎么分词,就怎么构建分词库)
    whitewatercn
        4
    whitewatercn  
    OP
       1 天前 via iPhone
    @omph 感谢支持😘
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1302 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 17:15 · PVG 01:15 · LAX 10:15 · JFK 13:15
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.