V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
Bumon
V2EX  ›  程序员

有什么敏感词数据源推荐吗

  •  
  •   Bumon ·
    bumony · 207 天前 · 1918 次点击
    这是一个创建于 207 天前的主题,其中的信息可能已经有所发展或是发生改变。

    或者有什么好的获取敏感词的方法,想了个爬取海量评论做语义初筛再标注,但感觉不太优雅,不知道 v 友们有没有更好的想法带来点启发

    12 条回复    2024-06-18 10:17:06 +08:00
    Hayashikawa
        1
    Hayashikawa  
       207 天前
    freshgoose
        2
    freshgoose  
       207 天前
    github 上有人收集了很多
    shiluanzzz
        3
    shiluanzzz  
       207 天前
    p 主没明确说敏感词是哪些 zz ?还是通用的
    https://platform.openai.com/docs/guides/moderation/overview openai 的这个过滤的 api 可以试试?
    vivisidea
        4
    vivisidea  
       207 天前
    现在已经不流行用敏感词了,直接上 NLP 模型分类,bert 啥的
    user23125
        5
    user23125  
       207 天前
    国新办清查词单?
    qviqvi
        6
    qviqvi  
       207 天前
    最好国家出一个标准,不然不好处理
    wangjh0802
        7
    wangjh0802  
       206 天前
    @qviqvi 这东西还能有标准? 哈哈哈哈哈哈哈哈哈
    duzhuo
        8
    duzhuo  
       206 天前
    @qviqvi 这就好像在说把你的 G 点告诉我。。。。
    maladaxia
        9
    maladaxia  
       206 天前
    @duzhuo 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7
    azarasi
        10
    azarasi  
       206 天前
    什么是敏感词本身就是敏感的
    ray2023
        11
    ray2023  
       206 天前
    https://github.com/cjh0613/tencent-sensitive-words, 之前有个项目用的这个, 但是还是需要自己去维护一下, 因为有些词并不符合自己的规则
    Bumon
        12
    Bumon  
    OP
       193 天前
    @shiluanzzz 政治类的能很容易得到,但歧视类等比较容易模糊词意但又会有的就有点难获取到,谢谢你的链接

    @Hayashikawa 这种算是第三方服务了,我这边有需求是自己维护一份来着

    @freshgoose yesyes ,有在交友网找到一些公开的词库,在 v 发帖也是想看看有没有更丰富的源
    @vivisidea 哥们说的这个也有在做,但就,还是需要维护一份词库 hhh
    @qviqvi 国家确实也有标准,但是标准只有分类没有内容,具体内容还得自己维护
    @ray2023 谢谢老哥的分享

    谢谢各位 v 友的分享!
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1614 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 16:50 · PVG 00:50 · LAX 08:50 · JFK 11:50
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.