V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
soar0712
V2EX  ›  OpenAI

发现一个神奇的现象, gpt 貌似对于汉字个数相关的问题很迷茫?有人了解为啥会这样么

  •  
  •   soar0712 · 128 天前 · 1110 次点击
    这是一个创建于 128 天前的主题,其中的信息可能已经有所发展或是发生改变。

    事情的起因是我需要一个正好 12 个汉字的句子用来做测试,我就让 gpt 给我生成一个,要求句子通顺且没有逗号等间隔符号。结果 gpt3.5 死活生成不好,要么长度不对,要么给我加上了逗号或者顿号什么的。

    随来了兴趣,各种尝试,总是不行。没有试 4.0 ,不知道有没有改善。

    纯讨论,有人知道为啥会这样么

    img

    10 条回复    2024-07-12 07:47:09 +08:00
    soar0712
        1
    soar0712  
    OP
       128 天前
    不知道为啥我贴的图不显示
    opengps
        2
    opengps  
       128 天前   ❤️ 1
    这段需求让我想起了刘慈欣的小说《诗云》。诗歌级别的要求,可能还真不是现阶段 GPT 能推理到足够水平的
    linhongjun
        3
    linhongjun  
       128 天前
    免费账户不是有 gpt4 吗? 虽然每天有限额
    fulajickhz
        4
    fulajickhz  
       128 天前
    @soar0712 图片已经显示

    因为 AI 本质是词语接龙,不是计数器

    你可以试试换一种说法

    让他生成一个句子,然后提出你的要求,最后设计一种程序来检验生成的内容是否符合你的要求

    输出句子和程序以及验证结果
    InDom
        5
    InDom  
       128 天前
    好像是因为大模型不是逐字识别的,而是 token ,一个 token 可能不是一个汉字,对与大模型来说,可能并不能确定你发的原文到底是啥吧?
    InDom
        6
    InDom  
       128 天前
    Morriaty
        7
    Morriaty  
       128 天前
    应该是和 tokenizer 有关,有个不同模型的在线 tokenizer https://huggingface.co/spaces/Xenova/the-tokenizer-playground 你可以测试下
    soar0712
        8
    soar0712  
    OP
       128 天前
    ![]( )
    继续试了一下,很神奇,他觉得自己的句子有 15 个汉字,我让逐个打印并编号的时候 ,他打印到 15 个就自己截断了,没搞懂原理
    aiqinxuancai
        9
    aiqinxuancai  
       128 天前
    就是 tokenizer 算法的问题,里面根本没有汉字的分词和单字,GPT 的汉字基本上都是通过字节压缩生成的 token 。你看到的是汉字,他看到的是一串数值,而一些数值是有多个汉字压缩进去的。
    randychoi
        10
    randychoi  
       127 天前 via Android
    chatgpt 直接调用 Python 可以得出正确答案。
    加关键字“请用 python 计算”
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1131 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 40ms · UTC 18:49 · PVG 02:49 · LAX 10:49 · JFK 13:49
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.