V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
lambdaq
V2EX  ›  OpenAI

gpt-3 通过区区 30w 篇文章就掌握了汉语。。。。

  •  
  •   lambdaq · 2023-02-20 17:42:28 +08:00 · 3216 次点击
    这是一个创建于 635 天前的主题,其中的信息可能已经有所发展或是发生改变。

    https://github.com/openai/gpt-3/tree/master/dataset_statistics

    类别 语言 数量 比例
    文章数量 en 235987420 93.68882%
    文章数量 zh 292976 0.11631%
    字数 en 1051665177484 92.09864%
    字数 zh 1828425488 0.16012%
    词数 en 181014683608 92.64708%
    词数 zh 193517396 0.09905%
    4 条回复    2023-02-20 23:50:24 +08:00
    vektor
        1
    vektor  
       2023-02-20 19:59:26 +08:00   ❤️ 4
    https://raw.githubusercontent.com/openai/gpt-3/master/175b_samples.jsonl
    搜样本中的中文有惊喜,简中互联网的含金量
    yuhuan66666
        2
    yuhuan66666  
       2023-02-20 23:11:35 +08:00
    @vektor #1 你说的是 搜了个 “美”字 第三个 嗯 低俗广告 😂
    lambdaq
        3
    lambdaq  
    OP
       2023-02-20 23:46:49 +08:00
    @yuhuan66666 蚌埠住了。23333
    lambdaq
        4
    lambdaq  
    OP
       2023-02-20 23:50:24 +08:00
    https://twitter.com/janleike/status/1625207251630960640

    openai 的人也不明白为啥英语学会了,其他语言就一通百通。。。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2919 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 14:27 · PVG 22:27 · LAX 06:27 · JFK 09:27
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.