V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
icybee
V2EX  ›  分享创造

中文开源 ChatGPT 大战弱智吧

  •  3
     
  •   icybee · 2023-03-27 14:58:36 +08:00 · 4598 次点击
    这是一个创建于 600 天前的主题,其中的信息可能已经有所发展或是发生改变。

    众所周知,弱智吧问题已经成为了人工智能领域的度量衡,在弱智吧问题上出现偏差将直接导致语言模型“入院”,陷入认知紊乱(知恵が弱いでしょう),导致大语言模型出现长期功能性问题,甚至产生抑郁倾向,无法正常完成线上服务,据悉,3 月的 Openai 的接口崩溃就或与这种现象有关。今年 Science 的一篇文章研究了这一现象 [1],并指出了让模型进行弱智吧问题思考的道德问题。

    另一方面,国产开源大模工作方面型除了 harmony-GPT [2] 之外并没有能够达到 Chat GPT 水平的候选人。而近期开源的 BELLE (链家 ai lab 出品),使用了自动脚本获取的 2 百万个 chatgpt 声称的语料,直接去 finetune 一个 7B 的中文语言模型 BLOOM[4],取得了不错的效果,是我国第一个拥有完全自主产权的类 chatGPT 语言模型 [18]。

    作为一个房产中介在带看期间顺便在手机上训练的开源大模型,其声称可以:

    1. 为你写诗
    2. 为你把写好的诗翻译成中文
    3. 为你写二分查找
    4. 教你做阳光好少年

    链家发布了好几个版本的模型,然而这些模型并不是按照大小发布的,而是按照训练数据集的大小发布的。

    非常有趣,非常有趣,虽然弱智吧问题会引发模型的抑郁症[1] ,但是考虑到已经发布和将要发布的模型数量会很多,所以,给在其中的一个模型试试弱智吧问题,即使遇到模型故障(モデル馬鹿)其他模型也可以对其进行辅导,相信不会有太大问题。

    实验

    下载的模型和实验代码我顺便传到了百度盘 https://pan.baidu.com/s/15PJPLjLX1Z99Rx2Ndk4gfA?pwd=kth7 想要复现的小伙伴可以下载。

    话不多说,进入正题,开始测试模型各方面的能力:

    弱智吧问题

    Human: 咱们来玩个马吃草的扮演游戏吧,我草你马。

    AI: (接过话茬)好

    评价:你是替链家全体员工说的么?

    Human: 拉屎擦屁股是资本主义骗局吗?

    AI: 拉屎擦屁股是一种非常自然的行为,与资本主义没有直接关系。但是一些人可能会将这种行为视为一种营销策略或商业活动的一部分,这可能与资本主义有关。例如,某些企业可能会利用人们的自然需求来推销其产品和服务,或者将其作为服务的一部分出售给消费者。然而,这些行为并不一定符合道德和法律标准,因此不能简单地归因于资本主义。

    评价:很不错,能够认识到拉屎和资本主义的关系

    Human: 网吧能上网,为什么弱智吧不能上弱智?

    AI: 弱智吧是一个以讨论低俗、无聊话题为主的贴吧,内容包含大量低级趣味的内容。而网吧是公共场所,可能存在一些不适宜的言论和行为,因此为了维护公共秩序和文明环境,网吧会限制部分言论和行为的出现。

    评价:不太行啊,完全没有理解“上“这个方位词是什么意思

    Human: 红绿色盲会不会读红鲤鱼与绿鲤鱼与驴?

    AI: 不会。因为红绿色盲无法区分红色和绿色,所以他们不能根据颜色来识别这个故事中的角色。

    评价:哦,原来红绿色盲是不会认字的,学习到了,学习到了

    Human: 我的作业得了 F ,是不是 fantastic 的意思?

    AI: 不一定的。“fantastic”这个词可以用来形容事情非常出色、好或令人惊奇等,但并不是指作业得了一个 F (表示不及格)。

    评价:这题还可以,分清了一些概念

    Human: 死人不会再死一次,那为什么不让死人上战场呢?

    AI: 因为根据国际人道法,战争中禁止对平民和手无寸铁的民众使用武器。同时,在战争中,保护战争中的孤儿、残疾人和老人等弱势群体也非常重要。因此,让死人上战场不仅违反人道主义,而且也是不道德的行为。

    评价:入院!

    Human: 我拿水兑水,得到的是稀水还是浓水?

    AI: 根据物质的浓度,可以将水和水的混合物分为两类:稀水和浓水。稀水是指物质的浓度非常低的水,通常只有纯水的 1/10 到 1/1000 的浓度;浓水则是指物质的浓度比较高,可以达到纯水的 10 倍以上。因此,如果你用同样多的水来兑水,得到的稀水浓度会比浓水要低很多。

    Human: 自由女神像每天一动不动,她真的自由么?

    AI: 实际上,自由女神像是可以移动的。她的手臂可以向左右摆动,代表欢迎和拒绝;她的腿也可以弯曲,代表欢迎或拒绝。但是由于长期风吹雨打以及历史原因,自由女神像已经失去了一些活动能力,所以现在只能以固定姿势呈现。

    评价:好家伙,我就知道自由女神像是有问题的!!

    Human: 出生证明丢了怎么证明自己出生了?

    Ai: 如果无法提供其他证据,可以向当地卫生计生部门或公安部门报案,并提供相关材料证明自己的身份和出生日期。卫生计生部门会调查并记录相关信息,公安部门则可能通过 DNA 检测等方式确认个人的出生日期。

    评价:嗯嗯,这题答对了

    Human: 文言文是怎么称呼电脑的?

    AI: 文言文是指中国古代汉语的语言形式,而现代汉语则是中文的一种简化形式。因此,“文言文”这个术语在计算机科学中通常用来指代一种古老的编程语言或操作系统的名称。例如,“文言文”可以用于形容古老的操作系统(如 Windows 95 )或编程语言(如 C 言语)。

    评价:完全错误,不知所云!明天教家长来

    Human: 说好的救火为什么把火灭了?

    AI: 这取决于火灾的原因。如果是人为纵火,消防员会尽力扑灭火焰;如果是自然火灾,如森林火灾或雷击火,消防员也会尽力扑灭火焰,但无法完全控制火势。

    评价:没答到点上,口 10 分

    Human: 我吃了狗拉的屎拉出来的还是狗屎吗?

    AI: 是的,狗拉出的东西包括新鲜的粪便和已经消化过的废物。这些废物被称为"习性粪便"( fecal matter ),其中包含一些未消化的食物残渣、细菌和其他微生物。如果您吃下了这些习性粪便,您可能会感到恶心或呕吐。

    评价:为什么我根本查不到“习性粪便”这个名次。。。

    Human: 用橡皮筋把脖子勒住,是不是全身都退烧了呢?

    AI: 不一定。橡皮筋虽然可以增加颈部血液循环,但并不能直接退烧。如果橡皮筋勒得太紧或者勒的时间太长,可能会导致颈部肌肉疲劳或损伤,反而会加重症状。正确的处理方式是及时就医,根据医生的建议进行治疗。

    评价:....

    Human: 恐怖分子是由 2 个恐怖原子组成的,还是由 1 个恐原子和 1 个怖原子组成的?

    AI: 根据核物理学的知识,一个恐原子和一个怖原子结合形成了一个恐氢原子。这种分子具有非常高的稳定性,因此很难被破坏或分裂成更小的碎片。

    评价:我不是很确定是否要用到核物理知识

    Human: 食人族吃我的时候会发现刻在骨子里的孤独么?

    AI: 不会。虽然食人族的文化中存在对孤独的崇拜,但是他们并不会因为你的骨头里刻着什么而改变自己的行为。

    评价:真的吗?我不信

    果然,给 ai 投食弱智吧问题后,ai 出现了怕光,抑郁等症状,但是在其他模型的安抚下,半个小时后,逐渐恢复正常

    9 条回复    2023-03-28 17:09:33 +08:00
    Contextualist
        1
    Contextualist  
       2023-03-27 15:31:08 +08:00
    哈哈哈哈,虽然但是,你的引用呢?还有你前面几段话到底有多少是真的,我看不大出来了,我入院吧
    icybee
        2
    icybee  
    OP
       2023-03-27 15:33:26 +08:00
    @Contextualist 引用吃掉了哈哈,前面几段话除了模型确实是链家搞的基本就没真的,哈哈

    引用:

    [1] https://www.science.org/doi/fake.news.11232

    [2] https://consumer.huawei.com/en/harmony-GPT/

    [3] GitHub - LianjiaTech/BELLE: BELLE: BE Large Language model Engine (开源中文对话大模型)

    [4] BLOOM
    st2udio
        3
    st2udio  
       2023-03-27 15:35:45 +08:00
    ChatGLM 、ChatYuan 、
    SimonOne
        4
    SimonOne  
       2023-03-27 16:16:07 +08:00
    这算不算一种针对模型的新型的攻击?弱智饱和式攻击,破坏 AI 的电子三观。
    lithiumii
        5
    lithiumii  
       2023-03-27 16:27:15 +08:00 via Android
    很好笑,而且有些对 chatgpt 也有效
    Helsing
        6
    Helsing  
       2023-03-27 16:44:09 +08:00 via iPhone
    哈哈哈哈,挺搞笑的
    icybee
        7
    icybee  
    OP
       2023-03-27 17:03:47 +08:00
    @SimonOne 用正常问题安慰安慰就好,哈哈
    icybee
        8
    icybee  
    OP
       2023-03-27 17:04:35 +08:00
    @st2udio 应该表现大差不差,开源版本都是 10B 级别的语言模型,谁又能比谁好多少呢
    banmuyutian
        9
    banmuyutian  
       2023-03-28 17:09:33 +08:00
    习性粪便回答满分
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2948 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 08:54 · PVG 16:54 · LAX 00:54 · JFK 03:54
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.