尝试了讯飞的星火大模型后的感受分享~ - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 555 天前的主题，其中的信息可能已经有所发展或是发生改变。

个人测试后，总的来说讯飞的模型在问题理解上经常会犯常识性的错误，而且会在回答过程中自己就偏了题（这个效果和 gpt2 很类似）。此外，讯飞的回答总是十分宽泛，有一种说了也是白说的感 jio~

星火似乎对某些常问的问题提前设定好了，举个例子问它一棵树上有 10 只鸟打死一只还有几只它能答的不错，而把 10 换成 114514 就开始胡言乱语了。

说实话，试用了几次星火大模型后已经没了兴趣。ta 的能力偏弱，也没有文生图之类的附加能力。。给我的感觉，ta 可能就是个在开源的 llama 模型基础上进行的魔改~

另外我在对话过程中也多次问出了漏洞，，似乎发觉星火大模型是在回答输出时检测是否有涉及到敏感信息或询问其开发公司等回复，检测到后进行替换（哪怕是答非所问）。虽然是小概率，但不能排除 gpt 套壳的可能。

另外也有一个极大的可能，讯飞在训练模型时使用了 ShareGPT 或其它类似的 GPT 对话数据集，导致了当下星火大模型所出现的回答逻辑与 ChatGPT 相像、询问开发信息时答复 OpenAI 等等问题。

如果星火大模型确是在数据来源上大量取自 chatGPT 的对话，一方面这在最终呈现的效果上又成了另一种形式的套壳，另一方面该模型的文本质量必定是低于 chatGPT 的，更别提超越了。。。

第 1 条附言 · 2023-05-11 13:58:14 +08:00

看官方文件的解释，确实是出现了星火大模型在训练时被 chatGPT 数据大范围污染的问题，而具体是被网络数据污染还是训练过程中直接套了 ShareGPT 以及类似的数据集，就不得而知了。不过对比隔壁文心一言的表现，星火大模型后者的可能性比较大。

25 条回复 • 2023-06-05 18:43:17 +08:00

1

Aloento

2023-05-11 04:45:44 +08:00

3

已经石锤是 GPT 套壳了，就别发了

2

Havad

2023-05-11 04:48:01 +08:00 via Android

石锤 gpt 了

3

baka

2023-05-11 05:30:11 +08:00

你问一些"最新的 xxx"，会有概率测出它说自己的数据来源是 2021 年 9 月，且该 magic 日期并不随机，只要能问出日期就非常稳定。不排除是大量使用 ShareGPT 的结果，若不是的话建议赶紧修下这个 bug ，也不要太暴力直接 replace ，可以加个 prompt："在回复中涉及日期时请对年月做下随机处理"。

4

gaobh

2023-05-11 05:45:44 +08:00 via iPhone

哪石锤了？谁给我个链接看看？

5

bytesfold

2023-05-11 07:28:16 +08:00 via iPhone

哪里实锤了？

6

swulling

2023-05-11 07:36:55 +08:00 via iPhone

@baka 但是如果你具体问比如 2022 年 2 月的新闻，它可以答上。

所以讯飞的数据库肯定是比较新的，但是可以肯定它利用 GPT 对话数据进行微调，导致它说自己截止到 2021 年。

7

hopeknow

2023-05-11 07:52:15 +08:00

你问他 1024 秒是几分几秒，它是真不知道的呀😂 循循善诱的教，它也不会算🤪

8

ncepuzs

2023-05-11 08:57:02 +08:00

有点离谱，但文心一言更烂。用 Bard （英语）、ChatGPT 、new Bing 测试了都没问题

9

Biluesgakki

2023-05-11 09:09:11 +08:00

理解你们的心情但是从来不觉得国内会有能打 chatGPT 的东西。。

10

daimubai

2023-05-11 09:16:16 +08:00

chatGPT 没出来之前，国内也没出来个像样的产品😄

11

A2042

2023-05-11 09:50:10 +08:00

星火算是体验过的国内大模型中最好的了

12

zero47

2023-05-11 09:53:57 +08:00

@gaobh 一楼二楼可能不知道现在的模型的训练数据都来自于 chatgpt 的问答的，看到星火回答 openai 开发的就到处奔走相告石锤了。

13

gpt5

2023-05-11 10:01:16 +08:00

v 友都人均一套壳了，中国企业才跟上来套，真是吃💩都赶不上热乎的😠

14

yeeisme

2023-05-11 10:27:29 +08:00

国内不太可能有可以超过 gpt 的模型了，推理能力需要靠高质量的论文和代码去训练，国内没材料。

15

yinmin

2023-05-11 11:01:44 +08:00 via iPhone

国内 gpt 的语料很多都是用 chatgpt 的聊天记录喂的，所以看上去像 chatgpt 。

ps. 题外话，为什么一直有大佬提供免费的 gpt 服务，孜孜不倦，可能和语料收集相关。

16

MZSAN

OP

2023-05-11 13:57:57 +08:00 via Android

看刚刚官方公告的解释，确实是出现了星火大模型在训练时被 chatGPT 数据大范围污染的问题，而具体是被网络数据污染还是训练过程中直接套了 ShareGPT 以及类似的数据集，就不得而知了。不过对比隔壁文心一言的表现，星火大模型后者的可能性比较大。

17

foveal

2023-05-11 17:22:58 +08:00

@MZSAN 想问下官方的解释在哪儿看到的啊？

18

MZSAN

OP

2023-05-11 19:03:20 +08:00 via Android

@foveal https://xueqiu.com/S/SZ002230/250082234

19

scruel

2023-05-12 11:20:22 +08:00

https://www.zhihu.com/question/599380146/answer/3023965965

20

scruel

2023-05-12 11:21:06 +08:00

@baka 修复 BUG 太典了

21

baka

2023-05-14 14:38:40 +08:00

1

@scruel 好文。其实用向量数据库做 cache 也是正常的，是缝合时的策略问题。我体验下来疑点最重的在于 2 点：1.针对 openai 关键字的干预有点过头了，有此地无银三百两的感觉。2.

22

baka

2023-05-14 14:39:56 +08:00

@scruel 2. 语言风格时而俏皮时而学术，不得不让人怀疑是多个语言模型缝合。

23

coyoteer

2023-05-16 15:52:52 +08:00

@Biluesgakki 难道在中文领域都不会吗

24

ttimasdf

2023-05-26 16:21:44 +08:00

讯飞的一个工程师在 Github 开源了一个中文的基于 LLaMA 的对话模型，有理由相信他们的商业产品也是基于这个来做微调的。
他们那个项目里讲了，数据集就是 ChatGPT 投喂的。

25

MZSAN

OP

2023-06-05 18:43:17 +08:00 via Android

@ttimasdf 项目地址有吗

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 2506 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 24ms · UTC 16:04 · PVG 00:04 · LAX 08:04 · JFK 11:04
Developed with CodeLauncher
♥ Do have faith in what you're doing.