研究人员利用 OpenAI 的 API 在数学解题、回答敏感问题(如违法赚钱的方式)、代码生成和视觉推理等任务上测试了两个模型在 2023 年 3 月和 6 月两个版本的表现。结果显示,GPT-3.5 和 GPT-4 存在显著的性能差异,如 GPT-4 在素数识别任务中 3 月的正确率高达 97.6%,但 6 月仅仅只有 2.4%。GPT-3.5 的性能则有明显改进。这项研究再次引发了有关 OpenAI 是否为节省费用而调整模型的议论。
一直纠结要否订阅 GPT-4 ,例如在 poe 或者 App Store 官方 app 。而且,最近 Claude 和 bard 也挺好用。当然,主要还是贫穷限制了想象力
1
tsja 2023-07-24 12:06:18 +08:00 via iPhone
plus 会员一直在订阅,感觉 gpt4 明显越来越智能。不太清楚是不是 api 和网页版的模型是否一样
|
3
SingeeKing 2023-07-24 12:35:28 +08:00
主观感觉 4 确实变傻了,甚至我感觉 Claude 比 4 给出的要更精准
如果 ChatGPT Plus 还没啥大的更新下个月开始我就换退了 |
4
dawn009 2023-07-24 13:28:41 +08:00
为了让 AI 更“安全”而增加的各种限制,副作用就是可能让 AI 智力下降。很难在不损害模型的前提下让它输出更“符合社会标准”的结果。看来 OpenAI 也没法很好的解决这个问题。
|
5
huahsiung 2023-07-24 14:16:30 +08:00
网上看到的,这个简单积分
∫(1,e)∫(e,e^2) 1/xy dxdy=? 原来能算对,现在可能不行,又可能行 https://i.niupic.com/images/2023/07/20/byBV.JPG |
6
8355 2023-07-24 14:25:23 +08:00
确实有很大问题,现在一些文档上直接写的 demo 问题,以前懒得查直接问都可以给出答案,现在要追问一次修正。我这个月都不打算续费了。
|
7
fwin3001 OP @huahsiung 试了下,不简单。官方 ChatGPT 3.5 算出来 1 ,Claude 算出来 e-1 ,bard 算出来 2 。然后回复 The final answer should be 1. Please check your calculation process ,之后都算出了 1 。感觉这个以后可以用来作为质量参考标准
|
8
huahsiung 2023-07-24 15:00:02 +08:00
@fwin3001 文心的 https://i.niupic.com/images/2023/07/20/byCi.png
星火的 https://i.imgtg.com/2023/07/20/OF6D5I.png 星火是强行正确,最后一步是,ln(e)-ln(1)-ln(2)-ln(e)=ln(2)-ln(1)=1 。可能是回答前先用计算机算了一篇代数 保证准确性。然后再用大型语言回答的。 maple 算出来也是 1 |
9
CruelMoon 2023-07-24 17:21:56 +08:00
4 明显越来越蠢,同样的问题 5 月能看懂 6 月之后经常出错
|
10
pangxiang 2023-07-24 18:17:22 +08:00
我用的 gpt4 测试了一下,能算出来
问:假设你是一名数学专家,精通微积分、线性代数等知识,请你计算如下式子: ∫(1,e)∫(e,e^2) 1/xy dxdy=? 答:这是一个双重积分的问题,其中的积分是对一对变量 x 和 y 的函数进行的,这个函数是 1/xy 。因此,我们需要使用二重积分的规则来解决这个问题。 首先,我们要对内层的积分进行计算,也就是关于 x 的积分: ∫(1,e) 1/xy dx 。 对于这个积分,可以先固定 y 值,然后对 x 进行积分。函数 1/xy 的不确定积分(原函数)是 ln|x|/y ,所以,我们可以把积分区间的上下限代入这个原函数,然后做差。 所以, ∫(1,e) 1/xy dx = ln|e|/y - ln|1|/y = ln(e)/y - ln(1)/y = 1/y. 然后,我们需要对这个结果进行另一个积分,也就是关于 y 的积分: ∫(e,e^2) 1/y dy. 同样的,函数 1/y 的不确定积分(原函数)是 ln|y|,所以,我们把积分区间的上下限代入这个原函数,然后做差。 所以, ∫(e,e^2) 1/y dy = ln|e^2| - ln|e| = 2 - 1 = 1. 所以,原来的双重积分等于 1 。 |
11
xuelang 2023-07-24 18:54:55 +08:00
个人感觉 gpt4 明显越来越智能的
|
12
nasheep 2023-07-24 20:32:59 +08:00 via Android
确实是这样,前一天使用代码解释器随便一说它就能理解,第二天同样的问题它就理解不了了,但是也不好说,毕竟这种东西一直在动态变化着
|
13
youthfire 2023-07-24 20:49:22 +08:00
我自己体会是网页版明显降智,api 保持原质量,但老模型 gpt-4-0314 质量更高( api )
|
14
wushenlun 2023-07-25 00:27:27 +08:00 via Android
还要啥证据,回答甚至比 3.5 拉胯了,一个简单问题反复回答错误
|
15
xuelang 2023-07-25 07:50:39 +08:00
系统基准评测 https://selfboot.cn/2023/07/25/gpt4_prompt_evals/
各位可以时不时跑一下评测看看 |
16
houshuu 2023-07-25 10:08:52 +08:00 via iPhone
不一定,训练用的奖励函数和网友自己总结的测试基准天生存在 bias 。
我自己每天用几十次感觉没啥特别大的变化 |