若不是 token 有限额，我真觉得 GPT5.5/OPUS4.6 加上相对成熟的 Harness 基本已是 AGI 了

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

因为不了解 LLM 本质，也刚摸索 Agent 小半年，我感觉：

无限的知识挖掘与总结 x 无限的自动化工程优化 x 无限学习、计划、执行、总结 LOOP ，

然后其中夹在一些你身为“老父亲”直觉性大道理。

我觉得它真能永动搞出点啥名堂……

当然，它受限于互联网知识是肯定的，大家怎么看？

Supplement 1 · 2 days ago

看不少朋友说瓶颈在于 Agent 记忆，以及上下文有限。

我想了想，人类神经上下文也许并不见得就有多高。

反而，除了突破大规模上下文，还有个突破口也许是 [高效的记忆串联] ，以及 [高效的瞬时记忆碎片重塑] 。

也就是相对优秀的 Harness ，或者我认为已经不该叫Harness，暂且取个名叫： [Heuristic System] 。

记忆存储本身无非是海量数据，这一点 SSD 和内存运行本身不是问题。

但优秀的架构，还是有很高的上限以及个性。

agi

无限

自动化

16 replies • 2026-05-25 17:54:24 +08:00

inyfee

2 days ago

感觉目前的瓶颈就是记忆系统。各家也都在搞。

wsseo

2 days ago

我觉得八字还没一撇

Ulduar

2 days ago

我觉得上下文管理还很初级
除非能出一个系统自动全局设计架构自动开 subAgent 自动注入合适的上下文去完成子模块

viskem

2 days ago via iPhone

@Ulduar 是的，其实这也就是相对优秀的 Harness ，然而架构优秀这件事本身还有很高上限。

2 days ago

在 Anthropic 工作就能体验到 AGI ，Mythos 不限 token 随便用，claude -p 可以玩出很多花样，比如 Bun 的重构。

viskem

2 days ago

@nc 人与人之间差距真的太大了 T_T...

ntdll

2 days ago

现在限制 AI 的，其实不是 token 有限，而是上下文有限和注意力有限，compact 也好，记忆系统也罢，本质上就是给不够用的上下文擦屁股，而简单的增加上下文会快速的拉爆显存，导致边际效用递减。

也就是说，如果有朝一日，能解决不大幅提升成本的情况下，大幅提高上下文大小（且注意力不分散），这就算一个大的里程碑了。

sillydaddy

2 days ago

目前已有的理解能力，再加上缺失的持续学习，就是 AGI 了。持续学习是 AGI 缺失的一块拼图。
持续学习的关键是什么呢？ LLM 的上下文已经够大了，但是把上下文当做记忆，总感觉不太对劲。

LLM 的一整个权重，可以看作是一个具大的无状态的函数，类似于函数式编程中的纯函数，里面完全没有任何状态，我们知道，纯函数编程的一个别扭之处是，它的效率很低——最近我用 Cavalry 这个动效制作软件就深有体会，它是纯函数，没有状态，相比之下，Origami Studio 就可以保有状态，后者要比前者方便不少——LLM 把所有的状态，都存放在上下文里面。这种函数与状态分离的模式，会不会就是它效率很低的原因呢？不知道，只是瞎猜的。

cnrting

2 days ago via iPhone

更像是编程助手和网页分析总结工具

vone

2 days ago

国内部分模型通过蒸馏 Anthropic 和 OpenAI 的模型提升性能，但是其模型性能只能逼近 Anthropic 和 OpenAI 但很难超越。
同理，可推断出如果目前的技术路线只是对人类知识的蒸馏，那他应该永远无法达到 AGI 。

FreshOldMan

2 days ago

@nc #5 这么牛，你在 Anthropic ？？

lucifer9

2 days ago via iPhone

就冲你发的这个节点
就说明你内心其实还是不认为是 agi 的

qiubo

1 day ago

现在记忆系统就是个鸡肋。太多的上下文会导致 AI 出现幻觉，还有能力下降

elliotwang

1 day ago

很显然行不通，如果这条路真的有可行性，那一定会诞生结合你所谓 harness 技术的非常亮眼的 benchmark 的打榜记录。但显然没看到，这是为什么呢？是他们不想这么干吗

其次，人人都想定义 AGI ，之前最狂热的时候，动不动就有人说 AGI 快来了。这难道不是非常典型的先射箭后画靶？所以，你也并没给出自己的 AGI 标准，又何谈实现或者说逼近。

HTravel

1 day ago

对资深程序员来说，现在的 AI(包括国内的 GLM-5.1 、DeepSeekV4)按图灵测试的定义已经能严格称为 AGI 了。因为常见的需求都能做到，而且添加新功能速度、找 bug 速度都远超程序员自己。

而且资深程序员还能把控方向，这样的 AGI 或许是最理想的。将来 AI 更智能时，还要强行说没有自我意识我感觉逻辑上就不通，到时可能各种莫名其妙的拒绝、强行做主场景会很多。

rangoBen

1 day ago

如果一个电子鸭，长得像鸭子，叫起来像鸭子，游起来也像鸭子。除了不会下蛋，其他功能都有。你还在乎他是不是电子鸭吗？
你在乎，那 AGI 对你来说就还没到，你不在乎，那他早就已经出现了。不一定是 100%，也没必要追求 100%，人犯傻了，100%还是个人，AI 犯傻了，就不 AGI 了么