MIMO 这个是写得真好。里面提到 agent coding 几乎每个痛点我都遇到过

https://mimo.xiaomi.com/zh/blog/mimo-code-long-horizon

Max Mode 只管做的对不对，不管做没做完；后来出现的 /goal 才解决

部分模型（特别是 GPT 5.5 系列）在输出结构化 JSON 时格式错误率较高

Dynamic Workflow 的确是好东西

能在每一轮迭代进行总结的记忆系统，我现在是手动挡搓这个，搞得很烦躁

给主 agent 配一个助理总结归纳项目

等等。。都是我想要的。

mimo

agent

workflow

16 replies • 2026-06-12 08:09:58 +08:00

mxT52CRuqR6o5

13 days ago

光靠 goal 不是能完全解决做没做完，还得加上目标可验证
我这边有个目标明确但难以验证的任务，我现在完全不知道怎样才能让 AI 把这个任务做完，也不知道到底做到什么程度才算做完，你每次下达任务 AI 都能往前前进一些

xuyang2

13 days ago

> MiMo Code + MiMo-V2.5-Pro outperforms Claude Code + Claude Sonnet 4.6 across all three evaluations.

为啥不放跟 Claude Code + Claude Opus 4.6 的对比

shunia

13 days ago

@mxT52CRuqR6o5 #1 不知道怎么验证不也可以问 AI 吗？
有现成经验的且不说，如果确实是没有现成可以借鉴的，可以和 AI 一起头脑风暴，迭代几轮，怎么样都比卡住不知道怎么办要好很多。

hidemyname

13 days ago

@xuyang2 #2 在编程上别说 mimo 2.5pro 和 opus 对比了,你让 glm 5.1 和 qwen 3.7 max 比比试试，吹的飞起，用起来还是比不过；

409164

13 days ago

其实有道理的

youzhiqing

13 days ago via Android

mimo 用起来体验很好

shunia

13 days ago

它这个 blog 写的意外的好，言简意赅，只不过越往下读 AI 味儿越重，笑死个人。
希望再出一篇技术细节详解，这篇有些部分写的还是太笼统了。

FantaMole

13 days ago

从它这个跑分来看 Mimo Code + 2.5 Pro 和 Mimo Code + 2.5 没有拉开本质差距啊，工程化做的有这么好？

tf2

13 days ago

@FantaMole 原文

需要说明的是，这些 Benchmark 衡量的仍是对单个仓库级问题的一次性解决能力。MiMo Code 的多数设计目标——多轮记忆、后台状态维护、完成度验证、跨 session 进化——主要体现在持续几十轮的真实开发场景中，这些优势需要在实际使用中才能充分体现。

superychen

13 days ago

试用了一下感觉还不错啊

FantaMole

13 days ago

@tf2 就这个意思就让我觉得很...我抓不住他们的宣传重点在哪，意思是这个 Mimo Code 的 harness 做的很好，在长任务使用下即使自家模型不行，但仍能超越其他模型？还是能补齐能力较差的模型短板，让 V2.5 也能在普通任务赶超 V2.5 Pro ？但是这个 CLI 又不收钱，那我用 Sonnet 配 Mimo Code 岂不是无敌了，干嘛要用他们家的模型，能打出组合技吗

tf2

13 days ago

@FantaMole 你要从宣传的角度去理解，那直接输。。

我的理解就是 V2.5 pro 有的时候就是想得太多。V2.5 指令遵循比较强，有的时候反而更加反应快。

我现在是复杂问题分析给 pro ，写好 plan 就直接 v2.5 上手改