tf2

MIMO 这个是写得真好。里面提到 agent coding 几乎每个痛点我都遇到过

  •  
  •   tf2 · 13 days ago · 3959 views

    https://mimo.xiaomi.com/zh/blog/mimo-code-long-horizon

    Max Mode 只管做的对不对,不管做没做完;后来出现的 /goal 才解决

    部分模型(特别是 GPT 5.5 系列)在输出结构化 JSON 时格式错误率较高

    Dynamic Workflow 的确是好东西

    能在每一轮迭代进行总结的记忆系统,我现在是手动挡搓这个,搞得很烦躁

    给主 agent 配一个助理总结归纳项目

    等等。。都是我想要的。

    16 replies    2026-06-12 08:09:58 +08:00
    mxT52CRuqR6o5
        1
    mxT52CRuqR6o5  
       13 days ago
    光靠 goal 不是能完全解决做没做完,还得加上目标可验证
    我这边有个目标明确但难以验证的任务,我现在完全不知道怎样才能让 AI 把这个任务做完,也不知道到底做到什么程度才算做完,你每次下达任务 AI 都能往前前进一些
    xuyang2
        2
    xuyang2  
       13 days ago
    > MiMo Code + MiMo-V2.5-Pro outperforms Claude Code + Claude Sonnet 4.6 across all three evaluations.

    为啥不放跟 Claude Code + Claude Opus 4.6 的对比
    shunia
        3
    shunia  
       13 days ago
    @mxT52CRuqR6o5 #1 不知道怎么验证不也可以问 AI 吗?
    有现成经验的且不说,如果确实是没有现成可以借鉴的,可以和 AI 一起头脑风暴,迭代几轮,怎么样都比卡住不知道怎么办要好很多。
    hidemyname
        4
    hidemyname  
       13 days ago
    @xuyang2 #2 在编程上别说 mimo 2.5pro 和 opus 对比了,你让 glm 5.1 和 qwen 3.7 max 比比试试,吹的飞起,用起来还是比不过;
    409164
        5
    409164  
       13 days ago
    其实有道理的
    youzhiqing
        6
    youzhiqing  
       13 days ago via Android
    mimo 用起来体验很好
    shunia
        7
    shunia  
       13 days ago
    它这个 blog 写的意外的好,言简意赅,只不过越往下读 AI 味儿越重,笑死个人。
    希望再出一篇技术细节详解,这篇有些部分写的还是太笼统了。
    FantaMole
        8
    FantaMole  
       13 days ago
    从它这个跑分来看 Mimo Code + 2.5 Pro 和 Mimo Code + 2.5 没有拉开本质差距啊,工程化做的有这么好?
    tf2
        9
    tf2  
    OP
       13 days ago
    @FantaMole 原文

    需要说明的是,这些 Benchmark 衡量的仍是对单个仓库级问题的一次性解决能力。MiMo Code 的多数设计目标——多轮记忆、后台状态维护、完成度验证、跨 session 进化——主要体现在持续几十轮的真实开发场景中,这些优势需要在实际使用中才能充分体现。
    superychen
        10
    superychen  
       13 days ago
    试用了一下感觉还不错啊
    FantaMole
        11
    FantaMole  
       13 days ago
    @tf2 就这个意思就让我觉得很...我抓不住他们的宣传重点在哪,意思是这个 Mimo Code 的 harness 做的很好,在长任务使用下即使自家模型不行,但仍能超越其他模型?还是能补齐能力较差的模型短板,让 V2.5 也能在普通任务赶超 V2.5 Pro ?但是这个 CLI 又不收钱,那我用 Sonnet 配 Mimo Code 岂不是无敌了,干嘛要用他们家的模型,能打出组合技吗
    tf2
        12
    tf2  
    OP
       13 days ago
    @FantaMole 你要从宣传的角度去理解,那直接输。。

    我的理解就是 V2.5 pro 有的时候就是想得太多。V2.5 指令遵循比较强,有的时候反而更加反应快。

    我现在是复杂问题分析给 pro ,写好 plan 就直接 v2.5 上手改
    wxVIP
        13
    wxVIP  
       13 days ago
    @xuyang2 小米开发团队公众号今天刚发的文章


    wkend
        14
    wkend  
       13 days ago
    mimo 这几天用起来感觉还不错,改错的时候就给你解决错误,基本不会产生新问题,把送的 token 用完了,买了字节的方舟 plan ,试了试 kimi ,发现改错长生新问题的概率比 mimo 多,对代码动作比较大
    szqh97
        15
    szqh97  
       13 days ago
    小米的我就再等等看
    kongkongye
        16
    kongkongye  
       12 days ago
    @shunia #7 往下读着读着感觉不太对劲,像翻译 cc 的文章而来,差点以为是 cc 相关功能的中文翻译版了
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1138 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 58ms · UTC 23:26 · PVG 07:26 · LAX 16:26 · JFK 19:26
    ♥ Do have faith in what you're doing.