V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
wisej
V2EX  ›  奇思妙想

来聊聊智驾的路线和方法论的思考吧

  •  
  •   wisej · 1 天前 · 1071 次点击

    最近了解了下智驾技术的演变发展,在这写下总结与思考。

    端到端的“问题”

    现在头部汽车公司已将最新的智驾技术路线从端到端转到 VLA 、WEWA 。那为什么端到端被抛弃了呢?我看到的一种也比较认可的说法是:直接将环境信息数据(摄像头、lidar 等等)映射到轨迹规控(或者更低维的油门刹车方向盘控制指令),模型本身只是在做根据 2D 画面进行模仿学习,它不知道驾驶员这么做的深层逻辑---也就是知其然,不知其所以然。这也就导致泛化能力很差,当出现长尾/难 case 时,模型完全是“懵逼”的。

    VLA 的意义

    起初,我觉得从第一性原理出发(就实现自动驾驶而言),VLA 中的 L 作为要素加入模型没啥逻辑吧?就为了车机屏幕显示 COT 思考和语音控车? 直到我看这个观点---语言即逻辑。上面我们说到端到端的问题是知其然不知其所以然。现在我们可以将 L 作为驾驶者开车的逻辑思考的表征作为数据跟随 V ,放进模型训练,那不就可以让模型学会"逻辑推理"了? 这个观点对于我来说是 make sense 的。因为加入 COT 后的 LLM 在功能性上表现的就是具有逻辑推理能力(注意我说的是功能性),本质上也是它的训练数据里有很多逻辑推理的语言 pattern

    WEWA--本质还是端到端?

    从 WEWA 有限的资料来看,我觉得它范式还是端到端那套。只是通过 WE (世界引擎),在仿真世界里将难处理的长尾 case 密度拉高进行强化学习。我觉得它走的是"力大砖飞"的方法论,无所谓所以然,只要数据够多,当模仿到极致,然与所以然的界限就模糊掉了。毕竟 LLM 的本质不也只是预测下一个词的概率么?

    我的思考

    我觉得上面两个路线都有可能实现 L3/L4 ,无法直接证伪说哪个肯定不行。但是从上限和可扩展性来说,VLA 无疑更甚一筹我觉得。VLA 这套框架/范式可以说是为具身智能打造的,这套弄通了到时候迁移到诸如机器人上面会很顺畅。

    另外从上限来说,我很久前在知乎上看到过一个回答关于自动驾驶能力限制的:对于伦理问题,比如电车难题,智驾怎么办?它超脱了对错的维度,更像是基于三观的一个选择。而 VLA 模型的 L ,就像一个窗口可以注入 owner 的价值观,让其做出的行为与你的意志匹配。

    综上,是我一个外行人的浅思。欢迎行业内的朋友指出错误及讨论交流~

    16 条回复    2025-11-17 01:58:08 +08:00
    longzhou6431
        1
    longzhou6431  
       1 天前
    从标题开始,我就没有兴趣了。明明是辅助驾驶,为什么冠以智驾的标签。很多无知的黄毛,听到智驾就真的会认为无需人工参与驾驶,最后发生事故,害人害己。
    Tink
        2
    Tink  
    PRO
       1 天前   ❤️ 1
    - 语言即逻辑

    并不是,其实大多数驾驶员,最终驾驶都是肌肉记忆而已。也就是看到右前方有车,下意识方向盘就会向左
    wilddog
        3
    wilddog  
       1 天前
    比较认可,说白了从模型的角度都离不开 V L A ,各家的路线无非是采用的具体方案落地时,对这三个环节各自进行自认为合适的处理方式罢了。

    毕竟车载硬件能采集的信息也就那些。
    stinkytofux
        4
    stinkytofux  
       1 天前
    你们平时真的敢用智驾开车吗? 我真不敢, 一次都没用过.
    frankies
        5
    frankies  
       1 天前
    摄像头并不是 2D 画面啊。建议进一步学习了解 CV 中的双目视觉(视差)、占用网络、NeRF 或 SFM 快速 3D 重建等基础前置知识,纯视觉方案是完全可以实时构建 3D 立体场景且目前普遍使用的方案,所谓的 VLA 、世界模型并不是一条新的更有优势的路线,而是各有优劣的,需要 trade off 的。
    cynics
        6
    cynics  
       1 天前
    有机会试试 Tesla 最新的 FSD 就知道了,我现在只要开家里的 model3 出门,都会用 FSD ,尤其晚上,比我自己看得更清楚
    metalvest
        7
    metalvest  
       23 小时 24 分钟前 via Android
    人驾车并不是基于逻辑的,而是基于预测的,只不过这个预测很大程度是符合逻辑的
    wisej
        8
    wisej  
    OP
       22 小时 22 分钟前
    @Tink 这句话我本身也不认可(本末倒置了)。但是语言可以是逻辑推理的表征毫无疑问。

    "肌肉记忆"我认为是千万次重复后,人体系统演化而来的能效优化的结果。它的底层依然是神经元连接,只是不需要人脑中的高级部分再参与了(所以能耗、延迟都更低)。端到端其实就很适配开车中“肌肉记忆”的场景(所以高速表现挺好的)。

    而且开车场景不全是肌肉记忆,有~5%的场景是需要逻辑思考的。拿掉头来说,我的思考 path 可能是:1.有没有掉头专用灯 2.有没有双黄线,怎样的形态 3.左转灯状态。对于我来说,它不是“肌肉记忆”,需要逻辑思考。你说有没有人能把它做成肌肉记忆,我觉得可以,只要他重复千万次或许能做到看一眼就知道怎么开的“肌肉记忆”---但那本质不也是训练后内化的神经网络权重参数么
    wisej
        9
    wisej  
    OP
       22 小时 8 分钟前
    @stinkytofux 就第一次会有些忐忑,后面还好~ 而且我只在高快上用,城区不用。我觉得高快场景很简单了,现在辅助驾驶能很好 cover ,能节省非常多精力。但是确实需要知道能力的边界,保持专注
    bkmi
        10
    bkmi  
       22 小时 1 分钟前 via Android
    @metalvest 没错,这个预测的行为包含了很大一部分赌的成分,现阶段的智驾基本到了跟前才有决策,体验很差
    wisej
        11
    wisej  
    OP
       20 小时 19 分钟前
    @frankies 确实很多领域内名词,需要学习=.=

    VLA 我还是觉得上限更高,但是对算力要求也更高(目前车端的算力不太够?)。至于世界模型仿真 RL ,VLA 也能做不冲突。可以具体说说各自的优劣嘛?
    wisej
        12
    wisej  
    OP
       20 小时 16 分钟前
    @cynics 我没试过 FSD 。但是国内 FSD 版本似乎测评里表现一般(当然跟 tesla 训练国内数据限制有关)
    wisej
        13
    wisej  
    OP
       20 小时 9 分钟前
    @metalvest 认同。所以我了解现在有了 4D ,随时间变化的 3D 空间的仿真训练。应该就是为了学习这种预测能力
    songco
        14
    songco  
       19 小时 37 分钟前 via Android
    我比较看好特斯拉这种,大力出奇迹,哈哈
    Tink
        15
    Tink  
    PRO
       19 小时 5 分钟前
    @wisej 是这样的,但是仔细想一想,端到端不就是让模型形成肌肉记忆吗,学会了,自然就知道怎么处理了
    cynics
        16
    cynics  
       7 小时 47 分钟前 via iPhone
    @wisej v14 已经不叫 FSD 了,升级后直接就显示 self driving, 我的体验是比 90%的人开的好,除了一些 corner case 需要接管。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5624 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 01:45 · PVG 09:45 · LAX 17:45 · JFK 20:45
    ♥ Do have faith in what you're doing.