「端到端」大模型已被认为是探索高阶智驾的有效工具。今年以来,小鹏、华为、理想先后宣布「端到端」大模型智驾方案落地。
10月28日,智己汽车联手Momenta推出采用「一段式端到端」架构的智驾方案——IM AD 3.0。这意味着,智己汽车或将成为国内第四家落地「端到端」大模型智驾方案的车企。
尽管各家都走上了「端到端」大模型的技术路径,但在具体方案及技术阐述上有所差异。小鹏和华为采用的是分段式「端到端」方案,理想和智己则强调自家是一段式方案。
同时,在技术阐述上,智己汽车表示,IM AD 3.0将完成智驾能力从“最像人”到“有直觉”的断代式进化,为智驾系统率先注入人工智能生成的“直觉”。
所谓“直觉”,是指智驾方案能以更接近人脑结构的思考方式,生成本能反应主导的直觉决策能力,进而带来老司机的直觉驾驶体感。
“直觉驾驶”让智能汽车拥有综合分析道路环境全局信息,尤其在应对突发状况时,能够“脑补”出看不见、看不全的路况信息,像人类高级思维一样可以做出瞬间预判,即人们通常所说的“直觉”或“下意识反应”。
当然,高阶智驾不能仅凭直觉驾驶,还需要有安全策略兜底,因此,在IM AD 3.0方案里,不仅有 「一段式端到端大模型」,还有一个关键的算法模型即「安全逻辑网络」。
两个模型如何分工?
「一段式端到端大模型」取消了分模块智驾结构,将感知与规划整合进一个大模型,通过优质数据训练一个完整的神经网络,分析全局信息、隐含信息,学习优秀的人类驾驶行为,从原始数据输入到规划路径输出,形成人脑高级思维的直觉反应。

「安全逻辑网络」则用来保证直觉决策的安全性,负责将大模型输出的(候选)规划轨迹进行判断,最终生成执行策略。

对比来看,智己与Momenta的思路与理想汽车也比较接近,理想汽车的最新智驾架构为「端到端」大模型+VLM视觉语言模型。
其中,「端到端」大模型具备高效、快速响应的能力,主要应对驾驶车辆时95%的常规场景。而VLM模型负责更深入的理解与学习,形成逻辑推理、复杂分析和计算能力,在驾驶车辆时用于解决复杂甚至未知的交通场景,占日常驾驶的约5%。
理想汽车认为,两个模型相互配合,能够分别确保大部分场景下的高效率和少数场景下的高上限,成为人类认知、理解世界并做出决策的基础。
端到端大模型有显而易见的优势,但并非全无弊端。
Momenta分享称,训练智驾大模型是一个试错的过程,用深度学习做自动驾驶是一个开始,不是结束,意味着未来会有很多的探索、升级,如何降低试错成本变成了关键。
马斯克曾在社交平台分享,特斯拉去年花了20亿美元构建数据中心,今年计划用100亿美元做自动驾驶的训练。可以看到,自动驾驶大模型训练试错成本非常高。
为了解决端到端大模型试错成本高的问题,Momenta首创了“长短期记忆模式”。仿照人类记忆形成的模式:首先大量的外界信息会进入短期记忆,再经过短期记忆的筛选验证后,才会进入长期记忆。

Momenta也采用这个方案,每天验证一个方法、一批数据,这就相当于验证短期记忆,短期记忆成本比较低、训练周期也会比较短。
被验证过的好的方法、数据再应用到大模型里,训练长期记忆,来尽可能地保证每次训练的正确性。
Momenta表示,通过这个方法,比直接训练「端到端」大模型试错,训练成本节省10-100倍的同时,大幅提升迭代速度。
在此次智驾技术沟通会上,智己汽车同时宣布,其已经成为全国首个同时具备L2、L3、L4智能驾驶量产能力的品牌。

在L2+级高阶辅助驾驶方面,智己已于本月在全国范围内开通全系车型“无图城市NOA”。目前,智己又已启动欧洲市场的L2+道路测试,力图打造“全球都能开”的无图NOA。
L3级自动驾驶也已进入量产倒计时。今年6月份,智己入选全国首批“L3准入及路试联合体名单”,预计将于2026年正式具备L3级自动驾驶方案的量产条件。
在L4级自动驾驶方面,智己预计将在年内获得首批“L4级无驾驶人道路测试牌照”,实现无人驾驶车率先上路。
评论·0