在智能驾驶领域,竞争焦点在过去几年经历了显著的演变。起初,竞争围绕硬件展开,包括是否配备激光雷达、安装多少摄像头以及算力达到多少 TOPS。随后,随着大模型时代的到来,竞争转向了端到端、VLA(视觉-语言-动作)和 World Model(世界模型)等技术路线。

如今,越来越多的公司认识到,仅拥有更大的模型已不足以形成代际优势。真正决定技术上限的关键在于模型、数据、算力和芯片之间能否建立一个持续迭代的闭环。这也是为何越来越多的汽车制造商选择自主研发。

特斯拉在数据采集、训练基础设施、FSD 模型到 Dojo 超级计算机和自研芯片等环节几乎实现了全覆盖。在国内,小鹏、蔚来以及理想等公司也在不断向更底层技术延伸。

在今年发布的 L8 和 L9 车型上,理想汽车已开始采用其自主研发的马赫 M100 芯片。这款采用数据流架构的芯片被理想汽车视为人工智能领域的一个重要技术方向。在此基础上,理想汽车还在运行其自主研发的马赫 VLA 模型。

然而,对于整个行业而言,更值得探讨的问题并非“是否进行自主研发”,而是这些投入究竟能够解决哪些具体问题。

带着这个疑问,我们与理想汽车自动驾驶负责人詹锟和芯片负责人谢炎进行了深入交流。他们分享了理想汽车对下一代自动驾驶技术路线的判断,并阐述了自研芯片、数据体系以及 AI 基础设施背后的设计理念。以下为访谈的部分内容摘要,经过编辑整理:

问:为达到特斯拉 FSD V14 在第四季度(指2023年第四季度)的效果,理想汽车还需要在哪些方面努力?

**詹锟:**我认为追赶 FSD 主要体现在两个层面。

首先是基础体验,具体包括安全感、效率和舒适度是否能达到 FSD 的同等水平。FSD 的安全感非常扎实,效率很高,同时乘坐体验也很舒适,这是其基本功。即使在不那么复杂的道路上,也能展现出这样的水平。

其次是能力层面,这一点同样难以超越。例如,特斯拉在礼让特殊车辆、在极窄路况下的感知精度以及识别交警指挥等方面的能力非常突出。

在能力层面,存在架构升级的机会。为什么这些能力是特斯拉独有,而其他公司不具备?这可能与以往的范式限制有关,也可能源于架构或数据方面的原因。我们在这些方面进行了大量的探索。

问:我理解马赫 VLA 是一个技术体系,而非单一模型。例如,Mind-Edge 是服务于智能座舱的端侧模型。那么,目前智能驾驶模型中是否还包含“L”(Language,语言)的部分?

**詹锟:**当前自动驾驶的架构普遍呈现出将 VLA(视觉-语言-行为模型)与 World Model(世界模型)整合的趋势。

从长远来看,所有技术路线都会朝着这个方向发展。无论是 VLA 还是 World Model,其内部的 Prompt(提示)都需要用到语言。因此,语言成分必然存在,关键在于如何使用它。

在机器智能领域,我认为基于视觉(Vision Based)的 approach 更加合理,它更适合于理解空间、感知三维空间以及服务于环境。语言无疑是有价值的,它有助于理解环境、交通状况、指令,以及进行复杂的思考和决策。

长远来看,基于视觉和语言原生基础模型可能将是未来的发展趋势。

**谢炎:**如果目标是实现 L3、L4 级别的自动驾驶,并解决更广泛的问题,那么模型需要具备类似人类的思考能力。此时,语言的重要性将愈发凸显,这也是未来需要巨大算力的原因之一。

如果模型仅具备视觉和动作(Vision and Action)能力,即使拥有大量数据,在遇到分布之外的场景时也会束手无策。就像动物即使学会了所有常见情况,面对从未见过的情形也会不知所措,无法做出正确的选择。

我们认为,越是向 L3、L4 迈进,所要解决的问题就越接近那些未曾遇到的、占 90%、95%、98% 的长尾场景,这些场景需要模型具备类似人类的思考能力。而实现类人推理和思考能力的关键来源是语言模型。例如,识别警察的手势并理解其指令,这并非仅仅通过收集或生成数据就能解决的问题。

问:随着理想汽车车队规模的扩大,从内部来看,数据的边际效应是否出现了衰减?理想汽车是如何定义价值数据的?

**詹锟:**首先,数据的数量必须足够庞大,其根本目的是收集更多的 Corner Case(长尾场景)。目前,业界有多种方法可以在车端部署优秀的 neural trigger(神经网络触发器),以判断场景的难易程度,并将关键数据回传。这也是特斯拉目前表现出色的重要原因之一。

其次,数据的质量至关重要,主要体现在行为质量上。目前,业界普遍收敛到端到端的范式,无论是 VLA(视觉-语言-行为模型)、World Model(世界模型)还是 Vision-Action(视觉-动作模型),其核心都是需要理解 Action(行为)。因此,行为的质量,包括其干净程度和一致性,变得尤为重要。

至于数据规模增长后边际效应是否衰减,首先,只要模型能力不断提升,只要我们努力追求满分,其增长曲线必然是“对数曲线”,呈现出逐渐衰减的趋势,而非线性增长。这是所有 AI 公司都会面临的情况。尽管后期数据收敛的速度确实会放缓,但我们依然希望通过规模效应来加速这一过程。

问:马赫 M100 芯片能够支持多种 AI 场景的应用。展望未来五年或更长远的两代产品周期,理想汽车车内的算力中心是否有可能全部采用自主研发的马赫芯片?

**谢炎:**尽管业内存在“舱驾一体”的说法,但我们认为,舱驾一体的核心在于 AI 算力部分,而其他部分的集成度则不那么关键。这是因为座舱系统和 AI 智能驾驶系统可以完全独立运行,但 AI 算力可以集中处理,从而大大提高效率。

我们的路线图最终设想是构建一个车内 AI 计算中心,所有 AI 任务都可以在此进行计算。这类似于在笔记本电脑上运行 OpenClaw,AI 计算并非在笔记本本地完成,而是在 Token Provider Server(Token 供应服务器)上进行,车内也类似,将拥有一个 Token Server(Token 服务器)。

这个 Token Server 的优势在于:第一,效率极高。第二,能够实现不同任务的隔离,互不干扰。例如,智能驾驶任务的确定性——无论是内存还是带宽,都能得到保证,不被其他任务影响,这是软硬件协同设计才能实现的结果。

问:是否因为 M100 采用了数据流架构的 AI 推理芯片,所以其对带宽的需求相对较低,而对片上存储的需求更高?

**谢炎:**我们对带宽的要求确实较低,但这并非直接导致设计 SRAM 容量(非显存)的原因。当前 HBM(高带宽内存)非常流行,许多人认为带宽越高越好。然而,计算、带宽、SRAM 等都需要晶体管资源来实现,最终的设计是基于成本、综合性能等多方面权衡的选择。

不同架构的设计,仅仅依据一两个指标进行简单对比,既不合理也不专业。这就像拳击比赛,身高和体重都有各自的优势,但胜负并非由单一指标决定,最终比拼的是这项运动的综合表现。

问:为何当前大算力芯片方案,例如英伟达、小鹏以及理想自研的芯片,都没有实现芯片级的舱驾融合,而高通却在低算力芯片上实现了这一点?

**谢炎:**本质上,座舱和驾驶是两个独立的系统。特别是对于高端 L3 向 L4 级别自动驾驶的演进,智能驾驶需要一个更高确定性的系统,要求内存专属、计算资源专属,此时融合的意义就大大降低了。因为资源无法实现实时切换,而实时切换会降低系统的确定性。如果系统朝着越来越独占的方向发展,融合的价值就不大了——你只是将芯片集成在一起,但资源仍然是两份,这并不能降低成本,甚至可能影响效率。

目前市面上的舱驾融合系统,它们本质上还是分开的。无法实现“一会儿运行这个,一会儿运行那个”的场景切换。在这种情况下,将两个芯片集成到一块芯片中,晶体管数量可能不变,仅仅节省了封装成本。对于中低端芯片来说,这部分成本是可以节省的,但节省幅度也有限。

我的观点是,随着智能驾驶向更高端的方向发展,舱驾融合的意义可能并不大。如果能将这些芯片做得更靠近,在一块电路板上实现高度集成的小体积方案,这是可行的,不一定非要做成一块芯片,也可以是多块芯片集成在同一块板上。

问:自研芯片需要具备哪些条件?例如销量、营收和研发投入。鉴于当前自动驾驶迭代速度很快,芯片要实现持续迭代需要什么条件?

**谢炎:**芯片的初期投入确实不菲,可能每年需要数亿元。

首先,需要达到一定的营收规模。对于车企而言,年营收达到 1000 亿元以上,研发投入至少占 10%,即每年有数十亿至上百亿元的投入,才足以支撑芯片的持续研发。其次,研发的芯片所解决的问题,必须能够显著提升产品的能力。

许多人认为芯片需要巨大的出货量才能摊薄成本。实际上,芯片的成本与其面积密切相关。一辆车上的智能驾驶芯片,例如 Livis 使用两颗马赫 M100,总面积约为 800 平方毫米。而一部高端手机的芯片面积大约为 100 平方毫米,因此,一辆车的智能驾驶芯片面积相当于 8 部高端手机的芯片面积。

如此计算,年销量几十万辆车所需的晶圆面积非常可观,足以摊薄成本。因此,成本不能仅以芯片数量来衡量。

问:动态数据流编译器究竟难在哪里?攻克它花费了多长时间?

**谢炎:**我们在流片之前,甚至在设计阶段,就开始着手编译器的工作,在流片之前,就已经成功运行了许多模型。

数据流是一种完全不同的架构,它需要解决的问题与超级计算机或大规模计算机集群所要解决的问题非常相似——当规模扩展到数十万台计算机、上百万个核心时,它们之间的通信和协作,无法由一个中央管理员来统一调度。传统的冯·诺依曼架构的调度方式在这种规模下是不可行的,这是一个超大规模并行调度的问题。