上半场赢在产品,下半场赢在底层。

定焦One(dingjiaoone)原创

作者 | 陈颐

编辑 | 方展博

6月15日,理想举办了一场发布会。主角不是车,是“AI怎么走进物理世界”。

在“Livis Day理想汽车软件与具身智能发布会”的演示环节,理想空间智能产品经理吕怡然对着车说了句:后排小朋友困了,帮我哄他睡觉吧。

话音刚落,车里的灯暗了下去,欢快的歌换成了摇篮曲,空调风量调到最轻的一档,座椅缓缓放平;主动悬架也配合着伸缩,让整个车左右缓慢摇晃起来。整个车厢,从可以开party的氛围,变成了适合婴儿入睡的地方。没有人翻菜单、点按钮,理想的具身智能系统Livis听懂了这句话,把这一切做完了。

这一下看着轻巧,其实并不容易。AI现在能帮我们写代码、做图、做视频,可一旦要它走出屏幕、到真实世界里干点活,难度完全不是一个量级。就拿开车来说,我们现在还是要自己开、自己停、自己在复杂路口判断交警的手势。

李想在台上抛出一个观点:今天的智能手机和智能汽车,其实都不智能,它们本质上还是功能驱动的,不是真正的智能体。

那么问题就来了,AI要走出屏幕,第一站会落在哪儿?

理想的答案是汽车。想一想很合理:汽车每天在真实道路上跑,要感知、要决策、要控制;支撑一辆车的感知、模型、芯片、控制和操作系统,恰恰是通用人形机器人的技术底座。而在所有机器人形态里,只有汽车,已经是一个万亿级的付费市场。

一位关注汽车产业的投资人告诉「定焦One」,他现在评估一家车企,只看一件事:AI能力,具体说就是芯片、系统、模型这三层,掌握得越多,未来的天花板就越高。在他看来,谁先在车这个平台上,把全栈技术跑通,谁就先拿到了AI时代最重要的一张入场券。

而理想从2021年星环OS立项,到2022年自研芯片启动,再到2023年大模型立项,这张牌已经打了五年。

01.今天的智驾,到底差在哪?

李想说今天的车不智能,那在他眼里,什么才算智能?

他给“真正的智能”下了定义:真正的具身智能汽车,得同时是四种角色,一辆电动车、一位职业司机、一台AI计算机、一位生活助手。其中,电动车和AI计算机是“具身”,职业司机和生活助手是“智能”。

对照这个标准,行业过去对“智能汽车”的那套定义(软件定义硬件、能联网、能OTA升级)讲的全是功能,离真正的智能体还差得远。

具体差在哪,从普通车主的体感说起,主要是三个维度。

先说安全。今天的智驾,遇到复杂的、没见过的场景,标准动作是退出,把方向盘丢回给你。这在法规上完全合规,但对人来说恰恰是最危险的时刻。李想表示,接近一半的智驾事故,就发生在接管的那一瞬间,驾驶员毫无防备。

再看能力。今天的智驾,本质只会三件事:向前开、向左转、向右转。李想在现场问观众:你对哪辆车的智驾倒车能力是满意的?没人举手。它既不会像人一样在窄路里倒车腾挪,也不会在遇到危险时,自己找个地方靠边停下。

最后是效率。你最不愿意在什么时候用智驾?赶时间、走胡同的时候。因为这些时候,“你得时刻盯着随时准备接管”,其实比自己开还慢、还累。

安全、能力、效率上的差距,根源在于:今天的智驾系统能“看见”,但感知层没有理解“语义”的能力。

激光雷达的线数,从128线堆到512线,但它看不懂红绿灯的颜色、路牌上的“前方施工”,也看不懂保安的手势。感知层看不懂,在决策层再怎么堆数据、调参数,上限都不高。所以这不是靠“堆数据、调参数”能解决的,这是一个架构问题。

理想的解法,正是从架构下手的。

感知层,它首次让3D ViT(三维视觉感知模型)上了车。简单说,就是实时把场景里每一个对象,在三维空间里的位置、姿态、动作甚至是颜色都建出来,让系统从“看见”进化到“看懂”。现场演示时,3D ViT把台下全场观众的姿态,瞬间还原成了一个三维世界,连后排的文字都能读出来。

决策这一层,理想把整套智驾架构推倒重来,推出了马赫VLA(视觉-语言-行动大模型)。过去,感知、决策、执行分属不同模块,中间要“交接”,一交接就有延迟;现在,从“看见”到“决定怎么开”,都在同一个大模型里,一气呵成。

底层架构的重构,让链路短了,反应速度提快到了0.28秒。普通人从发现危险到踩下刹车,平均要0.45秒,顶级F1车手的生理极限是0.25秒,0.28秒已经逼近人类极限了。多出来的这0.17秒,在120公里时速下,等于多出约6米的制动响应距离,差不多是一辆劳斯莱斯幻影的车长。

理想汽车基座模型负责人詹锟

马赫VLA对标的是特斯拉。理想汽车基座模型负责人詹锟承诺,今年第四季度,理想的智驾模型要对齐FSD V14。

在发布会上,詹锟提到,自己上个月飞了趟硅谷,把特斯拉最新的FSD V14.3连着开了整整两个星期,两点感受:第一,特斯拉真的太强大了;第二,压力也真的太大了。

为了兑现承诺,理想也给了三个明确的交付节点:7月,智驾效率整体提升30%;9月,实现全场景自主倒车、主动停车观察这类复杂场景的独立处理;12月,安全和效率全面超越人类驾驶员。

这套从感知到决策的重构,靠的是更强的模型。模型越复杂,对算力的要求就越高,芯片和操作系统如果跟不上,模型的潜力就发挥不出来。而这两件最底层、最烧钱的事,多数车企选择外购,理想偏偏自己造。

02.理想为什么要自己造芯片?

当一家车企说要自己造芯片,外界的第一反应往往是:买英伟达的不行吗?能用,还省事。理想为什么非要自己从头造?

理想算过一笔账,发现买来的方案,在AI时代不够用了。

一个原因是,光靠软件,拉不开差距。用通用芯片,架构层面的优化空间被锁死了,能做的差异化只有软件层。

更核心的原因是效率的天花板。过去几十年,计算机行业吃的是摩尔定律的红利,芯片上的晶体管密度每两年翻倍,性能跟着水涨船高。可2010年之后,每一代制程带来的提升,从翻倍掉到30%、20%、10%。供给在放缓,AI对算力的需求却在猛涨,这是行业难题。

而专用架构芯片可以绕开这个天花板,在特定任务上做到通用芯片做不到的效率。

所以,理想CTO谢炎2022年带队启动芯片设计时的想法是:不能只造一颗比过去更快的芯片,得造一种完全不同的芯片。

理想CTO谢炎

不同在哪?传统芯片用的是冯·诺依曼架构,统治了计算机70年,本质是“一条指令接一条指令”地顺序执行,大量晶体管花在缓存、调度这些“管理开销”上。可AI的计算天然是并行的,本该一起开工的活,硬塞进一条排队的流水线,效率自然提不上去。

理想自研的马赫M100,走的就是另一条路:数据流架构。

打个比方,传统芯片像一个厨房里有个总厨统一发号施令,规模一大,总厨的统筹能力就决定了上限;数据流架构干脆把总厨撤了,每个工位的食材一到就开工,做完直接递给下一个工位。

过去通用计算的规模不够大,这条路线没有用武之地,直到AI时代计算量出现数量级的跃升,它的优势才真正显出来。

这么造出来的马赫M100,5nm车规工艺,单颗算力1280 TOPS,双芯2560 TOPS。但比算力数字更说明问题的是效率:因为架构专为AI而设计,它的实际运行效率超过82%,这个数字,主流架构很难做到。

更值得一提的是,这颗车规芯片的架构论文,入选了计算机体系结构领域的顶级会议ISCA 2026的工业论文分区(Industry Track)。这个分区专门收录来自产业界的架构创新成果。作为这个分区设立以来全球第一家入选的车企,理想6月底要和谷歌、Meta、美光这些公司同台分享。

光有好芯片还不够。芯片上面要是跑别人的系统,潜力也发挥不出来。谢炎在台上问了全场一个问题:苹果和安卓,哪个更安全?多数人答苹果。原因是苹果把芯片和系统放在一起设计。手机被攻击,泄露的是隐私;车被攻击,威胁的是生命。

所以理想自研了星环OS,这是最底层的整车操作系统,车机和智驾,都是跑在它上面的“应用”。比起行业通用的AUTOSAR(汽车软件行业标准架构),星环OS响应速度快了1倍,稳定性高了5倍;落到体感上,120km/h下AEB的刹停距离能再缩短7米。

当芯片和OS都握在自己手里,最直接的体现就是系统响应的“快”。这0.28秒是怎么来的?视觉输入的时延降了47%,模型推理的链路缩了43%,操作系统的调度降了28%,线控底盘的响应降了38%,四个层级各自优化,端到端总时延最终降了40%。这四层分别是视觉感知、模型推理、操作系统、线控底盘,背后是四个技术团队。

以刹车这个动作为例,用供应商方案的车企,芯片、系统、底盘背后各站着一家不同的供应商,接口封闭,优化只能在自己负责的那一层里打转;理想这四层全是自己的,可以让四层一起为“快”这一个目标让路。

说白了,买方案的车企,手里只有一层的优化权;自研全栈的车企,手里有整条链路的优化权。

这个路线,还有实实在在的成本优势,而且卖得越多,越划算。

谢炎今年5月时算过一笔账:如果今年卖出的车全部搭载马赫M100,一年省下来的钱就超过三年的芯片研发费用,更别说这颗芯片还能用两三年。靠高集成度,新一代车型直接取消了上一代平台的一个域控制器,每台车省下一千多块。

星环OS也一样。理想2025年已经把这套自研系统开源,是全球首家开源整车操作系统的车企,据估算,能帮整个行业每年省下一两百亿的重复研发。

所以今年电池、存储芯片价格集体上行,同行大多只能涨价、把成本转嫁给用户,理想却能靠“技术降本”消化压力,全系车型没有同步涨价,新款车型普遍硬件升级但不加价。

往更深一层看,全栈自研真正的壁垒,是把技术转化成了组织能力。

英伟达做通用芯片,必须服务全球所有AI应用,只能做最大公约数;而理想的芯片只需要解一道题:让自家的车在中国道路上跑得最好。因为目标清晰,芯片团队和算法团队可以从定义阶段就坐在一起,算法需要什么,芯片就设计什么。这种从底层硬件到上层软件完全咬合的研发体系,外部供应商给不了,买方案的车企也学不会。这才是全栈自研最核心的价值。

03.增程被跟进、多屏成标配之后,理想的下一张牌

把时间线拉长,更能看懂理想为什么要押重注去造一套底层技术体系。

理想的上半场,赢在对中国家庭用车需求的洞察。要大空间、要冰箱彩电大沙发、要一家老小坐得舒服,它做出了理想ONE,做成了首个千亿营收的新势力。

但随着行业成熟,增程被跟进,多屏成标配,这种靠“产品定义建立的优势”,正在被一点点抹平。这不是理想一家的问题,是所有靠产品定义驱动的公司,在行业成熟期都会遇到的困境。

要打破这层天花板,必须建立一种更底层、别人难以复制的“系统化能力”。

星环OS、马赫M100芯片、马赫VLA大模型、3D ViT感知模型、全线控底盘……今天展示的技术,不是为了应对眼前的竞争突击做出来的,而是五年前,几乎没人讨论具身智能时,就已经开始的长期投入。

这套长期逻辑,从今年一季度的几个动作可以得到印证。逐步停产停售正热销的L系列、拒绝降价清库存、为跨年交付的i6用户自掏腰包补了5亿购置税差额……单看一个季度的账本,每一步都是在主动让出利润。但结合它账上近千亿的现金储备,以及连续六年加码研发、AI投入占比过半来看,逻辑就清楚了:理想看重的不是一时的交付数字,而是未来五年、甚至十年的核心竞争力。

为了让这套技术体系转得更快,理想在2026年初重组了研发架构,按照“造硅基人”的逻辑分成了Infra、基座模型、软件本体、硬件本体、评估五个团队。

结果是,智驾模型的训练迭代频率从两周一次,大幅缩短到一天一次。在同样的时间里,它能跑完更多的试错循环。这种迭代速度上的差,时间一拉长,就是产品体验上的代差。

所以,对手可以复制屏幕布局、增程系统,但很难在短时间里,复制一整套从芯片到OS再到大模型、并且已经高效运转了多年的研发体系。

李想的判断是,自动驾驶只是上半场,通用人形机器人才是下半场,而未来买L4自动驾驶汽车的用户,和买家庭机器人的用户,重合度高达90%。如果这个判断成立,那理想这五年在全栈自研上的投入,其实是在用一个已经跑通的万亿级市场,为下一个更大的市场做技术储备。

如果它押对了,意义就不止是销量和市值,而是一个更有价值的商业命题:中国的科技产业,到底能不能长出一家靠系统性技术创新立身的公司。

这种“用一个成熟业务养一套底层技术,再用底层技术打开更大市场”的路径,科技史上有过先例。亚马逊当年为了解决自己内部的服务器调度问题,搭出了AWS,最后发现这套能力本身就是生意,从一家零售公司成长为全球科技基础设施的提供商。

理想现在走的,是这一条路的中国版本。上半场靠产品定义,下半场靠底层能力,这是理想押注的逻辑,也是它接下来要证明的事。

*题图来源于理想汽车。