当模仿者追上来，理想选了更难走的路,当你买了模仿者后

上半场赢在产品，下半场赢在底层。

定焦One（dingjiaoone）原创

作者 | 陈颐

编辑 | 方展博

6月15日，理想举办了一场发布会。主角不是车，是“AI怎么走进物理世界”。

在“Livis Day理想汽车软件与具身智能发布会”的演示环节，理想空间智能产品经理吕怡然对着车说了句：后排小朋友困了，帮我哄他睡觉吧。

话音刚落，车里的灯暗了下去，欢快的歌换成了摇篮曲，空调风量调到最轻的一档，座椅缓缓放平；主动悬架也配合着伸缩，让整个车左右缓慢摇晃起来。整个车厢，从可以开party的氛围，变成了适合婴儿入睡的地方。没有人翻菜单、点按钮，理想的具身智能系统Livis听懂了这句话，把这一切做完了。

这一下看着轻巧，其实并不容易。AI现在能帮我们写代码、做图、做视频，可一旦要它走出屏幕、到真实世界里干点活，难度完全不是一个量级。就拿开车来说，我们现在还是要自己开、自己停、自己在复杂路口判断交警的手势。

李想在台上抛出一个观点：今天的智能手机和智能汽车，其实都不智能，它们本质上还是功能驱动的，不是真正的智能体。

那么问题就来了，AI要走出屏幕，第一站会落在哪儿？

理想的答案是汽车。想一想很合理：汽车每天在真实道路上跑，要感知、要决策、要控制；支撑一辆车的感知、模型、芯片、控制和操作系统，恰恰是通用人形机器人的技术底座。而在所有机器人形态里，只有汽车，已经是一个万亿级的付费市场。

一位关注汽车产业的投资人告诉「定焦One」，他现在评估一家车企，只看一件事：AI能力，具体说就是芯片、系统、模型这三层，掌握得越多，未来的天花板就越高。在他看来，谁先在车这个平台上，把全栈技术跑通，谁就先拿到了AI时代最重要的一张入场券。

而理想从2021年星环OS立项，到2022年自研芯片启动，再到2023年大模型立项，这张牌已经打了五年。

01.今天的智驾，到底差在哪？

李想说今天的车不智能，那在他眼里，什么才算智能？

他给“真正的智能”下了定义：真正的具身智能汽车，得同时是四种角色，一辆电动车、一位职业司机、一台AI计算机、一位生活助手。其中，电动车和AI计算机是“具身”，职业司机和生活助手是“智能”。

对照这个标准，行业过去对“智能汽车”的那套定义（软件定义硬件、能联网、能OTA升级）讲的全是功能，离真正的智能体还差得远。

具体差在哪，从普通车主的体感说起，主要是三个维度。

先说安全。今天的智驾，遇到复杂的、没见过的场景，标准动作是退出，把方向盘丢回给你。这在法规上完全合规，但对人来说恰恰是最危险的时刻。李想表示，接近一半的智驾事故，就发生在接管的那一瞬间，驾驶员毫无防备。

再看能力。今天的智驾，本质只会三件事：向前开、向左转、向右转。李想在现场问观众：你对哪辆车的智驾倒车能力是满意的？没人举手。它既不会像人一样在窄路里倒车腾挪，也不会在遇到危险时，自己找个地方靠边停下。

最后是效率。你最不愿意在什么时候用智驾？赶时间、走胡同的时候。因为这些时候，“你得时刻盯着随时准备接管”，其实比自己开还慢、还累。

安全、能力、效率上的差距，根源在于：今天的智驾系统能“看见”，但感知层没有理解“语义”的能力。

激光雷达的线数，从128线堆到512线，但它看不懂红绿灯的颜色、路牌上的“前方施工”，也看不懂保安的手势。感知层看不懂，在决策层再怎么堆数据、调参数，上限都不高。所以这不是靠“堆数据、调参数”能解决的，这是一个架构问题。

理想的解法，正是从架构下手的。

感知层，它首次让3D ViT（三维视觉感知模型）上了车。简单说，就是实时把场景里每一个对象，在三维空间里的位置、姿态、动作甚至是颜色都建出来，让系统从“看见”进化到“看懂”。现场演示时，3D ViT把台下全场观众的姿态，瞬间还原成了一个三维世界，连后排的文字都能读出来。

决策这一层，理想把整套智驾架构推倒重来，推出了马赫VLA（视觉-语言-行动大模型）。过去，感知、决策、执行分属不同模块，中间要“交接”，一交接就有延迟；现在，从“看见”到“决定怎么开”，都在同一个大模型里，一气呵成。

底层架构的重构，让链路短了，反应速度提快到了0.28秒。普通人从发现危险到踩下刹车，平均要0.45秒，顶级F1车手的生理极限是0.25秒，0.28秒已经逼近人类极限了。多出来的这0.17秒，在120公里时速下，等于多出约6米的制动响应距离，差不多是一辆劳斯莱斯幻影的车长。

理想汽车基座模型负责人詹锟

马赫VLA对标的是特斯拉。理想汽车基座模型负责人詹锟承诺，今年第四季度，理想的智驾模型要对齐FSD V14。

在发布会上，詹锟提到，自己上个月飞了趟硅谷，把特斯拉最新的FSD V14.3连着开了整整两个星期，两点感受：第一，特斯拉真的太强大了；第二，压力也真的太大了。

为了兑现承诺，理想也给了三个明确的交付节点：7月，智驾效率整体提升30%；9月，实现全场景自主倒车、主动停车观察这类复杂场景的独立处理；12月，安全和效率全面超越人类驾驶员。

这套从感知到决策的重构，靠的是更强的模型。模型越复杂，对算力的要求就越高，芯片和操作系统如果跟不上，模型的潜力就发挥不出来。而这两件最底层、最烧钱的事，多数车企选择外购，理想偏偏自己造。

02.理想为什么要自己造芯片？

当一家车企说要自己造芯片，外界的第一反应往往是：买英伟达的不行吗？能用，还省事。理想为什么非要自己从头造？

理想算过一笔账，发现买来的方案，在AI时代不够用了。

一个原因是，光靠软件，拉不开差距。用通用芯片，架构层面的优化空间被锁死了，能做的差异化只有软件层。

更核心的原因是效率的天花板。过去几十年，计算机行业吃的是摩尔定律的红利，芯片上的晶体管密度每两年翻倍，性能跟着水涨船高。可2010年之后，每一代制程带来的提升，从翻倍掉到30%、20%、10%。供给在放缓，AI对算力的需求却在猛涨，这是行业难题。

而专用架构芯片可以绕开这个天花板，在特定任务上做到通用芯片做不到的效率。

所以，理想CTO谢炎2022年带队启动芯片设计时的想法是：不能只造一颗比过去更快的芯片，得造一种完全不同的芯片。

理想CTO谢炎

不同在哪？传统芯片用的是冯·诺依曼架构，统治了计算机70年，本质是“一条指令接一条指令”地顺序执行，大量晶体管花在缓存、调度这些“管理开销”上。可AI的计算天然是并行的，本该一起开工的活，硬塞进一条排队的流水线，效率自然提不上去。

理想自研的马赫M100，走的就是另一条路：数据流架构。

打个比方，传统芯片像一个厨房里有个总厨统一发号施令，规模一大，总厨的统筹能力就决定了上限；数据流架构干脆把总厨撤了，每个工位的食材一到就开工，做完直接递给下一个工位。

过去通用计算的规模不够大，这条路线没有用武之地，直到AI时代计算量出现数量级的跃升，它的优势才真正显出来。

这么造出来的马赫M100，5nm车规工艺，单颗算力1280 TOPS，双芯2560 TOPS。但比算力数字更说明问题的是效率：因为架构专为AI而设计，它的实际运行效率超过82%，这个数字，主流架构很难做到。

更值得一提的是，这颗车规芯片的架构论文，入选了计算机体系结构领域的顶级会议ISCA 2026的工业论文分区（Industry Track）。这个分区专门收录来自产业界的架构创新成果。作为这个分区设立以来全球第一家入选的车企，理想6月底要和谷歌、Meta、美光这些公司同台分享。

光有好芯片还不够。芯片上面要是跑别人的系统，潜力也发挥不出来。谢炎在台上问了全场一个问题：苹果和安卓，哪个更安全？多数人答苹果。原因是苹果把芯片和系统放在一起设计。手机被攻击，泄露的是隐私；车被攻击，威胁的是生命。

所以理想自研了星环OS，这是最底层的整车操作系统，车机和智驾，都是跑在它上面的“应用”。比起行业通用的AUTOSAR（汽车软件行业标准架构），星环OS响应速度快了1倍，稳定性高了5倍；落到体感上，120km/h下AEB的刹停距离能再缩短7米。

当芯片和OS都握在自己手里，最直接的体现就是系统响应的“快”。这0.28秒是怎么来的？视觉输入的时延降了47%，模型推理的链路缩了43%，操作系统的调度降了28%，线控底盘的响应降了38%，四个层级各自优化，端到端总时延最终降了40%。这四层分别是视觉感知、模型推理、操作系统、线控底盘，背后是四个技术团队。

以刹车这个动作为例，用供应商方案的车企，芯片、系统、底盘背后各站着一家不同的供应商，接口封闭，优化只能在自己负责的那一层里打转；理想这四层全是自己的，可以让四层一起为“快”这一个目标让路。

说白了，买方案的车企，手里只有一层的优化权；自研全栈的车企，手里有整条链路的优化权。

这个路线，还有实实在在的成本优势，而且卖得越多，越划算。

谢炎今年5月时算过一笔账：如果今年卖出的车全部搭载马赫M100，一年省下来的钱就超过三年的芯片研发费用，更别说这颗芯片还能用两三年。靠高集成度，新一代车型直接取消了上一代平台的一个域控制器，每台车省下一千多块。

星环OS也一样。理想2025年已经把这套自研系统开源，是全球首家开源整车操作系统的车企，据估算，能帮整个行业每年省下一两百亿的重复研发。

所以今年电池、存储芯片价格集体上行，同行大多只能涨价、把成本转嫁给用户，理想却能靠“技术降本”消化压力，全系车型没有同步涨价，新款车型普遍硬件升级但不加价。

往更深一层看，全栈自研真正的壁垒，是把技术转化成了组织能力。

英伟达做通用芯片，必须服务全球所有AI应用，只能做最大公约数；而理想的芯片只需要解一道题：让自家的车在中国道路上跑得最好。因为目标清晰，芯片团队和算法团队可以从定义阶段就坐在一起，算法需要什么，芯片就设计什么。这种从底层硬件到上层软件完全咬合的研发体系，外部供应商给不了，买方案的车企也学不会。这才是全栈自研最核心的价值。

03.增程被跟进、多屏成标配之后，理想的下一张牌

把时间线拉长，更能看懂理想为什么要押重注去造一套底层技术体系。

理想的上半场，赢在对中国家庭用车需求的洞察。要大空间、要冰箱彩电大沙发、要一家老小坐得舒服，它做出了理想ONE，做成了首个千亿营收的新势力。

但随着行业成熟，增程被跟进，多屏成标配，这种靠“产品定义建立的优势”，正在被一点点抹平。这不是理想一家的问题，是所有靠产品定义驱动的公司，在行业成熟期都会遇到的困境。

要打破这层天花板，必须建立一种更底层、别人难以复制的“系统化能力”。

星环OS、马赫M100芯片、马赫VLA大模型、3D ViT感知模型、全线控底盘……今天展示的技术，不是为了应对眼前的竞争突击做出来的，而是五年前，几乎没人讨论具身智能时，就已经开始的长期投入。

这套长期逻辑，从今年一季度的几个动作可以得到印证。逐步停产停售正热销的L系列、拒绝降价清库存、为跨年交付的i6用户自掏腰包补了5亿购置税差额……单看一个季度的账本，每一步都是在主动让出利润。但结合它账上近千亿的现金储备，以及连续六年加码研发、AI投入占比过半来看，逻辑就清楚了：理想看重的不是一时的交付数字，而是未来五年、甚至十年的核心竞争力。

为了让这套技术体系转得更快，理想在2026年初重组了研发架构，按照“造硅基人”的逻辑分成了Infra、基座模型、软件本体、硬件本体、评估五个团队。

结果是，智驾模型的训练迭代频率从两周一次，大幅缩短到一天一次。在同样的时间里，它能跑完更多的试错循环。这种迭代速度上的差，时间一拉长，就是产品体验上的代差。

所以，对手可以复制屏幕布局、增程系统，但很难在短时间里，复制一整套从芯片到OS再到大模型、并且已经高效运转了多年的研发体系。

李想的判断是，自动驾驶只是上半场，通用人形机器人才是下半场，而未来买L4自动驾驶汽车的用户，和买家庭机器人的用户，重合度高达90%。如果这个判断成立，那理想这五年在全栈自研上的投入，其实是在用一个已经跑通的万亿级市场，为下一个更大的市场做技术储备。

如果它押对了，意义就不止是销量和市值，而是一个更有价值的商业命题：中国的科技产业，到底能不能长出一家靠系统性技术创新立身的公司。

这种“用一个成熟业务养一套底层技术，再用底层技术打开更大市场”的路径，科技史上有过先例。亚马逊当年为了解决自己内部的服务器调度问题，搭出了AWS，最后发现这套能力本身就是生意，从一家零售公司成长为全球科技基础设施的提供商。

理想现在走的，是这一条路的中国版本。上半场靠产品定义，下半场靠底层能力，这是理想押注的逻辑，也是它接下来要证明的事。

*题图来源于理想汽车。