2024年1月,特斯拉正式推送了其智能驾驶辅助系统FSD(FullSelf-Driving)的V12版本,并称该版本已升级为“端到端神经网络”。“端到端”一词随后成为汽车业贯穿全年的关键词。
与此同时,智能驾驶开始大步跨入公众视野。百度的无人驾驶出租车服务“萝卜快跑”截至2月已覆盖武汉主城区大部分区域,引发热议;特斯拉的无人驾驶出租车Cybercab10月在公众面前亮相,也吸引大量目光。多家主攻智驾技术的公司今年先后上市,似乎重新成为资本市场的宠儿。
这些近乎同时涌现的事件在中文语境共享着同一个名词“智能驾驶”,很容易被联想到一起,但实际上它们有各自的独立故事线—“端到端”技术受益于这两年蓬勃发展的AI大潮,想让神经网络代替一条条具体的驾驶规则;而无人驾驶出租车长期使用的技术路线正是“端到端”想要淘汰的。此外,部分智能驾驶公司的资金遇到了新的瓶颈,这也不该由“端到端”背锅,而是因为整个赛道的融资节奏确实又到了需要输血的时候。
理解这些“各自独立”的故事线,才能更完整地理解它们彼此发生的交汇,也更能理解智能驾驶到底进展如何。
特斯拉FSDV12几乎是在第一时间改变了行业对自动驾驶技术时间线的判断。中国的创业者们也几乎都第一时间就意识到自己必须跟上。
小鹏汽车创始人何小鹏在2024年去美国体验了特斯拉FSD的V12版本后称“FSD在数月里有很大的进步”“在硅谷和高速表现极好”。智能驾驶独角兽Momenta的创始人曹旭东说得更直接,“FSD在这半年内进化了几十倍”。
根据何小鹏以及诸多试车者的体验视频来看,FSDV12最大的提升是操作“更像人”。一方面是新版本速度和转向控制丝滑平顺,极少出现急刹急转的顿挫感,也不会加速过猛。另一方面在面对复杂路况需要让行时,新版本也能更灵活高效地通过,而老版本相对更“老实”,有时候甚至会无法通过。
“蔚小理”等在智能驾驶领域走得比较快的主机厂,以及华为、Momenta等头部供应商,都开始推自己的“端到端”解决方案。对于主机厂而言,这么做的近期目标很明确,要维持自己在品牌和技术上的高端调性,必须紧跟技术潮流。端到端的方案能帮助它们快速地将自动转向、变道等辅助驾驶功能普及到更多车型和更多道路上。至于这些“端到端”实际上表现如何,到底能帮车企多卖多少车,很多时候还需要打个问号。而在宣传这一功能时,各个车厂一方面会使用“有路就能开”这种大胆的表述,同时又谨慎地提醒用户,这只是辅助功能,部分路况仍需驾驶员接管。
每家研究智能驾驶技术的企业如今几乎都有自己一套关于“端到端”的解释。不过要准确理解这个概念,最好还是跳出这些复杂的词语迷雾,回到特斯拉使用这个词的初始语境。
在使用“端到端”技术之前,特斯拉的智能驾驶辅助系统FSD使用的是一套包含30多万行代码的规则体系。所谓“规则体系”,可以理解为一本试图做到详尽无遗的驾驶手册。这种技术思路试图把不同路况都归入这本手册中的特定章节,然后通过让智驾AI把这本超级手册完全背下来并照章执行来完成自动驾驶。具体而言,这种“照章执行”一般包括以下过程:感知、预测、规划、执行—这些过程各自有各自的算法和“规则体系”。
这一技术流派的代表是Google重金支持的Waymo。Waymo成立于2009年,基于凤凰城、洛杉矶、旧金山等少数城市的高精地图,在这些区域建立了极其详备的驾驶规则。根据官方数据,今年10月底时Waymo旗下的无人驾驶出租车每周付费订单量超过15万单,周里程超过160万公里。
但是Waymo的“硬规则”方案有一个根本上的限制,那就是有赖于完善的高精地图来为AI“指明”路况。高精地图非常昂贵,不仅需要费时费力测量,还要高频维护,这不仅使得Waymo的业务长期只局限于少数特定城市,无法大规模扩展张,而且让其业务模式变得非常烧钱。仅仅为了在少数城市做到“自动驾驶”,Waymo在2020年5月至今的四年半中已经融资了113亿美元。
与此相比,“端到端”方案的可拓展性要强得多。它试图让AI成为一个能够独立思考的大脑,让它像人一样学会理解模式路况,从而在驾驶时可以抛掉极其繁复的规则,根据自身的直觉反应来开车。所谓的“端到端”(end-to-end),最初始的含义,指的就是自动驾驶系统从输入端获得传感器的各项数据,到输出端的执行驾驶行为,中间全靠一个人工智能模型来完成。由于这个模型能够不断学习,并且对陌生的路况作出合适的决策,所以不依赖高精地图理论上也能适应各种路段。用曹旭东的话来说,Waymo方案虽然“下限相对高”,但是“上限低”,“端到端”模式则相反,上限高,但下限低。
下限低的原因,就是它可能出现各种各样的低级错误。用大语言模型的例子来对比,就是可能会出现各种“幻觉”。而在驾驶这件性命攸关的大事面前,“幻觉”是绝对不能被容许的。
会出现幻觉的核心原因在于神经网络模型是个“黑盒”,科学家能够基于它输出的结果来评估模型的好坏,但并不清楚模型内部的功能机制,很可能解决了一个问题的同时又会引发其他新问题。
解决这类问题的常见思路是“分而治之”,也就是把驾驶这件事拆分成不同的模块,一个一个解决其中的幻觉,避免互相干扰。但怎么拆是关键。Momenta尝试使用“功能场景树”的分类方案,拆出数以百计的细分场景,然后排查出真正容易出问题的场景,再去分析原因和解决。
拆完最后当然需要重新“合”起来,这其中有一个常见的误解,就是认为最后的整合程度越高,代表技术越强—最理想的情况就是上文提到的初始意义的端到端,即所谓的“一段式端到端”。
但“一段式”实际上是个伪概念。以人脑为例,看似是一个整体,其实仍旧可以细分为各不相同的功能区域,比如下丘脑管情绪,海马体管记忆。表面再怎么“一段”,内里的区分仍然不可避免,毕竟如果不做这些区分,就很难解决“幻觉”。所以不仅没必要过分追求“一段式”,甚至于即使在“端到端”模型中也可以接受部分代码仍旧以硬规则形式来托底,就好像我们虽然基本是在凭“感觉”开车,但牢记交通规则仍旧是必要的。
“端到端”的核心是一种技术思路,而不是包治百病的解决方案。曾任“自动驾驶第一股”图森未来CEO的侯晓迪认为“端到端”真正强调的是“一个神经元的集合和另外一个神经元集合之间的通信带宽增加”,也就是说在最后整合完成的“端到端”模型中,感知、决策等不同功能模块不再像“硬规则方案”里只是各管各,而是相互能够共享更多信息,让智驾AI得以在规划路径时考虑更广的上下文,从而作出更好的决策。
简而言之,真正衡量一个“端到端”模型优劣的并非模型本身的“段数”,而应该是其实际行驶表现。以最常见的指标而言,就是在城区道路行驶每千公里所需的接管次数。理想的状况是千公里零接管,而目前的行业头部水平基本是每数十公里需要接管一次。近期内如果能达到城区路况百公里零接管,就已经很不错。
另一家智能驾驶独角兽元戎启行CEO周光表示,如今“端到端”技术的进度条“仅相当于大语言模型的GPT2.0时刻”。
在“端到端”的技术风潮席卷中美的同时,一些成立已久的智能驾驶行业创业公司在资本市场上也受到追捧。
今年港股IPO金额最高的是地平线科技,上市当日公司市值一度突破600亿港元(约合551亿元人民币),它为智能驾驶系统提供芯片;另一家业务类似的公司黑芝麻智能也在今年登陆港交所;地平线上市之后的第二天,文远知行在纽约纳斯达克交易所上市,市值近45亿美元,它的目标是研发全自动驾驶的系统,而与它目标类似的创业公司小马智行、Momenta等也都拟在纳斯达克上市。
上市对这些公司来说当然可喜可贺,但并不意味着这些公司已经成功“上岸”,成为一家持续赚钱的好公司。事实上,它们仍处于大规模烧钱的阶段,只不过先前的投资方已经到了需要退出的阶段,而公司也需要进一步补充弹药,上市成了一个自然的选择。
一个可以对比的案例是,完全自动驾驶的领先者Waymo今年也再次获得了由母公司Alphabet领投的56亿美元融资。相较之下,中国公司的上市只是另一种融资方式而已。
以地平线为例,截至2024年年中,公司的累计亏损额接近297亿元。虽然公司毛利早已转正,为了在激烈竞争中占得先机,每年要投入数十亿元的研发开支,而相比之下,公司去年的总收入才15.5亿元。这样的资本规模要寻求风险投资基金的支持已经不太现实,上市可以说几乎是必然的。
地平线主营的是智能驾驶芯片以及基于芯片的软硬件综合解决方案,相比于只做软件方案的公司,它的市场需求其实增长更快,公司的营收、毛利同比和环比也都在持续增长。而以Robotaxi为目标的文远知行,资金压力更大一些。公司2023年的营收较上一年同比下降24%,今年上半年的营收同比下降达18%,毛利同比也在快速缩水,再加上每年10亿元左右的研发费用,融资的需求更为迫切。
事实上,为了缓解财务紧张,这几年智驾公司已经做了很多努力。很多原本专注做Robotaxi的公司也开始为量产车提供解决方案,小马智行、文远知行等创业公司,早已在开拓可商用的自动驾驶场景,比如港口、机场、工厂、矿区等封闭区域道路。
另一方面,以元戎启行为代表的创业公司则积极寻找传统主机厂的支持,想把当下可量产的辅助驾驶功能应用于量产乘用车上。比如Momenta在2021年获得戴姆勒、丰田、上汽、通用、博世等头部车企或供应商的超10亿美元融资,逐步敲定了多笔量产订单。截至今年6月底,中国道路上已经有近10万辆搭载Momenta量产辅助驾驶功能的车在行驶。元戎启行则在2024年获得了长城汽车的战略投资,并进入其供应链,每月新增装机量数千辆。滴滴自动驾驶也于2024年获得C轮3亿美元融资,领投方广汽旗下的电动车品牌埃安还与其成立合资公司,计划在2025年推出自动驾驶出租车。
随着规模增长,为量产车配套智能驾驶方案的人效正在快速提升。曹旭东在接受播客《晚点聊》采访时提到,Momenta的第一个量产配套项目投入了400多个人,花了一年半时间,而如今只需要几个人花半年时间就能完成。可即便如此,Momenta仍然缺钱。据彭博社报道,公司计划通过上市在2025年继续募集2亿至3亿美元的资金。在目前这个仍在快速烧钱做研发的赛道里,盈利依旧遥遥无期。
对于这场商业长跑,不同资方的考量不尽相同。比如在智能驾驶公司初创阶段就积极参与的风险投资基金,它们最主要的考量是让被投公司以合理的价格上市,便于卖出股份获取投资收益。而车企投资通常发生在初创阶段的尾声,这时车企已经认可了企业的技术潜力,把投资作为锁定未来量产合作的一种方式。等到智驾公司已经获得足够多量产客户之后,公司的业务模式及其竞争力对于一般公众已经拥有一定的说服力,在公开市场上市才会成为可能。
从智驾公司的角度来说,筹钱永远只是公司发展的手段,而非目的。在目前这个红海市场中,上市最多只能算预赛的终点,正赛才刚要开始。至于“端到端”是否能帮助它们在这局比赛中取胜,周光的看法很直接:“上端到端可能赢,不上一定输”。
在智能驾驶领域,向来有泾渭分明的两条路:俗称“L2”和“L4”。端到端在这两条路上的受青睐程度并不同:L2面向量产乘用车,提供辅助驾驶功能,上“端到端”很积极;L4则专注于Robotaxi,旨在造出完全不需要人驾驶的出租车,彻底改变城市出行,这条赛道上的许多头部企业并不热衷于“端到端”。
Robotaxi的目标很高,但大多数Robotaxi产品背后的技术尚且无法与之匹配。今年7月,小鹏汽车创始人何小鹏对此有一个概括,“L4(指无人驾驶)公司很多的技术路线还是算法+小AI模型的组合”,也就是说,仍旧严重依赖于刚性规则的设定,AI泛化能力不足。
这很大程度上是受Robotaxi的运营方式所限。由于Robotaxi的定位是完全无人驾驶,因而政策通常限制其只能在人流不太密集的特定区域、甚至特定时间段试运营。美国的Waymo、百度旗下的“萝卜快跑”都面临类似情况。这一限制使得基于有限区域的高精地图方案能够快速见效,但也暴露出“难以泛化”这一短板。虽然里程数据可以不断积累,但是由仅限于少数道路,其新增数据对算法优化的价值会持续递减。
与之相反,量产车仍旧需要驾驶员坐镇这一“劣势”,从积累数据的角度来看倒成了优势。由于只要有路的地方就能开,量产车上搭载的智驾AI能够获取的训练数据要多得多。2024年上半年中国售出的带有量产辅助驾驶功能(NOA)的新车已经有61万辆,遍布全国各地,而百度的“萝卜快跑”的绝大多数订单都来自武汉一地,它在当地运营的车辆截至2024年年中时总共仅在500辆上下。
Robotaxi产品通常需要在量产车的基础上加装定制的硬件传感器,因此前期成本昂贵。而凭借快速凸显的规模效应,量产车所使用的辅助驾驶传感器成本快速降低,这也使得量产车可以更容易地配置不亚于Robotaxi的硬件,从而抹去很多Robotaxi产品原本通过后装昂贵传感器形成的感知性能优势。而当两者采用的硬件性能相当的时候,更好的软件就成了胜负手。
“端到端”就是这个改变天平的“软件”。和“硬规则”方案主要靠人工设定不同,“端到端”模型性能的提升很大程度上靠AI从行驶数据中自己学习,而在行驶数据方面拥有显著优势的量产车显然拥有更好的发展前景。
这就是特斯拉在做的事:在它眼中,当下量产车的驾驶辅助系统和未来的无人驾驶出租车是一条故事线,将它们串起来的就是基于神经网络模型的“端到端”方案。一辆车完全可以内置“辅助驾驶”和“自动驾驶”两种不同的模式,对应不同的运营场景,Robotaxi公司不需要再费心改装。甚至按照周光的判断,都“不需要为Robotaxi和L2级别辅助驾驶分别开发算法,只需要基于同一套算法来调整基本参数就行”。当然,除了特斯拉目前明确希望将两者真正融合的公司并不多。
在技术之上,Robotaxi其实还有一个更根本的问题有待解决:它的营收模型。马斯克2024年10月首次公布了他对Robotaxi项目的综合运营成本估算:每英里0.2美元(约合每公里0.9元人民币),含税价格可能在此基础上增加50%到100%。这个水平相比目前行业的主流推测明显乐观。侯晓迪简单算了一下:“电池的成本每英里一毛五,电力的成本每英里五分钱,然后轮胎的成本每英里五分钱,仅这三项加起来就超标了。”
归根结底,减少人类司机所产生的“价值”,真的能支撑一个庞大的产业吗?