编者按:FSD V12 实现 End - to - End AI
瑞鹏资产 赵圣斌
智能驾驶行业真是太卷了,年初大家还在争相宣传“无图”智驾,可以不依赖高精度地图,全国都能开。仅仅几个月之后,“无图”智驾就不再受人追捧,“端到端”一跃成为这个行业最靓的崽。那么到底什么是“端到端”,有哪些优点,如何实现,本文就给大家做个详细解析。
一、什么是“端到端”?
智能驾驶系统一般采用模块化模型,“感知、预测、规划、控制”等几个功能模块都有独立的模型。每个模型的技术栈差异较大,处于下游的规划模型需要依赖工程师编写大量代码去制定行驶规则。在模块化的技术架构下,信息的传递会出现减损,系统的维护难度大,无法从容应对复杂路况。
而端到端模型则截然不同,该模型将“感知、预测、规划、控制”等几个模型融为一体,无需程序员编写冗长的代码去制定规则,而是用海量数据去训练系统,赋予机器自主学习、思考和分析的能力。端到端模型不会出现信息传递减损,能够更好地处理复杂的驾驶任务,解决了模块化模型存在的所有“痛点”。
智能驾驶信息的传递不应该是“你画我猜”,而是像人类一样对所见到的信息作出最直接的反应。模块化模型是将一个复杂任务分解成多个子任务,逐个解决,这样的解决问题方式既曲折又容易出错。而端到端模型则是基于问题的根本,直接寻求最优的解决方案。
二、“端到端”智驾系统的优点
模块化的智驾系统是“Rule-based”,是基于规则的,需要在智驾软件中编写无数的驾驶规则。但是由于实际交通道路上总是有突发状况,也就是corner case,所以Rule-based的智驾系统总是不能让人放心。传统的自动驾驶系统是靠规则写出来的,只有感知层那一部分是靠神经网络。后面融合、定位、规控、决策这些都是靠规则写。那么实际自动驾驶的世界,很多情况很复杂,很多事情是用规则写不清楚的,很多Corner Case解决不了,那么智驾系统在大规模商用推广后就存在很大的安全隐患。
“端到端”的智驾系统,是“Learning-based”,是基于人类实际驾驶数据训练出来的。有一些公司做的“端到端”是分两段,前面的感知层用一个网络,后面的规控、决策再用一个网络,然后把规则替掉。但是它的“输入”还是感知的一个“输出”,感知的输出信息量已经被大大简化了。
“端到端”还有一个优点,可以学习不同驾驶员的(驾驶)风格,比如偏激进式的还是保守型,它也能够学到。你可以选择不同的这些风格。另外,“端到端”智驾系统基本上都是多模态的大模型,它的输入不光是这些各种传感器的信号,还有人的语言指令让它怎么去开。因为现在本来就众口难调,驾驶风格上有的是换道、超车比较激进;有的时候不想换道、超车,那就待在左车道,想自己放松一下,驾驶起来不要太紧张。那么这时候,可以通过语言的指令去控制车的驾驶情况。再比如我要跟前面这辆车,它去换道的时候你也去可以跟随它。
三、如何实现“端到端”智驾
训练出来一个优秀的“端到端”智驾大模型,需要数据、算法和算力的协同。
数据端,是训练好算法的重中之重,如何收集海量的有效数据,并且通过训练让模型在相应的场景表现出对应的驾驶行为考验着开发者的技术能力。由于端到端的训练,不再会由工程师编写规划控制的规则,所有模型的行为全部由训练模型的视频数据来决定,因此训练数据的质量就显得尤为重要,平庸的数据不仅不能改善自动驾驶的性能,还可能会起到负面的影响。特斯拉开发了众多软件来筛选数据,决定使用那些数据以及明确什么数据是高质量数据是关键。例如,在此前的软件堆栈中,红灯、绿灯、交通灯的位置和车道的对应关系都会被明确的识别和表示,但FSD V12 中,并没有显式的信息,全部由视频让算法来判断何时应该刹停何时应该启动。另外一个例子也被多次提到,即海外的监管机构要求特斯拉自动驾驶车辆在STOP标志附近完全刹停,而人类司机通常很少在标志牌附近完全停住,因此特斯拉必须在驾驶数据里面寻找一些罕见的案例,来训练并“教会”算法在STOP 标志牌附近完全刹停。
算力端,是训练自动驾驶模型的基础。在2022 年的特斯拉AI DAY 上,马斯克表示目前特斯拉拥有超过1.4 万颗GPU的超算中心。2023年8月特斯拉又启动了1万颗英伟达H100GPU的新训练集群。而特斯拉还明确目标,依靠英伟达的GPU和自身的Dojo超级计算机,特斯拉的算力要在2024年底达到100EFlops,如此规模的算力集群给端到端模型的训练和快速迭代提供了良好的土壤,对实现端到端自动驾驶必不可缺。
算法端,“端到端”的算法实际上需要依赖此前模块化算法的基础,如何构建好的算法模块和体系对开发者来说也尤为重要,同时算法的剪裁、训练亦是打造完美端到端算法的重心。
四、总结
从上面的分析可以看出,席卷全球的大语言模型和GPU军备竞赛,催生出了“端到端”智驾系统,给自动驾驶的真正商业化落地带来了曙光。
截至到2024年5月底,将“端到端”智驾系统真正投入商业化运营的,全球只有特斯拉。我国的华为、小鹏、百度、元戎启行、商汤也对外宣称正在开发和测试“端到端”智驾系统,并有望在2024年下半年投入商用。
随着特斯拉FSD入华脚步的逐渐临近,中国将成为全球智驾系统的顶级赛场,从而正式开启智能汽车革命的“下半场”。