(报告出品方/作者:国泰君安证券,李沐华、齐佳宏)
1.智能驾驶是特斯拉的核心壁垒之一作为智能驾驶的标杆,特斯拉市值冠绝全球主机厂。特斯拉是目前世界上市值第6高的公司,同时也是市值最高的车企。横向比较来看,年特斯拉汽车销量93.62万台,不及丰田的1/10,而它的市值却是丰田的3倍。究其原因,在三电系统、供应链管理、生产模式、智能驾驶、战略规划、营销模式等方面,它都是行业颠覆者,是标杆一样的存在。
特斯拉是目前唯一一家自动驾驶全栈自研并实现量产落地的主机厂。消费者购买特斯拉的原因有很多,除了三电系统、方便的充电体验、高保值率、品牌影响力,其智能驾驶能力是重要的考虑因素之一。这份报告主要是特斯拉自动驾驶能力的进一步解析。通过研究我们发现,在自动驾驶领域,特斯拉面临过跨越式与渐进式选择,经历了从依靠外部技术到自研芯片和全栈自研实现FSD的摸索过程;硬件配置上,也从依赖摄像头、超声波雷达、毫米波雷达到抛弃各种雷达甚至降低摄像头配置等几个阶段(中间也曾尝试过激光雷达)。特斯拉走过的路,国内想实现智能驾驶全栈自主可控的厂商或许都将经历。当前,国内头部科技实力强的主机厂城市场景的NOA已进入落地试点阶段,从场景上看,与特斯拉存在5年左右的差距,故在这时候回溯特斯拉自动驾驶成王之路,以启读者。
2.特斯拉智能驾驶经历了漫长的进化过程特斯拉研发智能驾驶系统可追溯至年。年9月,马斯克在推特披露特斯拉正在研发其辅助驾驶系统AP(AutopilotSystem)。特斯拉早期曾与Google合作半自动驾驶系统Autopilot,后来叫停,主要原因是Google认为半自动驾驶系统不可靠,现任GoogleWaymoCEOJohnKrafcik解释称“当你把这个系统开发得越好,人们就越容易过度信赖它”。后来Google转向研发L4~L5级别的自动驾驶,特斯拉转而开发第一代AP。
作为车载OTA鼻祖,特斯拉在设计智能驾驶功能时遵循硬件先行、软件升级的方式。与视觉处理芯片独角兽Mobileye合作,特斯拉在年10月正式向公众推出其HW1.0(AutopilotHardware的简写,特斯拉的自动驾驶电脑),其组成包括:1)1个前置单目摄像头(Mobileye),2)1个77GHz毫米波雷达,最大探测距离米(Bosch),3)12个超声波传感器,最大探测距离5米,4)MobileyeEyeQ3计算平台,5)高精度电子辅助制动和转向系统。HW1.0仅在ModelS和ModelX上提供。在未来一年多的时间里,车辆通过OTA不断更新固件,获得更完善的驾驶辅助或自动驾驶功能。需要进行区分的是,HW是特斯拉车载自动驾驶电脑,是硬件;AP是Autopilot辅助驾驶系统,是软件。这两个概念不能混淆,因为硬件是先装机的,有了硬件支持后,辅助驾驶体验主要依赖软件,是真正的大脑,而软件是逐渐升级的。
特斯拉的智能驾驶研发是一个逐渐“抛弃拐杖”的过程。HW1.0依赖Mobileye的技术;HW2.0时代是英伟达的CPU叠加特斯拉自研软件,同期车端FSD芯片也在酝酿当中;年4月搭载两颗FSD芯片的HW3.0上车标志着特斯拉智能驾驶技术正式迈入全栈自研的时代。HW1.0中的芯片和核心技术都来自Mobileye。年7月,由于数据所有权和公司文化的冲突,Mobileye宣布EyeQ3是它和特斯拉的最后一次合作。实际上,早在年4月,特斯拉就组建了基于视觉感知的软件算法小组Vision,准备自研软件逐步替代Mobileye。年10月,特斯拉推出HW2.0,这套方案基于英伟达的DrivePX2,由两个公司联合开发。HW2.0相较于HW1.0在性能上实现了大幅提升,摄像头由2个增加至8个,处理器算力提升为12TPOS,为HW1.0的48倍。由于HW2.0的软件系统AP2.0是特斯拉自行研发的,起初辅助驾驶使用体验(8.0版本)不够成熟。年3月29日,特斯拉推送了8.1版本软件更新,AP2.0的性能逐渐开始追平AP1.0。年8月,特斯拉为HW2.0进行了一次小幅更新,被业内称为HW2.5。HW2.5为Autopilot系统提供了更强的算力,增加了系统的冗余性和可靠性,为实现自动驾驶打好了硬件基础。软件上,年10月,特斯拉推送AP9.0,此版本基本实现了对高速/城际公路这种简单场景的自动驾驶,这项功能被视作是L4最早期的形态。
HW3.0中的FSD芯片是特斯拉专门为自动驾驶打造,与特斯拉车型强耦合,让特斯拉拥有了对其产品的完全掌控权。一方面可以充分利用计算单元、高效迭代产品,另一方面成本也更加可控。在研发HW2.0的同时,特斯拉内部也启动了FSD芯片的研发。他们认为DrivePX主要基于通用的GPU架构,并不是专门为无人驾驶系统打造,还有一定的优化空间来提升运算速度。年8月,FSD芯片测试完成。年4月,FSD芯片正式在Model3上应用。FSD芯片主要由CPU、GPU和NNA(NeuralNetworkAccelerator)三个计算模块,以及各种接口,片上网络等组成。算力上,每秒可处理图片张,较HW2.5的每秒张的处理能力提升了21倍。由于该芯片只针对特斯拉车型设计,所以设计时将NNA的许多通用功能从FSD芯片上剥离,只保留特斯拉需要的硬件,成本相对于HW2.5下降20%。特斯拉可以在FSD芯片上打造自己需要的方法,比如编译器,以更高效地利用各个运算单元(这个在第三节会有更好的感知)。整个FSDComputer(和HW3.0同义)上布置了两个完全独立的FSD芯片,及各自电源系统、DRAM和闪存,可以实现完全冗余。在实际行车过程中,两颗芯片同时对相同的传感器数据进行独立分析,并对结果进行平衡、仲裁和验证,提高自动驾驶的安全性。FSDComputer在设计上与HW2.0的传感器、线控参数、I/O、尺寸等保持一起,特斯拉已承诺为所有选配FSD包的HW2.0和HW2.5用户免费升级到FSDComputer。
至此,特斯拉拥有了算力强大的FSD芯片和源源不断生成的车队数据,具备通过AP算法的升级实现自动驾驶的理论可能性。年FSD芯片上车以后,AP算法飞速迭代,我们将在下一章节详细介绍。
3.FSD:特斯拉智能驾驶的关键一跃年7月10日,特斯拉正式向约名美国用户推送了“完全自动驾驶”FSDBetaV9版本,其独特之处在于摒弃了毫米波雷达、超声波雷达等传感器,采用纯视觉的自动驾驶方案。本章将从FSD的含义、演进过程、现状出发探究特斯拉在智能驾驶领域的进展和贡献。
3.1.特斯拉的智能驾驶包分为三个类别
特斯拉的智能驾驶包分三个类别,AP是特斯拉车型标配,FSD是顶配:AP(Autopilot):最基础版本,免费标配;EAP(EnhancedAutopilot):增强辅助驾驶,在基础版的基础上增加了智能召唤、自动泊车、自动变道、自动导航驾驶(NOA)等功能,目前中国区售价3.2万元。FSD:主要功能包括导航辅助驾驶(NOA)、自动变道、自动泊车、智能召唤、交通信号识别、(基于导航路线的)城市道路自动转向等,目前仅在北美地区有Beta版,美国售价1.5万美元/加拿大售价1.75万美元(现在可以申请一个月的试用权)。除了收费之外,装Beta版的客户需要安全得分超过80且驾驶里程超过英里。年7月10日,特斯拉正式向约名美国用户推送了“完全自动驾驶”FSDBetaV9版本,根据公司在年Q3业绩交流会上的披露,FSDBeta在年9月测试用户扩大到16万。自年以来FSDBeta实现了36次新版本推送,目前最新版本是在年11月1日发布的FSDBeta10.69.3。
FSD在能力上向L4发展,但在归责上仍遵循L2的方式。
按照目前受到广泛认可的国际自动机工程师学会(SAE)的定义,L4等级的自动驾驶应当能够自主识别是否达到了设计运行条件,并在条件无法达到时,自动执行最小风险策略,而用户并没有义务进行介入。在L4的语境里,驾驶系统可以在限定的区域内实现自动驾驶,不需要人来介入,并且在这个场景下,由系统承担责任。特斯拉并没有遵循业界常用的自动驾驶分级标准,而是自创了一套规则:在FSDBeta里,系统的设计遵循自主工作的逻辑,但必须有驾驶员的监控。车内摄像头可以监视驾驶员注意力的集中度,如果驾驶员走神,车内会报警;如果驾驶员忽略报警,车会自动开到路边停下来。基于这样的设计,FSD仍被视作是L2系统,事故责任在驾驶员而不在特斯拉。从用户角度看,客户花钱买到自动驾驶能力,但做的是测试员的工作。
这里额外提到一句L3。L3指的是车辆自己开,驾驶员坐在驾驶位可以玩手机可以看视频,不能睡着。车辆如果遇到问题之后提前报警,驾驶员在规定时间之内监管车辆。在责任划分上,根据因果关系判断驾驶员及系统责任。特斯拉在技术上实际上已经超过L3,但本质还是L2系统。第一是因为L3权责的模糊性,第二是因为现在系统还不够成熟,公司无法为L4背书。现在业内的一种观点是,提出L3不是一个好的产品形态,未来智能驾驶产品可能先要标配DMS,而后由L2、L2+、L2++直接跳到L4。
3.2.FSD架构演进充分展现了特斯拉的强大实力
本部分将以FSD的架构为核心,分析FSD架构的底层创新、理解纯视觉和传感器融合技术路线的异同。具体的技术细节不做详实的展开,因为它对非研发人员对参考意义不大。无论是纯视觉还是多传感器期融合方案,实现自动驾驶都可以拆解为以下2步:1.感知:我周围有什么物体?他们是怎么在空间上分布的?下一步他们会去哪里?2.规控:我该怎么走?在感知与还原这一步,除了要识别周围物体的分布和运动状态,还需要识别车道线、信号灯/指示牌,用于后面规划路线。在规控上,基于上一步的结果,旨在寻找安全、舒适、高效地到达目的地的路线方案。在实际行车过程中,这些运算需要在毫秒级别的时延里完成。纯视觉和多传感器器融合方案的区别主要是在第一步,在规控算法方面,大家要突破的问题并无二致。感知上,AP软件架构在年8月做了一次底层重构,是纯视觉实现L4的“关键一跃”。实现L4最难做的就是城市场景,尤其是十字路口拐弯的场景,其困难性在于车道线轨迹复杂、其他物体多且各自的运动轨迹不同。在早年AP还没有覆盖城市道路场景的时候,特斯拉的感知方案是对二维的图像数据做语义识别。这个方案的瓶颈在于:1)行车是在三维空间中进行的,在图像中做规控不如在空间中做规控。2)无法对被遮挡的地方做预测。在这种方案下,AP在复杂的城市道路场景下的瓶颈难以突破。年8月,马斯克在推特上宣布团队正在对FSD的底层架构进行重写。在此后年和年的特斯拉AIday上,AP团队向公众介绍了新的软件架构,底层创新令人非常震撼。
到年年中,主要进展是建立了2维摄像头图像向3维空间的映射,相当于生成了一个实时的车体和其周围空间的俯视图,同时也获得了周围物体的运动速度,解决了摄像头无法测速的问题。Multi-head是业界自动驾驶感知模块常用的方法,它包括Backbone,Neck和Head,在输入rawdata后,Backbone和Neck会提取一些通用的图像特征,然后,在Head层会解决不同的感知任务,比如物体检测、交通信号灯识别、车道线识别等,特斯拉的Multi-headNet叫HydraNet。
革新一,将周围的空间统一:图像经过RegNet、BiFAN提取特征后进入BEV(鸟瞰图)空间转换层,将所有8个图像组合成一个超级图像,这个新的空间较原来的二维图像增加了深度信息(物体之间的距离)。
革新二,融入时序数据:在实际行车过程中需要做大量预测,比如周围物体的移动速度、他们是否被遮挡、前方50m外的标志牌是怎样的,这些都需要图像的上下文(即视频)。因此,特斯拉将视频模块也放入神经网络的训练中,在BEVTransform后加入VideoNeturalNet,由此使感知模型具有了短时记忆的能力。
到年年中,特斯拉在长尾障碍物的感知问题上取得了一定进展,主要针对的是行车中cornercase无法被覆盖、恶劣天气、物体被遮挡的问题。通过前面的介绍,比较敏感的读者可能会发现特斯拉解决的问题主要就是高精度地图和雷达可以为摄像头补足的短处,但这个模型并不完美。在年的AIDay上,AP团队向大家展示了感知模型的最新进展,在去年HydraNet(+BEVLayer+VideoNeuralNet)的基础上,进一步提出了OccupancyNetwork。在OccupancyNetwork中,周围的世界被划分成小立方体,通过预测3D空间的占用概率来还原物体的大致形状。它对物体没有过多的几何假设,因此可以建模任意形状的物体和任意形式的物体运动,以应对长尾障碍物的感知和极端天气的影响。在这种方案下,地图由2D形式变成了3D形式。此外,输入的数据不会再经过ISP处理,而是直接输入photoncount数据,这将保留更多的信息并能够降低延迟。目前,OccupancyNetwork已经在所有装FSD的车上运行,大约每10ms运行一次。
感知层是纯视觉派自动驾驶路线的主要争议点。需要注意的是,特斯拉也并没有完全放弃雷达,年6月它在FCC注册了一款4D毫米波雷达,并提交了详细的合规测试报告。而在其他方面,比如规划、车道线识别、数据训练等方面,特斯拉的做法充分体现了其强悍的算法、工程和架构能力。
数据:
数据标注:数据收集,一部分来自车队传回的数据。包括在用车时失效的案例,更新标注后会被重新加入训练集。一部分来自模拟数据(Simulation)。模拟数据是由场景生成器生成的,最快5min生成一个场景,理论上可以通过排列组合的方式生成无限多的道路场景,这主要是为了提升自动驾驶系统对长尾场景的反应力。标注上,特斯拉采用人机合作标注的方法,大幅提高标注效率,人机标注引擎正在构建中。AutoLabeling和Simulation这两个项目被认为是工程人才集中的地方。
数据引擎:串联数据收集、人机数据标注、模型训练(包括自动标注、规划算法等离线模型与占用网络、车道线识别等车载模型)、上车,往复循环。
模型训练基础设施:特斯拉内部有3台超级计算机,包括1.4万个GPU,其中1万个GPU用于模型训练,大约4千个GPU用于自动标注。共30PB的分布式数据缓存,每天都有50w个新的视频流入。为了更高效地利用这些视频,在加解码、读写环节都做了加速器的研发。在过去的一年里,一共训练了7.5万个神经网络模型(大约8次/分钟),发布了其中个模型。后面还会用自研芯片优化处理性能。
规划与控制:融入成本函数、人工干预数据或其他仿真模拟数据,在向量空间中通过传统规控方法与神经网络相结合的混合规划系统实现汽车的行为与路径规划,生成汽车转向、加速、刹车等控制指令,由汽车执行模块执行。这部分业界大部分主要依赖基于规则的方法,特斯拉将深度学习很好地融入其中。其神经网络的训练集包括两部分,一个是没有时间约束下的传统规划算法的策略,一个是人类驾驶员手动驾驶时选择的策略。
车载电脑FSDComputer的设计体现全栈自研厂商对产品的充分掌控,有助于芯片算力的充分利用。所有运行在车载电脑的神经网络模型加起来大约有10亿个参数,运行过程中会生成0多个神经网络信号。为了更高效地运行这些模型,特斯拉在FSD计算机中搭建了专门针对神经网络的编译器、神经网络连接器,并这些模型进行联合优化,最大化计算利用率和吞吐量。设计混合调度系统,对两个芯片上的系统进行分布式调度,以并行的方式运行这些网络。在这样的架构下,可以实现在10毫秒内任意场景在构建带高程的俯视图,这也是特斯拉能摆脱高精度地图依赖的原因。
3.3.FSD对特斯拉而言意义重大
全栈自研,快速迭代,基础能力扎实,构筑了特斯拉在智能驾驶领域的核心壁垒。1)以数据为中心,在多个感知、规控、标注等部分之间共享数据格式和特征空间,减少了重复劳动的时间和人力浪费;2)以AI为驱动,特斯拉作为目前世界上最领先的高科技公司之一,吸引了世界上最顶尖的AI人才,在算法设计上的历次底层创新铸牢了公司的护城河;3)全栈自研,从算法、车端硬件到离线数据中心的计算芯片,特斯拉在关键环节逐步实现完全自主可控,将核心能力牢牢握在手中。基于公司内部的配合有利于更好地做产品架构的顶层设计,效率上优于需要产业链公司配合的友商。
降本增效的“向前一步”。FSD更少的车端硬件可以减少特斯拉对供应链的管理、故障召回等成本,这将进一步压缩整车制造成本。对马斯克而言,“Bestpartisnopart”,他竭尽全力去除系统中不必要的部分,从而控制整个系统的熵维持在合理的水平。数据调度和处理能力、算法等关键能力可拓展到其他场景。在年AIday上,马斯克发布了人形机器人特斯拉botOptimus。根据AIday的内容不难发现,Optimus一方面在硬件上充分共享特斯拉汽车供应链。另一方面,由于其软件架构的顶层性,FSD研发环节和相关算法也在其中很好复用:1)感知算法完全是FSD感知的下游应用,2)路径规划可以复用FSD的规控建模路径,只不过机器人场景中物体更多、交互关系更复杂、要求的分辨率更高、环节场景更多样,3)室内环境建模,与特斯拉对车内导航问题的抽象一致。
特斯拉的解决方案有望率先实现单车智能L5。自动驾驶的技术路线主要分两种,一种是单车智能,通过摄像头、雷达等传感器以及算法赋予汽车自动驾驶的能力;一种是车路协同,在传感器的基础上结合5G和高精地图来感知路况和其他车的情况来实现自动驾驶的能力。对于目前具备L4能力的公司的区别,特斯拉智能驾驶前负责人Andrej描述很生动:“Waymo和业内许多其他公司都使用高清地图。必须在预先铺设地图的环境、拥有厘米级精度的激光雷达,而且要轨道上,才能开车。你准确地知道你将如何在十字路口转弯,哪些红绿灯与你相关,知道它们的位置以及一切。我们不做这些假设。对我们来说,在我们遇到的每一个路口,我们都是第一次看到它。”由于行车是基于开放场景,而车路协同中智慧的路全面铺开短期内较难实现,结合前文的分析,相较之下特斯拉最有希望率先通过算法革新实现全场景自动驾驶。
4.自动驾驶,谁主沉浮4.1.各类厂商加紧投入,国内智能驾驶快速发展
H1中国L1、L2级别的辅助驾驶渗透率持续提升,L1级别的主动安全和行车功能逐渐成标配。在中国,目前L1、L2级别的智能驾驶已经大范围铺开,大众价位的车型加快L2级别的方案上车。
根据中国汽车报的披露,年,中国乘用车市场的新车销售中,具备L2级智能驾驶的车型销量为.6万,占比23.5%,同比增长57.2%。
根据佐思汽车研究的拆分数据,在H1销售的新车中,目前L1级别的主动安全进展最快,渗透率达三成以上;L1级别的行车功能渗透率快速提升,从去年的10%左右到年的20%左右;L2级别的辅助驾驶主要集中在泊车场景,自动泊车辅助APA渗透率达13.8%。
L3-L5的智能驾驶处于商业化早期,以造车新势力、科技企业为代表的自研派进展较快,已开始积极试水城市道路场景。
NOA领航辅助驾驶是目前已经量产的高级别的辅助驾驶功能,目前仅有头部造车新势力如蔚小理和头部科技公司如华为实现了高速的NOA。
城市道路的NOA是下一步要攻克的方向。由于中国的城市道路场景复杂多变,城市NOA较高速NOA研发难度大幅提升。根据小鹏汽车自动驾驶副总裁、前高通自动驾驶负责人吴新宙博士的公开访谈。相比高速NGP,城市NGP的代码量提升至6倍;感知模型数量提升至4倍;和车辆行为相关的部分包括预测、规划、控制,相关代码量提升至88倍。目前,小鹏和极狐已经分别在开始推送城市NOA的试点;搭载激光雷达的毫末已经进入量产,计划年内发售。不过,小鹏仅仅是在广州一些特定路段进行小范围测试,搭载华为技术的极狐也只面向深圳的Beta用户进行封闭式推送。蔚来计划年内实现在ET7和ET5等车型搭载的NAD系统上实现城市辅助驾驶。
主流车企锚定/实现L4,技术上走传感器融合路线,以激光雷达为代表的硬件预埋已开始,构建数据闭环为关键能力。
目前包括蔚小理等新势力和传统的自主OEM厂商对实现L4的规划普遍在-年之间。
对L3+的自动驾驶技术上的两派,一派跨越式,以Waymo为代表的L4厂商。这些厂商切入智驾赛道较早,技术上往往采取多传感器融合+高精度地图的车路协同方案。激光雷达在恶劣环境下仍能测距和定位,高精度地图提供先验知识。这类厂商在第一波自驾潮中崛起,吸收了大量资本市场的投资,但始终存在量产和政策合规的问题,目前经营上主要是Robotaxi的MaaS(MobilityasaService)模式。另一派渐进式,它们早期以造车买车为盈利点,通过OTA的方式使智驾等级由L2向更高级别过渡。这类厂商可以通过售卖私家车形成数据积累到模型训练、算法迭代的闭环。在渐进式厂商中,除了特斯拉采用纯视觉方案,其他厂商都采用多传感器融合方案,前者的难度主要在算法上,后者对算法要求低一些,但对数据融合的考验比较大。当然对算法的要求是没有上限的,在算法无限优化的情况下,激光雷达可以起到安全冗余的作用。
硬件预埋军备竞赛已经开始,如何用好数据、构建数据闭环是关键。在年上市的车型中,以蔚来ET5、理想L9、小鹏G9、哪吒S、广汽埃安AIONLXPlus为代表,均搭载了1颗以上的激光雷达,同时也加了高精度地图定位单元,各家厂商的硬件预埋已经就位,也暗示了这些中国自主玩家都将走传感器+高精度地图的融合路线。根据蔚来