汽车自动驾驶芯片行业市场分析
核心观点:
1.自动驾驶与智能座舱芯片一体化趋势明显,自动驾驶芯片具有高算力发展趋势。市场容量未来5年将会高速增长。
2.目前自动驾驶芯片企业中英伟达依托自己的前期GPU积累和算力优势,CUDA生态占据市场领导地位。
3.市场渗透率仍低同时还未固化,需求和技术路线仍在探索。国内自动驾驶芯片企业有望依托国内强势新能源车企业获得突破。
1、自动驾驶芯片概况
1.1、自动驾驶芯片简介:车规级芯片要求更加严苛
芯片按应用场景可分为消费芯片、工业芯片、汽车芯片和军工芯片等。汽车是芯片应用场景之一,汽车芯片需要具备车规级。车规级芯片对加工工艺要求不高,但对质量要求高。需要经过的认证过程,包括质量管理标准ISO/TS16949、可靠性标准AEC-Q100、功能安全标准ISO26262等。汽车内不同用途的芯
片要求也不同,美国制定的汽车电子标准把其分为5级。汽车各系统对芯片要求由高到低依次是:动力安全系统>车身控制系统>行驶控制系统>通信系统>娱乐系统。
车规级芯片特殊的技术和工艺要求挡住了企业进入的脚步。车规级芯片有着比消费级芯片更高的技术门槛,需满足温度、振动、电磁干扰、长使用寿命等高要求,还要通过可靠性标准AEC-Q100、质量管理标
准ISO/TS16949、功能安全标准ISO26262等严苛的认证流程,大
部分芯片企业尚不具备转型进入能力。目前,车规级芯片在传统汽车中的成本约为2270元/车,在新能源汽车中的成本约为4540元/车。随着汽车向电动化和智能化发展,芯片的种类、数量和价格占比将进一步提高。
1.2、自动驾驶芯片产品趋势:一体化
云和边缘计算的数据中心,以及自动驾驶等超级终端领域,都是典型的复杂计算场景,这类场景的计算平台都是典型的大算力芯片。大芯片的发展趋势已经越来越明显的从GPU、DSA的分离趋势走向DPU、超级终端的再融合,未来会进一步融合成超异构计算宏系统芯片。BOSCH给出了汽车电气架构演进示意图。从模块级的ECU到集中
相关功能的域控制器,再到完全集中的车载计算机。每个阶段还分了两个子阶段,例如完全集中的车载计算机还包括了本地计算和云端协同两种方式。
英伟达创始人黄仁勋在2022秋季GTC大会上发布了新自动驾驶芯片——Thor。Thor的特点:一是超高AI性能,拥有770亿晶体管,而上一代的Orin是170亿晶体管。AI性能为2000TFLOPS@FP8。如果是INT8格式,估计可以达到4000TOPS。二是支持FP8格式,英伟达、英特尔和ARM三家联合力推FP8格式标准,力图打通训练与推理之间的鸿沟。三是超高CPU性能,Thor的CPU可能是ARM
的服务器CPU架构V2或更先进的波塞冬平台。四是统一座舱、自动驾驶和自动泊车,一颗芯片包打天下。
英伟达发布的一体化自动驾驶芯片Altan&Thor的设计思路是完全的“终局思维”,相比BOSCH给出的一步步的演进还要更近一层,跨越集中式的车载计算机和云端协同的车载计算机,直接到云端融合的车载计算机。云端融合的意思是服务可以动态的、自适应的运行在云或端,方便云端的资源动态调节。Altan&Thor采用的是跟云端完全一致的计算架构:Grace-nextCPU、Ampere-nextGPU以及BluefieldDPU,硬件上可以做到云端融合。
2、自动驾驶芯片架构分析
2.1、主流架构方案对比:三种主流架构
通用自动驾驶汽车当前主流的AI芯片主要分为三类,GPU、FPGA、ASIC。GPU、FPGA 均是前期较为成熟的芯片架构,属于通用型芯片。ASIC属于为AI 特定场景定制的芯片。行业内已经确认CPU不适用于AI计算,但是在AI应用领域也是必不可少。CPU遵循的是冯·诺依曼架构,其核心是存储程序/数据、串行顺序执行。因此CPU的架构中需要大量的空间去放置存储单元(Cache)和控制单元(Control),相比之下计算单元(ALU)只占据了很小的一部分,所以CPU在进行大规模并行计算方面受到限制,相对而言更擅长于处理逻辑控制。
GPU(GraphicsProcessingUnit),即图形处理器,是一种由大量运算单元组成的大规模并行计算架构,早先由CPU中分出来专门用于处理图像并行计算数据,专为同时处理多重并行计算任务而设计。GPU中也包含基本的计算单元、控制单元和存储单元,但GPU的架构与CPU有很大不同,其架构图如下所示。与CPU相比,CPU芯片空间的不到20%是ALU,而GPU芯片空间的80%以上是ALU。即GPU拥有更多的ALU用于数据并行处理。
CPU由专为顺序串行处理而优化的几个核心组成,而GPU则拥有一个由数以千计的更小、更高效的核心组成的大规模并行计算架构,这些更小的核心专为同时处理多重任务而设计。CPU和GPU之所以大不相同,是由于其设计目标的不同,它们分别针对了两种不同的应用场景。CPU需要很强的通用性来处理各种不同的数据类型,同时又要逻辑判断又会引入大量的分支跳转和中断的处理。这些都使得CPU的内部结构异常复杂。而GPU面对的则是类型高度统一的、相互无依赖的大规模数据和不需要被
打断的纯净的计算环境。
对于深度学习来说,目前硬件加速主要靠使用图形处理单元。相比传统的CPU,GPU的核心计算能力要多出几个数量级,也更容易进行并行计算。GPU的众核体系结构包含几千个流处理器,可将运算并行化执行,大幅缩短模型的运算时间。随着NVIDIA、AMD等公司不断推进其GPU的大规模并行架构支持,面向通用计算的GPU已成为加速并行应用程序的重要手段。目前GPU已经发展到了较为成熟
的阶段。利用GPU来训练深度神经网络,可以充分发挥其数以千计计算核心的高效并行计算能力,在使用海量训练数据的场景下,所耗费的时间大幅缩短,占用的服务器也更少。如果针对适当的深度神经网络进行合理优化,一块GPU卡可相当于数十甚至上百台CPU服务器的计算能力,因此GPU已经成为业界在深度学习模型训练方面的首选解决方案。
2.2、FPGA方案:FPGA芯片定义及结构
FPGA(Field-ProgrammableGateArray),即现场可编程门阵列,它是在PAL、GAL、CPLD等可编程器件的基础上进一步发展的产物。它是作为专用集成电路领域中的一种半定制电路而出现的,既解决了定制电路的不足,又克服了原有可编程器件门电路数有限的缺点。FPGA芯片主要由6部分完成,分别为:可编程输入输出单元、基本可编程逻辑单元、完整的时钟管理、嵌入块式RAM、丰富的布线资源、内嵌的底层功能单元和内嵌专用硬件模块。目前主流的FPGA
仍是基于查表技术的,已经远远超出了先前版本的基本性能,并且整合了常用功能(如RAM、时钟管理和DSP)的硬核(ASIC型)模块。
由于FPGA需要被反复烧写,它实现组合逻辑的基本结构不可能像ASIC那样通过固定的与非门来完成,而只能采用一种易于反复配置的结构。查表可以很好地满足这一要求,目前主流FPGA都采用了基于SRAM工艺的查表结构,也有一些军品和宇航级FPGA采