45家国产AI芯片厂商调研分析报告
作者:顾正书,AspenCore资深产业分析师
AspenCore声明:感谢安谋科技、合见工软与瀚博半导体在本报告的调研和撰写过程中提供专业的技术指导、应用案例分析和行业洞察。我们将邀请来自这三家公司的技术专家参与EE直播间在线讲座:Fabless技术和应用系列-AI芯片的设计挑战与应用市场分析。
国内外调研机构、行业专业人士和媒体对AI及AI芯片的技术发展趋势和应用场景都已经做了全面和深入
的分析,本报告就不再赘述了。AspenCore分析师团队主要从以下几个方面对AI芯片产品及国产AI芯片厂商进行深入分析(每个部分单独成篇,请点击浏览相应内容)。
1.AI芯片的设计流程和挑战
2.全球AI芯片Top 10
3.国产AI芯片Top 10
4.15家国产边缘/端侧AI芯片厂商及其代表产品
5.AI芯片价值链
6.45家国产AI芯片厂商信息汇总
AI芯片的设计流程和挑战
芯片是一个产品,同时也是一个服务于商业客户的行业,AI芯片自然也不例外。一个芯片从无到有通常需要经过定义、设计、制造和流通几个重要环节,除了制造环节会外包给Foundry和封测厂之外,一个芯片设计公司需要做好芯片定义、设计(包含芯片、系统和软件)、寻客户(渠道建设)几个环
节。简单地说,就是要明确:做什么芯片?怎么做出来?怎么卖出去?无论拥有成熟品牌的大型公司,还是初创公司,同时做好上述三点都是一个很大的挑战。
那么,在AI芯片的不同阶段(规划、设计、验证、流片、板卡/系统集成、应用方案)分别面临什么挑战呢?
1.规划阶段。最大的挑战是如何明确市场定位,规划出最有竞争力的方向。对于AI芯片
设计初创公司来说,在早期阶段就引入战略合作伙伴能更好地理解市场需求,确保开发的AI芯片符合客户需要。同时,在规划阶段就要软件和硬件协同开发,因为AI芯片设计在很大程度上是软件定义硬件。如果硬件对软件和应用需求不友好,单纯从性能指标上看起来可能很好,但却很难实现产品化。
2.设计及验证阶段。这是整个芯片开发流程中非常核心的部分,也是非常考验工程团队
研发能力的阶段。怎么按计划做出符合规划目标的AI芯片是最大的挑战。
3.板卡/系统集成。这是产品化的另外一个关键阶段,再好的芯片如果没有一个稳定可靠
的硬件平台,也没有办法交付给客户使用。在保证稳定性及可靠性的前提下,实现最佳的性能和效率比是最主要的追求目标。面向云端AI的高性能芯片大都以加速卡的形式集成到服务器中,整体能耗和使用成本也是客户考虑的一个重要指标。
4.应用方案。这是连接客户与研发团队的桥梁,要确保研发符合客户的使用习惯,让客
户能够以最小的代价导入到其系统设计中。
下面以面向视频处理应用的瀚博半导体为例,来看国内AI芯片初创公司是如何应对这些挑战的。
从算力高低的角度来看,AI芯片的应用领域依次为数据中心(云)、边缘网关或服务器(边)、终端设备(端)。瀚博开发的是面向云端AI推理的大芯片,主要面临以下三大挑战:
1.随着摩尔定律的放缓,综合利用各种架构优势的异构运算(heterogeneous computing,
DSA架构)成为推动算力增长的新趋势, 但随之而来的是系统架构和软件的复杂性;2.算力越高,通常芯片面积就越大,需要堆积的晶体管数量越多, 这对达成最佳PPA(性
能、功耗和面积)带来了额外的挑战;
3.芯片越大越复杂,开发周期、研发成本和制造成本都随之增高,如何精准地定位一个
有足够大体量的应用市场是AI芯片公司在运营层面的挑战。
据瀚博半导体联合创始人兼CTO张磊介绍,其创始团队在GPU领域拥有非常丰富的经验,但公司并没
有首选做GPU,而是选择通过DSA架构来做面向AI+视频市场的芯片,从而在PPA和成本上具有明显市场优势。同时,相比于很多公司临时招募组建的研发团队,瀚博的创始团队有着多年相互配合的默契,以及大芯片研发和量产的管理经验和实战经
验。该公司的第一颗芯片开始测试8分钟即点亮,这是通过完美执行而应对以上三大挑战的一个最好佐证。
•为什么选择AI芯片而不是GPGPU?
PC时代随着图形操作系统的出现,大量需要3D图形运算的工具软件和游戏对于浮点运算的要求急剧升高,传统的X86 CPU处理器并不擅长这类任务,于是诞生了更擅长浮点运算的GPU。在这类应用中,系统会把图形渲染等任务offload到GPU上去。随着神经网络研究和应用的发展,GPU中的浮点运算能力在这些领域的应用逐渐发展起来,英伟达敏感地抓住了市场机会,将其GPU在保留传统渲染能力的同时增加了对于通用计算和神经网络运算的能力,并称之为GPGPU。
英伟达的GPGPU是包含渲染以及神经网络(“NN”)运算的。这种架构在同时需要两个能力的应用上会有一定的优势,但很显然对于技术积累要求也非常高。目前一些AI芯片初创公司所自称的GPGPU架构是指没有渲染的NN运算,而有一些声称做GPU的公司则是狭义的渲染GPU,二者都不是通常英伟达所指的GPGPU。英伟达由于有长年渲染GPU的技术积累,同时基于先发优势通过CUDA积累了生态
优势,因此选择了GPGPU路线。但是,其他公司在这条路线上与其正面竞争是胜算很小的,即使国际知名公司(像英特尔和AMD)在GPGPU市场与其竞争都有相当的难度。
然而,没有一个技术是完美的,由于GPGPU保留了大量神经网络运算所不需要的单元,在单纯的神经网络运算上并不是最高效的,因此谷歌基于特定域架构(DSA)为自己的特定应用做了TPU。DSA架构给其他芯片公司带来了希望,包括Intel、特斯拉等知名公司都开始在这条路线上发力。
芯片设计是一个国际化的产业,知识产权在其中扮演着很重要的角。渲染GPU由于发展历史久远,专利壁垒较高,即使与之相关的不带渲染的GPGPU也容易踩雷。相反,DSA 由于出现较新,国际大企业和创业公司在知识产权上的差距并不大。选择针对AI+视频市场来做DSA架构的AI芯片,这对瀚博来说也是最明智的选择,其研发团队在视频领域的经验和对于大芯片的驾驭能力也得到了充分发挥。
•项目研发团队是如何分工协作的?
瀚博SV100研发团队成员主要来自AMD、Cisco、意法半导体、华为、高通和Microchip 等公司,其核心团队都有超过十年的开发协作经验。具体来说,瀚博有架构/IP开发、芯片验证、SoC实现、硅后验证,以及软件5大部门。
架构/IP团队负责芯片的整体架构规划以及核心IP的设计开发,某种程度来说架构和IP直接决定了一个
产品的成败;芯片验证团队负责IP以及SoC验证,确保功能和性能符合设计要求;SoC实现团队基于架构设计,将各种IP集成到SoC,并且以尽量小的面积和尽量低的功耗来实现最大的性能;硅后验证团队主要负责芯片的功能性能验证,以及验证板和系统板的开发,同时也负责芯片产品化的各个方面;软件团队负责固件、驱动和编译器等软件方面的开发,可以说硬件定义产品的“身体”,而软件赋予产品的“灵魂”。
•国内AI芯片公司相比国际巨头有什么优势和劣势?
与大多数科技行业的企业一样,国内AI芯片公司的最大优势就是贴近市场和客户,近水楼台先得月。中国市场对于AI芯片的发展有如下几个优势:
1. AI应用本身就是一个新兴市场,很多应用场景都是在摸索中成长的。国内企业在近20年的迅速发展中耳濡目染,对于新鲜事物的尝试意愿是很高的。
2. 中国近年的数字化基础设施建设带来的红利,比如中国拥有世界上最大规模的宽带及
4G/5G通信网络;中国的互联网企业迅速成长为全球巨头,这些都为AI应用创造了良好的发展土壤。
3. 中国很多传统行业处在转型期,比如中国的工业升级是天然建立在数字化前提上的,这给AI带来了巨大的发展空间。
4. 国家政策鼓励芯片创业,新基建和“东数西算”等重大工程都为AI芯片公司提供了坚强的后盾。
国内AI芯片企业的劣势在于技术和IP积累不足,具体体现在:软硬件生态、知识产权和人才等方面。
AI芯片价值链
自从上世纪50年代人工智能(AI)出现以来,AI的发展已经取得了极大的进步,但真正的技术突破和AI应用爆发还是最近10年的事。从2012年开始,AI开发者开发出复杂的机器学习(ML)算法,尤其是深度学习(DL)算法,借助GPU及AI硬件来处理大量的数据集,处理效率和准确度都得到了极大提升。
根据麦肯锡的一份有关AI技术及半导体价值的报告,要实现高效而准确的AI训练和推理,需要九层AI技术堆栈(见下图),其中最底层的硬件加速器可以实现高能效的并行处理,涉及处理器、内存、储存和网络方面的芯片。目前,执行AI加速的处理器仍然以GPU 为主,虽然CPU、FPGA和ASIC也有各自特定的AI应用优势。
九层AI技术堆栈,其中硬件加速器提供AI训练和推理所需要的算力。(来源:McKinsey)
据麦肯锡研究报告预测,AI 芯片将是半导体产业在未来20 年内最佳的应用市场机遇。在其它科技领域,芯片通常只占整个技术价值链10%的价值。但在AI领域,芯片将从整体人工智能的技术价值链中获得40~50%的价值。AI芯片已经成为半导体增速最快的细分市场之一,预计到2025年全球AI芯片市场将达到100亿美元的规模,现已成为国际芯片厂商、互联网巨头和初创公司争相角逐的前沿阵地。
作为一个新兴的半导体市场,AI芯片的产业链涉及多个价值节点,其中有一些是高性能处理器芯片所共用的,但也有AI芯片所独有的价值链节点。从半导体产业的角度来看,AI芯片价值链包括风险投资(VC)、技术人才(Talent)、芯片设计工具(EDA)、晶圆代工(Foundry),以及封装测试(OSAT)。下面我们将逐一阐述每个环节的价值。
•VC
从AI爆发中获益最大的当数英伟达,其GPU至今仍是全世界绝大多数数据中心AI加速的首选。英特尔和并购赛灵思之后的AMD也都在加大数据中心AI训练/推理及边缘计算AI 推理方面的资源投入。作为云端AI加速最大的应用场合,云计算平台服务商都在开发和部署各自的AI芯片和AI加速器。Google基于特定域(DSA)架构的TPU已经发展到第四代,据称其第五代TPU将能够利用AI自动进行芯片布局设计。AWS自研的高性能机器学习推理AI芯片Inferentia也已经批量部署到AWS EC2中。
再看国内AI芯片市场,阿里平头哥于2019年发布的数据中心AI推理芯片含光800基于自
特斯拉融资计划
研架构,采用12nm工艺,集成170亿晶体管,性能峰值算力达820 TOPS,主要应用于阿