扩展无极限 解析全新Imagination B 系列GPU
汽车对比
作者:***
来源:《微型计算机》2020年第22期
性价比最高的汽车
        之前本刊介绍过Imagination的全新A系列GPU,并给予了高度评价。现在,跟随着Imagination的发布时序,全新的B系列GPU也已经准备完毕。相比全面革新的A系列GPU,B系列GPU又带来了那些激动人心的特性呢?
五菱荣光最新报价
        满足市场需求通过多GPU扩展提高性能
        Imagination目前在移动GPU市场中的艰难现状几乎是众所周知的事情。作为ARM之外的唯一移动GPU提供方,Imagination的客户数量在持续下降,主要原因就是ARM也可以提供具有竞争力的CPU和GPU知识产权,且需要高性能移动GPU的客户数量其实并不多。诸如高通等厂商其内部的Aderno GPU在性能和功能设计上也居于领导地位,并且对其他供应商施加了巨大压力,这导致其他供应商在很多情况下会直接选择ARM的GPU产品,除了联发科之外。联发科是历年来唯一一个在SoC产品中经常使用Imagination GPU产品的企业,但是最近的Helio又改回了ARM Mali GPU,并且短期内再度使用Imagination GPU的可能性应该也不大。
        随着苹果使用Imagination的架构许可来设计定制GPU,三星和AMD合作计划在Exynos中引入AMD的技术,华为海思在设计自主GPU架构以及前景不够确定的情况下,Imagination面临需求不足的问题。
        这样一来,Imagination需要将发展空间聚焦在移动之外的市场,比如高性能计算、汽车市场等。但是从传统的移动设备转移至高性能GPU是非常困难的,因为这将直接影响整个GPU架构的平衡和设计,毕竟移动GPU面向的是低功耗市场。这实际上是绝对性能、可
扩展性和功耗效率之间的平衡问题,毕竟高性能GPU的能耗比肯定不会高,但是低功耗、高效率的移动GPU无法扩展性能。
        因此在B系列GPU上,Imagination引入了一种新方式来解决这个问题,那就是使用多GPU。在看到多GPU的时候,大家首先想到的是台式机的多GPU并联技术,比如英伟达的SLI或者AMD的CrossFire,但是由于现代游戏API和多GPU技术存在一些冲突,因此这个技术已逐渐被厂商抛弃。
        Imagination在多GPU的处理上和过去完全不同,其主要区别在于GPU处理工作负载的方式。B系列的工作模式将从传统的“推送”模式转变为新的“拉动”模式,其中前者表示GPU驱动程序将工作推送至GPU进行渲染,后者则表示GPU将拉入工作负载并进行处理,这是GPU在数据馈送工作方式的根本性转变,Imagination称之为“分散式”设计。
        根据Imagination的介绍,在一组GPU中,其中一个充当“主”GPU,带有一个额外的控制固件处理器,该处理器将一个工作负载(比如一个渲染帧)划分为不同的工作块,然后其他“从”GPU可以从这些工作块中拉出不同的工作以进行处理。在这里,Imagination使用了“tile-based”用于形容这个工作方式,这里的“tile”实际上就是它的本意,指不同的工作区
块,也就是说GPU基于区块的渲染方法是这个全新机制的核心,这里需要注意的是,区别之前AFR备用帧渲染或者SFR分割帧渲染。同样的,由于使用区块渲染的单个GPU可以针对给定的帧进行不同尺寸的区块渲染处理,那么相应的B系列GPU也可以针对单一帧针在一组GPU中进行不同尺寸大小的分配,这将有助于提高整体的渲染效率。
        最重要的是,Imagination推出的这个全新的多GPU系统对于高层的API和软件工作负载来说是完全透明的,这意味着从软件角度来看,运行多GPU配置的系统只需要面向一整个大型GPU,这和目前大多数使用多GPU的离散渲染系统形成了鲜明的对比,后者会在系统中显示每一个离散GPU信号,这也是Imagination这项全新技术的特别之处所在。
        从实现的角度来看,这项技术使得Imagination和其客户在配置选择方面有了更多的灵活性,Imagination不再需要设计一个巨大的GPU,并且这种大型GPU往往由于时序收敛或者微体系结构扩展方面需要做更多的工作。现在Imagination可以设计一个高效率的GPU核心,并且允许客户对GPU核心根据需求进行规模上的缩放。另外,Imagination还声称自己将提高GPU的频率,比如针对高端市场、云计算等方面计划实现1.5GHz的产品频率。
        对于客户而言,Imagination这样的设计给予了客户极大的灵活配置空间,客户不需要
等待Imagination为其设计实行目标相匹配的GPU,而是利用现有GPU进行“缩放”,就可以获得目标性能,并且能够自主配置和扩展,尤其是客户需要为多个目标设计多个SoC的时候,那么只需要使用一种GPU模块就可以轻松实现多个性能目标。
        本文将在后续段落详细介绍Imagination的缩放功能。目前B系列GPU最多可以支持扩展至4个GPU,和一个较大的GPU相比,在SoC上放置多個B系列GPU时并不要求GPU必须相邻甚至可以完全不相邻。这是因为每个GPU都是独立的设计模块,设计人员甚至可以在满足设计要求的前提下,SoC的四周放置4个GPU。
        对SoC设计人员而言,要使用Imagination的B系列GPU的唯一要求是他们必须使用标准的AXI互联总线并将多个GPU连接到内存,对于GPU之间的连接则没有那么麻烦,因为GPU之间只需要一些比较简单的连接用于实现不同的GPU核心之间的中断即可,这种连接并不传输具体的数据。因此,这种设计特别适合现在比较流行的Chiplet或者多硅片芯片设计,尽管当前单个GPU设计很难使用和CPU组相同的方式分解为多个小芯片,但是Imagination的分散式多GPU在横跨多个小芯片时应该不会出现特别的问题,同时在软件端和系统层面,看起来依1日是一个整体的GPU。
        总的来看,Imagination正在使用这种新的多GPU方法来实现之前无法提供的更高性能的设计。Imagination宣称,通过多GPU扩展,他们基于移动设备、更高效的GPU lP可以与英伟达和AMD当前提供的其他产品相竞争(Imagination将其最大配置扩展到6TFLOP),并提供PCle的外在设计,还带来了高达70%的计算密度提升,这个数据是Imagination定义的,其单位是TFLOPs/mm2。尽管该指标在性能方面相对没有意义,原因是集GPU的性能上限依旧受到架构和当前B系列GPU所能实现的最高MC4扩展所限制,但是在小尺寸芯片上,这个数据能够带来极高的成本收益,因此也呈现出非常出的市场竞争力。
        目前,Imagination的新B系列GPU目前包含了很多不同的等级的产品,并且该公司继续将其划分为不同的性能等级-BXT系列是旗舰GPU设计,BXM系列是更加平衡的中端GPU,BXE系列是该公司的最小、最高效的兼容Vulkan的GPU。
        从BXT开始4个GPU如何达到6TFLOPS性能
        在本部分,本文将继续讨论B系列GPU的扩展性和架构内容。从架构角度来看,新的B系列GPU和之前公布的A系列GPU在微架构上非常接近,不过Imagination提出新的B系列大约可以带来性能或者效率15%的提升。另外,B系列GPU还带来了一些新加入的功能比
如IMGIC( ImaginationImage Compression,Imagination图像压缩技术),这个技术后文还有介绍。
        更进一步来看的话,BXT系列GPU采用了新的SPU设计,包含了新的、功能更强大的TPU(纹理处理单元)以及新的128宽度的ALU,这些新的功能加入了被称为USC( (UnifiedShading Clusters’统一像素计算簇)的单元。
        BXT系列中最大规模的单元被称为BTX 32-1024,将其中4个集成在一起,可以创建被称为BXT 32-1024 MC4的GPU,这个GPU在高达1.5GHz的主频下能够提供6TFLOPS的FP32计算能力,虽然这个性能还不足以和AMD以及英伟达的顶级显卡相提并论(RTX 3090的FP32性能约35TFLOPS),但是考虑到Imagination是一个移动领域GPU架构的提供商,这样的性能也还是相当不错了。
租车都需要什么手续
        在BXT之外就是BXM系列GPU。相比BXT,BXM的定位要低一些,因此没有加入XT系列的超宽ALU设计。在这个系列的GPU中,如何实现最高的面积效能需要仔细地衡量。以BXM-4-64为例,这个系列如果使用8XT系列的32宽的ALU,并将4个同样型号的GPU组合在一起实现BXM-4-64 MC4的GPU的话,那么其面积效率和性能相比单一的、规模更大
的BXM-8-256GPU可能要更高一些。吉利收购阿斯顿马丁
        在更注重性价比、更小的BXE上,集使用就变得更有趣了。因为BXM系列的设计目的极为注重面积效率,但绝对性能不高,因此BXT和BXM往往作为主要GPU提供,BXE既可以作为主要的GPU,也可以作为辅助GPU形式存在,当BXE作为辅助GPU存在的时候,将不加入固件处理模块或者几何图形模块,这部分计算将完全依赖于主GPU的几何计算单元。Imagination表示,这种特殊的设计能够在极其微小的区域面积占用的情况下提供相当高的计算能力和纹理填充率。
        根据Imagination提供的规格并组织成表后,我们看到了Imagination只需要8钟不同的硬件设计就可以创建RTL并进行物理设计、确定时钟频率等,面向低端领域的GPU设计在这里也可以扩展到高端移动SoC中,设计非常巧妙。对客户来说,如此灵活的设计方案能够为其带来最大的便利,客户可以通过不同的GPU组合来实现自己需要的性能。