算力端:自研大规模集超算平台,Dojo有望提供强算力
❑特斯拉自研超级计算平台Dojo——基于超大计算集设计。Dojo架构由特斯拉完全定制,涵盖计算、网络、输入/输出(I/O)芯片、指令集架构、电源传输、冷却等,具备高可扩展性和分布式系统。Dojo具备超高集成度,并非根据小系统拓展而来,旨在高效地处理海量视频数据、进行定制的神经网络训练。Dojo于
2021年首届特斯拉AI    Day上面市,当时仅有第一批芯片和训练块,尚未构建起完整的Dojo机柜和集
(Exapod);2022年AI  Day,Dojo取得新进展,并通过后续的持续部署与规划,搭建起大规模算力集,推动大模型训练。
❑算力规划明确,Dojo正式投产。1)2023年7月,Dojo进入投产阶段,拉开特斯拉算力集快速建设阶段的帷幕;2)预期2024年2月,特斯拉的算力规模进入全球前五;3)预期2024年10月,特斯拉的算力总规模达到100EFlops,相当于30万块A100GPU的算力总和。
特斯拉Dojo的构成特斯拉Dojo算力规划
算力端:特斯拉Dojo——自研的D1芯片
❑Dojo D1性能:Dojo的计算核心采用特斯拉自研的D1芯片,D1芯片使用台积电7nm工艺,拥有500亿个晶体管,芯片面积为645mm²,BF16、CFP8算力可达362TFlops,FP32算力可达22.6TFlops, TDP为400W。而英伟达A100芯片同样采用台积电7nm工艺,拥有542亿晶体管,芯片面积826mm²,FP32峰值算力为19.5TFlops。
❑Dojo D1架构:D1芯片由18×20颗核心构成,出于良率和稳定性考虑,每个D1芯片有354颗核心(Node)可用。特斯拉全自动驾驶
从每颗核心的微架构来看,D1 Node采用存算一体架构(近存计算),带有向量计算/矩阵计算能力的处理器,具有完整的取指、译码、执行部件,处理器运行在2GHz,具有4个8x8x4矩阵乘法计算单元。同时,每个内核拥有一个1.25MB的SRAM作为主存(非缓存),能以400GB/S的速度进行加载,并以270GB/S存储。可以看出,每个D1 核心都是一个完整的带矩阵计算能力的CPU,且特斯拉对其进行高计算密度的优化,其计算灵活性远超众核架构GPU,但同时也将带来极高的成本。
Dojo 采用特斯拉自研D1芯片Dojo D1芯片微架构