借鉴特斯拉Dojo,自动驾驶算力端系统整体架构

算力端：自研大规模集超算平台，Dojo有望提供强算力

❑特斯拉自研超级计算平台Dojo——基于超大计算集设计。Dojo架构由特斯拉完全定制，涵盖计算、网络、输入/输出（I/O）芯片、指令集架构、电源传输、冷却等，具备高可扩展性和分布式系统。Dojo具备超高集成度，并非根据小系统拓展而来，旨在高效地处理海量视频数据、进行定制的神经网络训练。Dojo于

2021年首届特斯拉AI Day上面市，当时仅有第一批芯片和训练块，尚未构建起完整的Dojo机柜和集

（Exapod）；2022年AI Day，Dojo取得新进展，并通过后续的持续部署与规划，搭建起大规模算力集，推动大模型训练。

❑算力规划明确，Dojo正式投产。1）2023年7月，Dojo进入投产阶段，拉开特斯拉算力集快速建设阶段的帷幕；2）预期2024年2月，特斯拉的算力规模进入全球前五；3）预期2024年10月，特斯拉的算力总规模达到100EFlops，相当于30万块A100GPU的算力总和。

特斯拉Dojo的构成特斯拉Dojo算力规划

算力端：特斯拉Dojo——自研的D1芯片

❑Dojo D1性能：Dojo的计算核心采用特斯拉自研的D1芯片，D1芯片使用台积电7nm工艺，拥有500亿个晶体管，芯片面积为645mm²，BF16、CFP8算力可达362TFlops，FP32算力可达22.6TFlops， TDP为400W。而英伟达A100芯片同样采用台积电7nm工艺，拥有542亿晶体管，芯片面积826mm²，FP32峰值算力为19.5TFlops。

❑Dojo D1架构：D1芯片由18×20颗核心构成，出于良率和稳定性考虑，每个D1芯片有354颗核心（Node）可用。特斯拉全自动驾驶

从每颗核心的微架构来看，D1 Node采用存算一体架构（近存计算），带有向量计算/矩阵计算能力的处理器，具有完整的取指、译码、执行部件，处理器运行在2GHz，具有4个8x8x4矩阵乘法计算单元。同时，每个内核拥有一个1.25MB的SRAM作为主存（非缓存），能以400GB/S的速度进行加载，并以270GB/S存储。可以看出，每个D1 核心都是一个完整的带矩阵计算能力的CPU，且特斯拉对其进行高计算密度的优化，其计算灵活性远超众核架构GPU，但同时也将带来极高的成本。

Dojo 采用特斯拉自研D1芯片Dojo D1芯片微架构

借鉴特斯拉Dojo,自动驾驶算力端系统整体架构

发布评论取消回复

最近发表

热门文章

标签列表