大厂如何构建万卡集群?

网站首页    大厂如何构建万卡集群?
 

前几天去大厂交流,聊起他们在建的几个H20集群,最小的一个集群也超过1.6万张卡,大的可能超过6万张卡。如此大的AI服务器集群,如何建设一张承载网络将海量的GPU联接起来?鹅厂基于RoCE自定义了一个高性能计算网络架构:星脉网络

网络规模基本都是10000个GPU起步,在节点增加时,集群算力尽量线性提升,不能损失太多星脉网络采用无阻塞胖树(Fat-Tree)架构,单集群规模支持1.6万个节点(超过10万个GPU)。整体架构分为Block-Pod-Cluster三级,如下图所示:

Block是最小单元,包括256个GPU;Pod是典型集群规模,包括16-64个Block;1个Cluster最大支持16个Pod,也就是65536-262144个GPU。

网络带宽传统数据中心通用的100Gbps带宽接入,星脉网络架构中,单个服务器(带有8个GPU)为一个计算节点。每个服务器有8块RoCE网卡,每块网卡400Gbps,因此,每个计算节点可提供3.2T带宽。

网络协议传统数据中心采用TCP/IP协议,无法满足高性能网络的大带宽、低时延需求。智算网络集群一般采用RDMA协议,主流包括IB(InfiniBand)RoCE星脉网络采用的自研端网协同协议TiTa,提供更高的网络通信性能,特别是在满足大规模参数模型训练的需求方面。据鹅厂的宣传,TiTa协议内嵌拥塞控制算法,以实时监控网络状态并进行通信优化,使得数据传输更加流畅且延迟降低。TiTa协议的处理方式如下图所示:

前段时间,腾讯云发布的新一代HCC高性能计算集群,正是基于星脉网络据说,GPU利用率提升40%、通信时延降低40%  : )
 

 

 
 

 

2024年5月8日 16:24
浏览量:0