你见过这个版本的龙生九子吗?

戴尔易安信解决方案 2018-04-25

戴尔易安信解决方案

微信号 DellEMC_Enterprise
功能介绍 戴尔易安信解决方案专注于数字化转型中的前沿技术和解决方案,内容涵盖现代化基础架构、云计算、大数据、物联网及AI等,并通过对全球,特别是中国用户的成功实践案例分析和前沿技术解读,助力企业数字化转型,快人一步!

点击“戴尔企业级解决方案”快速订阅



在《这届超算大会展示了哪些黑科技?》

一文中,提到过专门用于GPU/协处理器(下文中简称GPU或者加速器)

计算的DellPowerEdge C4130

服务器平台。

戴尔C4130可以保证

在1U空间内支持4块全尺寸GPU卡,

大大提升了系统的计算密度比。

中国有句话叫做,

龙生九子,各有不同,

这句话放在C4130身上特别的贴切。

这款产品拥有九种形态,

可以适应不同的应用需求。



同样我也提到过C4130中可选96 lane PCIe 3.0 Switch,引入它之后该平台的GPU/协处理器卡连接方案达到9种之多。这样设计的目的,或者说对用户的价值是什么呢?


我们先列出一些值得关注的方面,下文中将围绕它们进行衡量:


1、CPU to GPU/协处理器带宽;

2、GPU to GPU直连访问(GPUDirect),

      池化or拆分;

3、网络I/O带宽限制;

4、散热、功耗和成本。



Xeon CPU PCIe

通道限制及解决方案


蓝色标注部分包括“GPU switchboard”和电源功率,注意只有1600W和2000W电源模块可以支持4个GPU/协处理器卡。


上图引用自《Dell PowerEdge C4130 Owner's Manual》,里面明确标出了CPU、GPU等组件在机箱中的位置,以及从A到I共9种连接方案,除了CPU和GPU的数量、有没有PCIe Switch板之外,还有一点受影响的就是服务器PCIe扩展槽。



这个示意图是GPU卡的安装。用于高密度服务器的GPU都是被动散热方案,系统风扇和风道设计就很重要了。


GPU switch board

6个插槽的作用我会在后面讲



这个转接板的金手指不是标准的PCIe定义,下面我们来看看它的连接示意:


PowerEdge C4130主板上有4个PCIe x16连接器,它们都不是直接插设备的。中间2个可以选择选向后连接其它PCIe扩展卡,位于两侧的我在这个示意图里用蓝色标出。

 

我们知道每颗Xeon E5 CPU提供40 lane PCIe 3.0通道,如果提供2个x16用于全速连接GPU,不做专门设计的话,位于PCIe扩展卡的位置只能提供x8的带宽。由于C4130的HPC用途和计算密度,有时需要配置双端口56Gb/s Infiniband,以及100Gb/s EDR IB和Intel Omni-Path高速网卡。因此才会有上面的连接选项。

 

在这种情况下CPU自身的PCIe控制器信道数开始不够用,PCIe Switch被引入,同时GPU之间的直接通信效率更高。


 配置A&B:

GPU点对点,重加速器轻I/O



如上图,配置A是将单Xeon E5 CPU的一个PCIe x16连接到GPU switch board,然后再用后者连接4个GPU,同时CPU 1的另一个PCIe x16插槽用于提升其它扩展卡的带宽。在同等密度下经济性最好,每个GPU/协处理器到CPU之间的平均带宽虽然不算高,但GPU之间可以通过GPUDIRECT技术直接高效通信。


配置B是在这个基础上增加了一颗CPU,保持PCIe Switch和GPU的池化连接方式,与配置A相比提高了CPU计算能力和内存支持。



这张示意图是PowerEdge C4130的GPU供电连接,四条线缆都是从电源与主板连接的位置附近引出。如果是没有GPU switch board的配置,那条浅绿色的就不需要了。



配置C:

最大加速器&CPU密度,

高度均衡架构



配置C也是一种比较常用的方案。不需要增加GPU switch board,而且CPU与GPU之间还都是PCIe x16全速连接。它对4个GPU的支持为拆分(split)模式,如果说尚有缺憾之处,就是必须配2颗CPU,并且后面2个常规PCIe扩展槽位都只有x8带宽。正是因为每种方案各有取舍而非十全十美,所以C4130才提供了这么多选择。



配置D:

平衡加速器密度和高性能I/O



配置D只安装了2个GPU/协处理器卡,所以每CPU都剩下1个PCIe x16,这样在不用GPU switch board的情况下后面的2个扩展卡就都可以跑到全速。能够充分发挥InfiniBand EDR高速网卡的带宽。



配置E/F:

低密度Scale-out

电源散热需求放松



配置E针对入门级GPU密度环境,单一CPU不用switch board PCIe x16直连两块GPU卡。因为没有插第二个CPU,这时PCIe扩展卡只能支持1块x8带宽的。该配置以相对较低的功耗换来了良好的Scale-out能力,因为每台PowerEdge C4130的供电和散热需求降低了,单位机架空间内就可以多放几台。

 

配置F是在配置E基础上增加第二颗CPU,除了前面提到过的好处之外,就是第二个x8 PCIe扩展槽也可以使用了。这里CPU2上的PCIe也没有使用x16宽度连线,估计是为了保持其入门级定位。



配置G:

最大计算密度均衡I/O方案



配置G一方面将96 lane PCIe Switch交换板充分利用(拆分成2个池),共2个上行to CPU + 4个下行to GPU,同时常规PCIe扩展槽位还能提供2个x16支持。是一种最大化加速器和CPU密度的高度均衡方案。



配置H&I:

重VDI(图形)工作负载方案



配置H和I是用一颗CPU的2个PCIe x16直连2块GPU卡,另一颗CPU连接另1块GPU,同时提供2个或者1个常规PCIe x8扩展槽位。该方案的GPU/CPU核心配比为图形密集型VDI应用进行了优化,专门针对NVIDIA Grid K1 GPU设计。



从灵活性到HPC的进一步咨询


大家知道GPU服务器面向一些特定应用领域,不如常规服务器那样标准化。起初我以为只需要考虑密度和PCIe连接带宽,而通过对Dell PowerEdge C4130的学习之后,却发现里面还有这么多门道。

 

对异构HPC有需求的用户,如果还不确定什么样的配置最适合自己,可以找HPC方面的专家顾问进一步咨询。他们可能会有不少同行业应用的经验分享给您哦 ( ̄︶ ̄)