
本文转自百家号;作者:DTValue
在本篇文章中,我们将实地测试PowerEdge系列服务器中的重要一员——R7525服务器的性能。
相比于采用EYPC处理器的其他PowerEdge服务器,R7525担纲了更重要的角色。R7525服务器的标准2U机箱双路处理器设计,并延续了PowerEdge服务器的一贯特点,单一服务器内支持第二代EPYC全系列处理器,哪怕是高达280W TDP的顶配型号。而其他服务器要么局限于空间(与散热相关),要么局限于市场定位,仅靠风冷很难做到这一点。
E企研究院实验室中的这台R7525服务器配备了两颗EPYC(Rome) 7302处理器和256GB DDR4内存。EPYC(中文名霄龙)7302处理器具有16核心32线程,基准频率3.0GHz,最高频率可达3.3GHz,并具有128MB容量的L3缓存。与上一代EPYC处理器中具有相同市场定位的7301相比,具有相同的核心与TDP,但是L3 Cache容量达到2倍,主频也有大幅提升。
图注:相比于上一代7301处理器,7302在相同甚至更低运行功耗的情况下,其主频更高,从上一代的2.2GHz(最高2.7GHz)提升到了3.0GHz(最高3.3GHz),L3缓存也增大了一倍,达到了128MB;同样支持八通道内存,但内存带宽却提高了约三分之一,从7301的153GB/s提升到7302的204GB/s,这都意味着能提供更高的计算能力
在EPYC 7002系列处理器中,也有一款16核心32线程的处理器——7282处理器,但定位于成本优化型市场,尽管最高可达3.2GHz,但却只有64MB容量的L3缓存;虽然也支持3200MHz DDR4内存,但内存通道的数量仅有四个,内存带宽更低至85GB/s,大约是7302处理器内存带宽的四成。
关于第二代EPYC处理器的架构及7302与7282之间区别的主要成因,请参见E企研究院之前的专文分析:AMD EPYC的模块化和NUMA之路
与众不同:可调节的核心数量
相比于传统x86处理器的单片式设计,EPYC家族从第一代的MCM(多芯片设计)走到现在的Chiplet(小芯片)设计,在CPU的模块化设计上积累了丰富的经验。从R7525中的BIOS中也能明显感受得到,比其他服务器的BIOS有更多的可选项:
图注:R7525服务器中“处理器”相关的BIOS选项,最上面名为“Logical Processor”的选项实际就是我们常说的“超线程”(Hyper-Threading,HT)技术,即一个物理核心提供两个线程;图下的红框和绿框分别为7302处理器的NUMA选项和CCD与核心数量选项
在NUMA选项中,R7525服务器BIOS提供“0/1/2/4”四个选项,关于这一点的原因,我们在后面的测试中解释。另外一个有关NUMA的选项是“L3 Cache as NUMA Domain”,默认为关闭(Disabled)状态,可以选择启用。我们知道在EPYC处理器中,每个CCD实际上是由两个CCX组成,每个CCX都有一块L3缓存,供CCX内的核心共享使用。
如果选择Disabled,意味着EPYC中所有CCX的L3缓存组成一个共享的缓存池,所有核心都可以完全访问;如果Enabled,意味着需要操作系统调度层理解L3缓存的具体位置分布(局部性),尽量让不同CCX中的核心“就地访问”L3缓存,在理论上可以降低访问延迟。可以看作是“NUMA”技术在更微观层面的应用。关于这个选项的作用,我们依旧在后面的测试中解答。
上面BIOS图中绿框中的两个选项分别对应EPYC处理器Chiplet设计中的CCD与核心数量。在上图中,尽管在CCD只有三个选项,但可以看出7302处理器具有4个CCD,这意味着每个CCD内有4个核心每个CCX有2个核心——都是顶配的一半,所以核心总数为顶配的四分之一(7302共16核心),。而下一个选项则可选择CCD中的核心数量,是启用全部核心(2个)还是只启用一半数量(每CCX出1个,即“1+1”)的核心。
通过选择启用CCD及其核心数量,以及“Logical Processor”线性,R7525实际上可以“变身”为拥有不同核心数量的服务器。E企研究院结合CCD及核心数量,让R7525分别具有不同的核心数量,并测试其计算性能:使用GeekBench工具简单验证7302的性能,如下图所示:
图注:不同核心/线程组合下的EPYC 7302处理器的整数与浮点性能。上图中两条平行于横轴的蓝色线与橙色线是不同核心/线程下,单个核心的整数与浮点性能,基本没有变化,保持稳定。灰色线与黄色线则为不同核心/线程下的多核整数与浮点性能,随着核心/线程数量的增加,整数与浮点性能几乎成线性增加,中间具有相似性能的两个组合实际上具有相同的核心与线程数,支持CCD与核心数量选择不同
图注:不同NUMA设置,与L3 Cache as NUMA Domain启用或关闭情况下,R7525的整点与浮点性能。从测试来看,关闭NUMA(即NUMA设置为0)会导致计算性能略微下降;但打开NUMA后,不管NUMA如何设置(如1/2/4),对计算性能的影响并不明显。同时,L3 Cache as NUMA Domain的开启与关闭,对单核性能有略微影响,但并不影响综合性能
不同NUMA性能揭示EPYC内存奥妙
EPYC在内存方面的显著的特点是率先支持八通道内存,理论上可以提供更高的带宽,但实际性能部分取决于其NUMA(Non-Uniform Memory Access,非一致内存访问)特性。
在第一代EPYC处理器中,每CCD自己提供2个内存通道,导致跨CCD的内存访问延迟显著增加,如果在双路服务器,跨CPU的内存访问延迟将更加明显,这就是NUMA的影响。但在第二代EPYC处理器中,AMD将各CCD中将内存控制器与PCIe等I/O控制分离出来,形成单独的芯片——IOD。所有核心都通过IOD来访问内存和PCIe等外围设备。
图注:上图中显示了从第一代EPYC(Zen架构)到第二代EPYC(Zen 2架构)的变化。将各个CCD中的IO控制分离出来形成一个整体的IOD(I/O Die),看起来,任意CCD中的任意核心访问任意内存都理应具有相同的延迟,也就是说,Chiplet架构能够改善EPYC的内存访问延迟
第一代EPYC处理器的内存访问带宽大多在170GB/s左右,第二代EPYC处理器普遍采用3200 MHz的DDR 4内存,再加上Zen 2架构,其内存总带宽提升到204GB/s左右,但也有少数低端处理器只提供一半的内存通道,如7282。
E企研究院针对R7525服务器中的BIOS选项,即NUMA和L3 Cache as NUMA Domain选项的不同选择,形成多种组合,来分别验证R7525服务器中的内存总带宽与内存访问延迟。
最近文章
6篇
{{item.summary}}
最近文章
6篇
{{item.summary}}
填写您的感兴趣的产品及个人信息,提交成功后会有专人与您沟通,为您提供专属底价。
请输入公司名称
请输入姓名
请输入手机
请输入邮箱
请选择
*验证码无效
恭喜您,秒杀成功!
后续工作人员会与您进行联系
抱歉,您没有抢到!
您还可以参与其他产品的秒杀活动哦
信息提交成功
感谢您参与我们本次的问卷调查活动
请补全您的身份信息
请输入姓名
请输入企业邮箱
请输入公司全称
请输入姓名
请输入企业邮箱
请输入公司全称
请输入企业邮箱
请输入手机号
订阅成功
我们将每月通过邮箱发送资料报告发给您
请输入手机号
请输入验证码
如果您对当前页面内容感兴趣,
可填写“项目咨询单”,
进行专业咨询及帮助。
* 点击确认按钮或关闭Cookie弹窗代表您已同意以上内容。
登录后发表评论
请输入您要写的评论