与第三代EPYC7003系列处理器相比,新一代EPYC9004系列处理器有大量的技术进步,主要包括核心数量、计算线程数大幅提升到最高96核心、192线程;5nmZen4架构带来了标称14的IPC性能提升;AVX512指令集的加入;双CPU互联可以最多对外提供160条PCIe5。0总线;12通道DDR5内存系统则让服务器的内存性能突飞猛进(注:如果您想深入了解新一代EPYC9004系列处理器的具体技术架构、产品组成,请阅读我们在今天发布的第二篇文章:《第四代AMDEPYC处理器先进技术指南》)。那么在实际测试与应用中,它的性能究竟能有多少提升呢?在此背景下,我们特别针对第四代AMDEPYC(霄龙)9004系列处理器进行了独家测试。参测处理器规格解析 《微型计算机》评测室本次对AMDEPYC9654、EPYC9554、EPYC9374F这3款处理器进行了详细测试。其中EPYC9654处理器是第四代EPYC处理器中定位最高的产品,虽然它的最高加速频率在所有产品中不算高,只有3。7GHz,但它却拥有多达96核心、192条线程,384MB三级缓存。相对64核心的产品,其TDP热设计功耗也没有上升太多,为360W,与EPYC9554这类高频64核心处理器相同。更值得一提的是,AMDEPYC9654支持组建双路系统,为用户打造192核心、384线程多核心的超多核心计算系统创造了条件,对那些亟需多线程运算性能的渲染与模拟、科学仿真用户颇具吸引力。 而第二款AMDEPYC9554是一款兼具频率与核心数量的处理器,它采用64核心、128线程设计,能够满足各类服务器应用。之所以它的TDP热设计功耗与AMDEPYC9654相同,原因就在于它拥有更高的基准频率,从EPYC9654的2。4GHz提升到3。1GHz,全核心加速频率也从3。55GHz提升到3。75GHz。它既适用于那些对频率有较高依赖的应用,也能满足各类多线程计算应用的需求。 我们测试的第三款AMDEPYC9374F处理器有所不同,其型号带有F,采用这种命名方式的主要目的是突出它拥有更高的单核心基频及最高加速频率,其基准频率就超过前面两款处理器的最高加速频率,为3。85GHz,单核心最高加速频率可达4。3GHz,全核心加速频率达到4。1GHz。这意味着该处理器很适合进行3D建模与与AEC(建筑、工程、施工)可视化等依赖处理器频率的各类应用,同时其核心、线程数也不少,拥有32核心、64线程配置,也能从事渲染、科学运算之类的工作。 AMDEPYC9654、EPYC9554、EPYC9374F都采用接近正方形的外观设计,相比上代EPYC处理器面积更大。 为了更直观地体现第四代EPYC9004系列处理器的进步,我们还采用第三代AMDEPYC处理器中综合性能最强的EPYC7763参与了测试,EPYC7763采用Zen3处理器架构,7nm工艺打造,基于64核心128线程设计,基准频率为2。45GHz,Boost频率最高为3。5GHz,TDP为280W,支持8通道DDR43200内存。在参测处理器中,AMDEPYC7763的技术规格最接近AMDEPYC9554,所以请大家特别注意EPYC9554与EPYC7763的差异,这也最能体现新一代处理器的进步所在。 我们如何测试 本次测试统一考察的是双路系统的性能,因此所有参测的三款第四代EPYC9004系列处理器都统一使用了AMDTitaniteSP52P2U双路主板。内存方面,EPYC9004系列单路CPU支持12个内存通道,比EPYC7003系列处理器增加了4个内存通道,其中1DPC(DIMMPerChannel,每通道内存数量)支持12根内存,2DPC支持24根内存;EPYC9004双路系统则支持24个内存通道,不过由于受限于机架和机箱宽度,双路服务器只能支持1DPC24根内存。本次测试所使用的内存为三星DDR5480064GB,内存总数量为24根,内存总容量为1。5TB,搭配美光9300系列企业级NVMeSSD。 而基于Zen3架构的EPYC7763双路系统则采用AMDDAYTONAX主板、三星DDR4320032GB内存,总数量为16根,内存总容量为512GB,搭配三星PM883企业级SSD。接下来我们在Ubuntu22。04操作系统下,特别采用考察处理器浮点与整数性能、内存性能,以及压缩、光线追踪、科学仿真等十大专业软件、13个子项项目对四款处理器的性能进行了全面测试。 本次测试统一考察的是双路系统的性能,第四代EPYC9004系列处理器采用了AMDTitaniteSP52P2U双路主板,12通道、24条内存配置。 第四代AMDEPYC处理器双路系统测试平台一览 处理器:EPYC96542 EPYC95542 EPYC9374F2 内存:三星DDR5480064GB24 主板:AMDTitanite(BIOS版本:RT1003F) 硬盘:美光9300系列企业级NVMeSSD 操作系统:Ubuntu22。04 第三代AMDEPYC7763双路系统测试平台一览 处理器:EPYC77632 内存:三星DDR4320032GB16 主板:AMDDAYTONAX(BIOS版本:RYM1007C) 硬盘:三星PM883 操作系统:Ubuntu22。04性能测试:SPECrate2017 SPECrate2017测试的是在单位时间内运行的实例数量,这是服务器采购时的主要性能指标,所以服务器厂商和处理器厂商通常提供的是这一测试成绩。在SPECrate2017中包含SPECrateInteger和SPECrateFloatingPoint,前者测试的是整型并发性能,后者测试的是浮点并发性能。 首先我们关注了EPYC9554与EPYC7763在双路配置性能上的对比。测试成绩显示尽管两款双路系统的核心数、线程数都为128核心、256线程配置,但使用新架构、DDR5内存,工作频率也更高的EPYC9554在测试成绩上有非常显著的提升,其浮点运算性能较上一代产品提升了高达90。2,整数运算性能也提升了多达62。2。 同时更为惊人的是,即便核心、线程数更少的EPYC9374F双路系统(64核心、128线程)也战胜了核心、线程数翻倍的AMDEPYC7763双路系统。我们分析主要原因在于一是EPYC9374F处理器的工作频率大大提升,其全核心加速频率可达4。1GHz,较EPYC7763领先900MHz,可以有力弥补在处理器核心数上的不足。二是使用了新的Zen4处理器核心,即便在同频率下,Zen4处理器的IPC性能较Zen3处理器都有14的性能提升;三是AMD第四代EPYC9004系列处理器的双路系统可以使用升级了规格的4条InfinityFabric总线连接两颗处理器,其理论传输带宽最高可达PCIe5。0x64即256GBs,较上代产品使用的PCIe4。0x64即128GBs传输带宽翻倍,可以更通畅、充分地传输两款处理器之间的互联数据,不会存在数据传输瓶颈,从而能更高效地发挥出两颗处理器的最大计算性能;四还是带宽助力,AMD第四代EPYC9004系列处理器采用的是12通道DDR54800内存系统,其每路理论内存带宽也比第三代EPYC使用的8通道DDR43200内存系统要大得多,从而也能更好地发挥出新处理器的运算性能。 接下来让我们再看看怪兽级系统:采用192核心、384线程的EPYC9654双路系统的性能表现。凭借更多的计算核心与线程数,它的表现肯定是最优的,其整数性能相对于EPYC9554双路系统又领先了多达30。9,浮点运算性能领先了16。4。虽说可能由于软件优化有限,无法充分发挥出384条计算线程的最大威力,但可以肯定的是,如果应用场景需要更强大的多线程运算性能,EPYC9654就是最佳选择。性能测试:StreamTriad Stream是业界广为流行的综合性内存带宽实际性能测量工具之一。和硬件厂商提供的理论最大内存带宽不同,通过fortran、C两种高级且高效的语言编写完成的Stream,可以在测试中充分发挥出内存的能力。Stream一共包含Copy、Scale、Add和Triad这4种操作,其中Triad组合了前面3种操作,所以其测试成绩更具参考价值。 从测试结果可以看到,由于参测的AMD第四代EPYC9004系列处理器每一路采用的是规格大幅提升的12通道DDR54800内存系统,相对于第三代EPYC7763每一路系统采用的8通道DDR43200在单路内存带宽在规格上就有大幅提升(460。8GBsVS。204。8GBs),因此最终在实际测试上,AMD第四代EPYC9004系列处理器双路系统在内存性能上也取得了压倒性的胜利。三款第四代EPYC处理器的内存带宽最低成绩也有741062。959MBs,相对于EPYC7763处理器双路系统的内存性能领先多达99。2。性能测试:7ZIP压缩性能 7Zip是一款完全免费而且开源的压缩软件,其大部分代码都是基于GNULGPL协议编写,部分代码基于BSD3clause协议编写。其压缩性能测试主要考察处理器压缩文件的速度,是一个支持多线程压缩的测试,比较依赖处理器的整数运算性能与内存性能。 结果显而易见,由于在压缩应用中内存的性能也至关重要,只有内存快速地传输需要压缩的文件数据才能提升处理器的压缩效率,因此每路采用12通道DDR5内存的AMD第四代EPYC9004系列处理器凭借高得多的内存带宽可以轻松地战胜每路采用8通道DDR4内存的EPYC7763处理器。哪怕是双路EPYC9374F系统,在核心总数和线程总数都比双路EPYC7763少一半的情况下,其压缩性能也比EPYC7763领先了18。1。而在第四代EPYC处理器中,由于7ZIP也是一款支持多线程压缩性能的测试,所以核心、线程数更多的192核心、384线程的EPYC9654双路系统拥有更好的表现,其压缩速度比128核心、256线程配置的EPYC9554双路系统快了100616MIPS。性能测试:NAMD NAMD是一种并行的分子动力学代码,由伊利诺伊大学厄巴纳香槟分校贝克曼高级科学与技术研究所的理论和计算生物物理学小组开发,它主要用于大型生物分子系统的高性能模拟。本次测试中,我们主要通过NAMD来考察参测处理器的浮点性能。 结果与之前的测试类似,凭借Zen4架构、更高的工作频率、更强的内存与传输总线配置,同为128核心、256线程配置的EPYC9554双路系统比EPYC7763双路系统快了44。4,领先幅度非常明显。其实即使是64核心、128线程配置的EPYC9374F双路系统在这一测试中也就比7763双路系统仅仅慢了0。47,差距非常小,这也进一步突出了AMD第四代EPYC9004系列处理器也有效提升了处理器的单核心性能,使得更少核心的处理器就能媲美上一代旗舰产品。而顶级的192核心、384线程EPYC9654双路系统依然拥有最好的表现,其执行速度比128核心、256线程配置的EPYC9554双路系统还快了43,优势很大。就如我们前面所说,在科学仿真类应用中,是能够发挥出处理器多线程运算性能的。性能测试:OpenSSL OpenSSL广泛用于保护服务器之间的通信,这是许多服务器堆栈中的重要协议。OpenSSL测试主要包含生成签名和验证签名两部分,我们在本次此时中主要进行了OpenSSL生成签名测试。 测试结果显示,OpenSSL测试显然是一个非常依赖处理器多线程运算性能的测试,不同核心数、线程数配置的双路系统在成绩上都有显著的区别。如拥有192核心、384线程的EPYC9654双路系统在签名效率上比128核心、256线程配置的EPYC9554双路系统快了47。6。而EPYC9554双路系统的签名效率又比64核心、128线程配置的EPYC9374F双路系统快了多达74。当然处理器架构、工作频率上的不同也可以在OpenSSL生成签名测试上拉开差距,如EPYC7763双路系统与EPYC9554双路系统虽然都为128核心、256线程配置,但后者的签名效率比前者快了28。8,Zen4架构的优势显而易见。性能测试:UnixBenchDhrystone2和Whetstone 本项目主要用于测试Unix系统性能,其中包括测试字符串处理,体现整数性能的Dhrystone2usingregistervariables和测试双精度浮点操作速度与效率的DoublePrecisionWhetstone这两个测试项目。此外,在这两个测试项目均可选用单线程或多线程进行测试,本次测试我们使用的是多线程。 测试结果与SPECrate2017类似,首先EPYC9554双路系统在体现整数性能的Dhrystone2usingregistervariables上领先EPYC7763双路系统高达63。4,在双精度浮点性能运算上也领先了19。9,作为两个处理器核心数量、线程数相同的双路系统,第四代EPYC9004系列处理器的进步得到了充分体现。值得一提的是,64核心、128线程配置的EPYC9374F双路系统也再次展现了单核心性能大幅增加的实力,其整数性能只落后EPYC7763双路系统约2。3,要知道它的处理器核心数量可是比后者少了64颗。而192核心、384线程的EPYC9654双路系统继续压倒群雄,其整数性能、双精度浮点性能分别领先EPYC9554双路系统达29。7、44。6。性能测试:Cray1。1 Cray是一种常用的光线追踪基准测试,可以显示多线程工作负载下处理器的差异,时间越短说明系统性能越强。在本次测试中,我们使用了4K和8K这两种分辨率进行测试,从而对比参测系统在不同负载下的性能差异。 从测试来看,在普通4K分辨率下,可能由于工作负载不是太大,EPYC9654与EPYC9554双路系统平台并未拉开差距,耗时相同。不过与上一代EPYC7763双路系统,以及核心数少得多的EPYC9374F双路系统相比,它们还是具备明显优势。其中EPYC7763双路系统的耗时比EPYC9654与EPYC9554双路系统多了59。5,EPYC9374F双路系统的耗时则比它们多了50。 而在工作负载更大的8K分辨率下,四个参测系统就都拉开了差距,192核心、384线程的EPYC9654双路系统相对于128核心、256线程配置的EPYC9554双路系统优势明显,后者耗时比前者多了28。6。而相同核心数、线程数的上一代EPYC7763双路系统在测试耗时上又比EPYC9554多了17。7。核心数、线程数最少的EPYC9374F双路系统垫底。这充分体现出在执行高分辨率光线追踪应用时,用户应尽可能选择采用新架构、新工艺设计,核心线程数尽可能多的双路处理器系统。性能测试:SysbenchCPU Sysbench是一款被广泛使用的Linux基准测试,它可以对CPU进行性能测试,在测试中主要是通过CPU进行质数加法运算,质数极限为10000个。 同样,这也是一个非常依赖处理器多核心运算性能的测试,EPYC9654双路系统处于遥遥领先的地位,每秒可完成823134。4轮运算,比EPYC9554多了35。8。而EPYC9554双路系统则凭借新架构、更高的工作频率比核心与线程数相同的上一代EPYC7763双路系统多了24。2。值得一提的是,核心与线程数只有EPYC7763双路系统一半的EPYC9374F双路系统在该测试中也达到了前者的71。6,显然这同样应该归功于AMD第四代EPYC9004系列处理器拥有更强的单核心运算性能,可以有效弥补这类处理器在核心数量上的不足。性能测试:HPL HPL的英文全称为HighPerformanceLinpack,Linpack是国际上一款用于测试高性能计算机系统浮点性能的基准测试工具。通过对高性能计算机采用高斯消元法求解一元N次稠密线性代数方程组的测试,考量高性能计算机的浮点性能。值得一提的是,该测试支持AVX512指令集,在支持AVX512技术的硬件上,可以使用AVX512指令集运算来完成该测试。 相对于不支持AVX512指令集,基于Zen3架构的EPYC7763双路系统来说,新一代EPYC处理器获得了压倒性的胜利。首先相同核心、线程数的EPYC9554双路系统在测试成绩上领先了EPYC7763双路系统高达64。8,即便是核心、线程数只有一半的EPYC9374F双路系统在该测试中也能达到EPYC7763双路系统性能的99。3。而192核心、384线程的EPYC9654双路系统则一骑绝尘,相对于EPYC7763双路系统的领先幅度可以达到惊人的101。9。AMD第四代EPYC9004系列处理器能有如此大领先的根本原因就在于Zen4架构支持AVX512指令集,Zen3架构不支持。而AVX512即高级向量扩展512位指令集可以借助宽度达到512bit的数据寄存器,以及大量专用指令,提升处理器在一条指令中处理多个数据点的能力,所以就能在科学模拟、金融分析、人工智能(AI)深度学习、图像和音频视频处理、密码学和数据压缩等支持AVX512指令集的应用中获得更快的处理能力。性能测试:DGEMM DGEMM是我们此次加入的一个新测试,它是一个基于双精度矩阵乘法例行程序的快速基准测试,可计算以下乘积:CABC。其中A、B和C是包含双精度浮点值的矩阵,而和是标量。AMD的开源DGEMM基准使用了AOCL4。0的AMDBLIS组件,其结果最终会反馈出一个Gflops值,该值将接近于可实现的最大系统吞吐量。同样这个测试也可以使用AVX512指令集运算,可以体现处理器在支持AVX512指令集后的性能优势。 测试结果与HPL相比,可谓有过之而无不及,即便是64核心、128线程的EPYC9374F双路系统也能小胜不支持AVX512指令集,128核心、256线程配置的EPYC7763双路系统。这充分说明,处理器支持AVX512指令集后,的确能在支持AVX512指令集的软件中实现处理器的运算性能翻番,以一打二。对于需要使用AVX512相关软件的用户而言,升级基于Zen4架构的AMD第四代EPYC9004系列处理器显然是非常有必要的,可以大幅提高生产力。其他方面,核心、线程数更多的EPYC9554,EPYC9654双路系统自然有更强大的性能表现,其中EPYC9654双路系统的算力突破8000GFLOPS,远超其他型号。质的飞跃!提升生产力与工作效率的利器 显然,凭借新一代Zen4架构、对AVX512指令集的支持、更高的工作频率、更强大的12通道DDR5内存配置,第四代EPYC9004系列处理器在以上10大测试项目、13个测试小项中都大获全胜,特别是均为128核心、256线程配置的EPYC9554双路系统在13个子项测试中相对于EPYC7763双路系统的最大领先幅度达到102,最小领先幅度也有17。8。其平均领先幅度高达51。1,用质的飞跃来形容毫不为过,而这仅仅是在第三代EPYC发布一年后就获得了如此大的进步,可以证明第四代EPYC9004系列处理器的确是一款在技术架构设计、性能表现上非常成功的产品。 再来看看强大的性能怪兽EPYC9654,我们认为在所有测试将其他产品都远远甩在身后的192核心、384线程的EPYC9654双路系统,在很长一段时间内,都是不计成本,亟需性能的用户首选之一。因为根据目前的最新信息,第四代至强可扩展处理器也只能提供最多56个核心,且采用的是8通道DDR5内存配置。而在EPYC9654之下,还有84核心、168线程的EPYC9634,64核心、128线程的EPYC9554、9534系列产品,第四代EPYC9004系列处理器的高端产品在技术规格上相对于对手具有压倒性的优势。至于像AMDEPYC9374F这类核心数相对较少的第四代EPYC产品,它则是需要兼顾单核心性能或预算较少用户的高性价比优选。 总体来看,就像消费级产品一样,5nm生产工艺、Zen4架构、DDR5内存的引入令第四代EPYC9004系列处理器成为一款技术规格与性能得到大幅提升的产品。要知道由于周边厂商进度滞后的缘故,目前其支持PCIe5。0SSD、CXL内存的能力还尚未发挥出来,本次测试结果不能代表它的最终完全体状态,在不久的将来,它还能给用户更多的惊喜。所以可以预见,更具竞争力的AMD第四代EPYC9004系列处理器将继续成为超融合基础设施、云端应用、数据分析、科学计算、HPC、内容创建等专业领域的领先解决方案,为企业用户提供卓越的性能、可靠的安全特性,并从容应对各种复杂的IT挑战。