英伟达(Nvidia)一年一度的GTC大会如期而至,两年一更新的GPU架构Hopper也正式亮相。 今年,NVIDIA创始人兼CEO黄仁勋在英伟达新总部大楼发布了一系列新品,从新架构GPUH100,到GraceCPU超级芯片,再到汽车、边缘计算的硬件新品,以及全面的软件更新。 英伟达的全新发布再次向外界宣告,英伟达不止是一家芯片公司,而是全栈计算公司。他们正在加强其在AI、汽车等领域的领导力,同时也在努力占领下一波AI浪潮以及元宇宙的先机。 当然,作为一家发明GPU的公司,英伟达的全新GPU架构依旧是GTC2022最值得关注的新品。 NvidiaHopper新架构以美国计算机领域的先驱科学家GraceHopper的名字命名,将取代两年前推出的NVIDIAAmpere架构。相比上一代产品,基于Hopper架构的H100GPU实现了数量级的性能飞跃。 黄仁勋表示,20个H100GPU便可承托相当于全球互联网的流量,使其能够帮助客户推出先进的推荐系统以及实时运行数据推理的大型语言模型。 基于H100GPU构建的各种系统,以及与GraceCPU超级芯片组合的各种系统,配合英伟达多年构建强大的软件生态,将成为了英伟达掀起新一代计算浪潮的能量。 H100GPU将在今年第三季度出货,明年上半年开始供货GraceCPU超级芯片。 最新Hopper架构H100GPU的6大突破 黄仁勋2020年从自家厨房端出的当时全球最大7nm芯片Ampere架构GPUA100,两年后有了继任者Hopper架构H100。英伟达H100GPU采用专为英伟达加速计算需求设计优化的TSMC4N工艺,集成800亿个晶体管,显著提升了AI、HPC、显存带宽、互连和通信的速度,并能够实现近5TBs的外部互联带宽。 H100同时也集多个首个于一身,包括首款支持PCIe5。0的GPU,首款采用HBM3的GPU,可实现3TBs的显存带宽,全球首款具有机密计算功能的GPU。 H100的第二项突破就是其加速器的Transformer引擎能在不影响精度的情况下,将Transformer网络的速度提升至上一代的六倍。Transformer让自监督学习成为可能,如今已成为自然语言处理的标准模型方案,也是深度学习模型领域最重要的模型之一。 雷峰网了解到,H100将支持聊天机器人使用功能超强大的monolithicTransformer语言模型Megatron530B,吞吐量比上一代产品高出30倍,同时满足实时对话式AI所需的次秒级延迟。 H100的第三项突破是进一步升级的第二代多实例GPU。上一代产品中,英伟达的多实例GPU技术可将每个A100GPU分割为七个独立实例来执行推理任务。新一代的HopperH100与上一代产品相比,在云环境中通过为每个GPU实例提供安全的多租户配置,将MIG的部分能力扩展了7倍。 MIG技术支持将单个GPU分为七个更小且完全独立的实例,以处理不同类型的任务。 H100的第四项突破就是其是全球首款具有机密计算功能的加速器,隐私计算此前只能在CPU上实现,H100是第一个实现隐私计算的GPU,可保护AI模型和正在处理的客户数据。机密计算的优势在于其不仅能确保数据的机密性,同时还不影响性能,可以应用于医疗健康和金融服务等隐私敏感型行业的联邦学习,也可以应用于共享云基础设施。 H100的第五项突破是在互联性能的提升,支持第4代NVIDIANVLink。如今的AI模型越来越大,带宽成为了限制超大规模AI模型迭代的阻碍。英伟达将NVLink结合全新的外接NVLinkSwitch,可将NVLink扩展为服务器间的互联网络,最多可以连接多达256个H100GPU,相较于上一代采用NVIDIAHDRQuantumInfiniBand网络,带宽高出9倍。 这项突破可以带来的直接提升是,利用H100GPU,研究人员和开发者能够训练庞大的模型,比如包含3950亿个参数的混合专家模型,训练速度加速高达9倍,训练时间从几周缩短到几天。 H100的第六个突破是对新的DPX指令可加速动态规划,适用于包括路径优化和基因组学在内的一系列算法,英伟达的测试数据显示,与CPU和上一代GPU相比,其速度提升分别可达40倍和7倍。 另外,FloydWarshall算法与SmithWaterman算法也在H100DPX指令的加速之列,前者可以在动态仓库环境中为自主机器人车队寻找最优线路,后者可用于DNA和蛋白质分类与折叠的序列比对。 硬件突破之外,英伟达也发布了一系列相应的软件更新,包括用于语音、推荐系统和超大规模推理等工作负载的NVIDIAAI软件套件,还有60多个针对CUDAX的一系列库、工具和技术的更新,能够加速量子计算和6G研究、网络安全、基因组学和药物研发等领域的研究进展。 显而易见,H100GPU的六项突破,带来的是更高的计算性能,但这些性能的提升和优化,全都指向AI计算,这也是英伟达进一步扩大在AI计算领域领导力的体现。 NVIDIAEos,比全球最快超级计算机AI性能快4倍 有了性能升级的GPU,英伟达的第四代DGX系统DGXH100也随之亮相,包括DGXPOD和DGXSupePOD两种架构,能够满足大型语言模型、推荐系统、医疗健康研究和气候科学的大规模计算需求。 每个DGXH100系统配备八块NVIDIAH100GPU,并由NVIDIANVLink连接,能够在新的FP8精度下达到32Petaflop的AI性能,比上一代系统性能高6倍。每个DGXH100系统还包含两个NVIDIABlueField3DPU,用于卸载、加速和隔离高级网络、存储及安全服务。 新的DGXSuperPOD架构采用全新的NVIDIANVLinkSwitch系统,通过这一系统最多可连接32个节点,总计256块H100GPU。第四代NVLink与NVSwitch相结合,能够在每个DGXH100系统中的各个GPU之间实现900GBs的连接速度,是上一代系统的1。5倍。 新一代DGXSuperPOD性能同样显著提升,能够提供1Exaflops的FP8AI性能,比上一代产品性能高6倍,能够运行具有数万亿参数的庞大LLM工作负载,有助于推动气候科学、数字生物学和AI未来的发展。 基于DGXH100,英伟达将在今年晚些时候开始运行全球运行速度最快的AI超级计算机NVIDIAEos,Eos超级计算机共配备576台DGXH100系统,共计4608块DGXH100GPU,预计将提供18。4Exaflops的AI计算性能,比日本的Fugaku(富岳)超级计算机快4倍,后者是目前运行速度最快的系统。 在传统的科学计算方面,Eos超级计算机预计将提供275Petaflop的性能。 黄仁勋说:对于NVIDIA及OEM和云计算合作伙伴,Eos将成为先进AI基础设施的蓝图。 576个DGXH100系统能够构建一台全球运行速度最快的AI系统,少量的DGXSuperPOD单元组合,也可以为汽车、医疗健康、制造、通信、零售等行业提供开发大型模型所需的AI性能。 黄仁勋提到,为支持正在进行AI开发的DGX客户,NVIDIADGXReady软件合作伙伴(包括DominoDataLab、Run:ai和WeightsBiases等)提供的MLOps解决方案将加入NVIDIAAI加速计划。 为了简化AI部署,英伟达还推出了DGXReady托管服务计划,能够为希望与服务提供商开展合作来监督其基础设施的客户提供支持。通过新的DGXReady生命周期管理计划,客户还可以借助新的NVIDIADGX平台升级其现有DGX系统。 GraceCPU超级芯片,最强大的CPU 去年的GTC21,英伟达首款数据中心CPUGrace亮相,英伟达的芯片路线也升级为GPUDPUCPU。 今年的GTC22,英伟达由推出了首款面向AI基础设施和高性能计算的基于ArmNeoverse的数据中心专属CPUGraceCPU超级芯片。 GraceCPU超级芯片是专为AI、HPC、云计算和超大规模应用而设计,能够在单个插座(socket)中容纳144个Arm核心,在SPECrate2017intbase基准测试中的模拟性能达到业界领先的740分。根据NVIDIA实验室使用同类编译器估算,这一结果较当前DGXA100搭载的双CPU(AMDEPYC7742)相比高1。5倍以上。 黄仁勋称赞:Garce的一切都令人惊叹,我们预计Grace超级芯片届时将是最强大的CPU,是尚未发布的第5代顶级CPU的2到3倍。 据介绍,依托带有纠错码的LPDDR5x内存组成的创新的内存子系统,GraceCPU超级芯片可实现速度和功耗的最佳平衡。LPDDR5x内存子系统提供两倍于传统DDR5设计的带宽,可达到1TBs,同时功耗也大幅降低,CPU加内存整体功耗仅500瓦。 值得注意的是,GraceCPU超级芯片由两个CPU芯片组成,通过NVLinkC2C互连在一起。NVLinkC2C是一种新型的高速、低延迟、芯片到芯片的互连技术,将支持定制裸片与NVIDIAGPU、CPU、DPU、NIC和SOC之间实现一致的互连。 借助先进的封装技术,NVIDIANVLinkC2C互连链路的能效最多可比NVIDIA芯片上的PCIeGen5高出25倍,面积效率高出90倍,可实现每秒900GB乃至更高的一致互联带宽。 得益于GraceCPU超级芯片可以运行所有的英伟达计算软件栈,包括NVIDIARTX、NVIDIAHPC、NVIDIAAI和Omniverse。GraceCPU超级芯片结合NVIDIAConnectX7网卡,能够灵活地配置到服务器中,可以作为独立的纯CPU系统,或作为GPU加速服务器,搭载一块、两块、四块或八块基于Hopper的GPU,客户通过维护一套软件栈就能针对自身特定的工作负载做好性能优化。 今日发布的NVIDIAGrace超级芯片系列以及去年发布的GraceHopper超级芯片均采用了NVIDIANVLinkC2C技术来连接处理器芯片。 英伟达表示,除NVLinkC2C外,NVIDIA还将支持本月早些时候发布的UCIe(UniversalChipletInterconnectExpress,通用小芯片互连传输通道)标准。与NVIDIA芯片的定制芯片集成既可以使用UCIe标准,也可以使用NVLinkC2C。