当前位置: > 热议

chiplet将彻底改变高性能计算领域

时间:2022-10-22 14:15:27 热议 我要投稿

Kurt Lender(英特尔 IO 技术解决方案团队策略师)总结了chiplet技术的影响,他说:“人们有理由预期,未来 10 年的 HPC 采购将利用chiplet技术更好地支持他们的工作。” 其他行业领导者也反映了这种期望,例如AMD的首席执行官苏姿丰表示,他们将在未来十年采购由chiplet定制的HPC芯片。

chiplet将模块化设计引入半导体制造和封装。此次创新设想将芯片的硅转变为服务器的“主板”。该硅主板可容纳经过优化的定制计算、网络、IO 和内存chiplet硬件,以最好的支持应用程序需求,并且 UCIe 标准不受单一制造工艺和/或供应商的约束。它还为系统级封装 (SoP)设计打开了大门,这种设计有可能消除昂贵的高引脚数插座,并提供通过硅封装在同一插座内进行技术升级,这是利用未来超级计算机基础设施投资以及分解数据中心的一个非常令人兴奋的潜力。正如本文将要讨论的,chiplet 架构还提供了一条通往 zettascale(1021flop/s)性能的途径,接下来三个数量级的 HPC 性能将提高到超过 exascale(1018flop/s)。

下面显示了一个高级原理图,说明了chiplet封装设计固有的灵活性。

图 1. 异构集成和开放chiplet生态系统,其中 SoC 将由不同公司设计、制造和组装的chiplet组成。

Lender 指出,该方法提供了非凡的功能、性能和上市时间优势。他在他的博客中写道,“半导体架构让可预见的未来延续了摩尔将计算能力翻倍的愿景。”

对 HPC 的三个数量级影响

这种新方法依赖于极其快速且经过测试和验证的chiplet,这些芯片可以集成并封装到经过工作负载优化的半导体设备中。

定制设计意味着 HPC 数据中心可以指定非常密集、非常接近数据计算设备,这些设备对现货商品 (COTS) 大众市场根本没有吸引力。根据英特尔公司的 Raja Koduri(英特尔公司加速计算系统和图形事业部执行副总裁兼总经理)的说法,这些特性对于实现超过百亿亿次级的下一个三个数量级的性能跳跃是必要的。

开放的定制chiplet生态系统意味着HPC社区将不再陷入市场的困境。借助chiplet架构,HPC 架构师可以指定其应用程序的定制硬件需求,并将这些标准传递给设计人员和 HPC 供应商,以获得计算、内存和 IO 的最佳组合,以支持其工作负载。

开放标准是 zettascale HPC 性能的关键

内部片上通信结构是连接chiplet以创建统一的片上设备和分散的片外数据中心的关键组件。这种结构的性能对于实现 HPC 和未来的 zettascale (1021flop/s) 性能水平至关重要。

主要制造商已经在使用专有结构来连接硅上chiplet。他们已经通过UCIe 1.0 标准认识到,开放标准方法是通向生态系统的途径,在该生态系统中,不同的工艺技术——以及来自众多公司的chiplet设计——可以在硅上混合 匹配,以解决客户特定的计算、功率和密度要求。当前的chiplet制造工艺包括2D 和 2.5D以及令人兴奋且备受期待的 3D 芯片堆叠制造技术的出现。

先进的封装技术都是英特尔最新的集成设备制造 (IDM 2.0) 战略的一部分。据英特尔 CEO 帕特·基辛格称,IDM 2.0 是英特尔 IDM 模型的重大演变。

图 2. 由开放 Chiplet 生态系统推动的异构集成(来自不同工艺节点/晶圆厂/公司/组装的混合搭配chiplet)

新的制造技术意味着可以通过调整chiplet架构,为 HPC 社区提供极致的性能和革命性的节能,这远远超出 COTS 市场所能提供的。这也解释了为什么chiplet是英特尔 zettascale 战略不可或缺的一部分,正如Raja 对英特尔 Zettascale 之路的描述中所表达的那样。

Raja 指出,通信结构特别重要,因为它让设计人员有机会最大限度地减少数据移动并让数据靠近计算硬件。两者对于实现下一个三个数量级的性能跃升到 zettascale HPC 超级计算机都非常重要。

更好的是,它可以将 HBM内存或其他类型的内存从 GPU/CPU 封装中移出的光学互连,这反过来意味着系统设计人员可以将数据直接绑定到物理上距离较远的片外计算设备。这些光学互连已经存在,例如Ayar Labs TeraPHY 封装内 OIO chiplet和 SuperNova 激光光源。

下面显示的 UCIe 特性和关键指标清楚地表明,UCIe 1.0 规范通过提供低于 2 纳秒 (ns) 的传输和接收延迟以及高达每秒 32 千兆传输 (GT/s) 的速度足以支持内存chiplet。功率、密度和其他关键指标也包含在标准中。根据下面显示的英特尔幻灯片,该联盟认为 UCIe 1.0 具有满足未来 5-6 年预计需求的必要特性和关键指标。

图 3. UCIe 1.0 规范的特征和关键指标

定制 HPC 设计的经济性

Lender 指出,创建基于 UCIe 的chiplet设计的成本应该是最低的。“有可能像 Compute Express Link (CXL) 这样定价。” 在那之后,他指出“有多种纵向扩展和横向扩展的成本优势,其中包括由于与单片硅设计相比尺寸更小的chiplet的高产量,从而节省了成本,以及制定可以利用 HPC 冷却功能的高密度、高功率封装。充分体现,基于chiplet的架构使设计人员能够将来自多个供应商的经过验证的知识产权 (IP) 设计和工艺技术快速集成到一个封装中。”

chiplet意味着本地可以超过云中的 COTS HPC

将所有这些转化为 HPC 社区可以实现的巨大成本和性能优势,Lender 指出:“chiplet不会因为快速移动而给整个芯片带来负担。这会导致更快且可能成本更低的设计周期。”

换句话说,基于chiplet的架构的出现很可能是 HPC 系统设计和采购的决定性时刻,因为定制chiplet设计可以迅速发展,为 COTS 硬件不太可能匹配的 HPC 系统提供功率和性能包络。随着设计人员采用 3D 芯片堆叠和其他新技术等最新进展,这种性能差异将加速。此外,不断扩大的chiplet生态系统应减少单一供应商设计团队设计的硬件所面临的挑战和妥协,这些设计团队专注于为大众市场创建企业产品线。

UCIe 对数据中心具有巨大影响

从性能和基础架构的角度来看,UCIe 支持的片上和分类使用模型对 HPC 社区的影响是巨大的。

图 4. UCIe 使用模型

配置的灵活性支持 UCIe v1.0 标准内在升级数据中心现有基础设施的惊人潜力。它还通过提供连接到具有片上性能的数据中心中的封装外资源的能力来支持向 zettascale 的迁移。

本质上,我们可以将插图中的每个计算/存储/内存块视为包含许多基于 UCIe 的设备的架构的模拟。正如我们可以更换当前数据中心的计算资源架构来提高系统性能一样,我们也可以更换一个包含更新的、应用优化的定制芯片的 UCIe 块。先进之处在于每个芯片都可以与计算块中的内存和其他计算设备进行交互,就像它们在芯片上一样,因为符合 UCIe 1.0 的结构的速度和延迟。

这种可升级的设计意味着数据中心可以寻求结合快速灵活的升级周期,在获得最新技术的同时,重复使用大部分现有的电力和冷却基础设施投资。

因此,UCIe 联盟成员的愿景令人信服。可升级的 HPC 定制设计提供了非常令人兴奋的成本、功能和性能优势,并且可以大大超过 COTS 设计的性能。迹象表明,基于chiplet的架构将在未来 10 年内以某种形式并入本地 HPC 投资中。这种趋势很可能会在很长一段时间内持续下去。

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。

最新推荐