独家解读Meta紧急叫停全球数据中心在建项目背后的秘密 摘要 Meta在全球运营着超过4000万平方英尺的18个数据中心园区,有47个数据中心正在建设中。如此庞大的设施规模,使得Meta在数据中心领域的一举一动都备受行业关注。 2022年12月,Meta暂停了3个数据中心在建项目,这其中反映出Meta重新思考其数据中心设计,以实现人工智能驱动未来的战略目标转变。让我们来看看数字基础设施发生的战略转变,以及它与Meta数据中心转向液体冷却的潜在联系。 被紧急叫停的丹麦欧登塞园区扩建项目 2022年12月19日,Meta位于阿拉巴马州、园区总面积达到近350万平方英尺的Huntsville数据中心扩建工程被紧急叫停,这已是本月以来Meta紧急叫停建设的第三座数据中心。本月初,Meta叫停了丹麦欧登塞的扩建项目并解雇了主要承包商,随后又暂停了位于德克萨斯州Temple的项目。消息称,Meta正在对其全球11个项目紧急叫停,并计划进行重新设计。据悉,Meta在欧登塞工厂的项目将被完全取消,但Temple和Huntsville的数据中心预计将在重新设计完成后再次启动。到目前为止,Meta尚未公开新的设计方案及其对项目建设进度的影响程度。 Meta的北欧通信经理PeterMnster在欧登塞扩建项目被取消时表示:大规模支持人工智能工作负载需要不同类型的数据中心,而不是为支持我们的常规在线服务而构建的数据中心, 迹象表明,该公司数据中心设施设计正在发生战略性重大转变,目的是将数据中心主要IT负载转向人工智能(AI)用途。 被暂停的Huntsville数据中心 有报告称,Meta新的数据中心设计方案尚未确定 01hrMeta与投资者对于元宇宙前景的分歧 2022年第三季度,Meta报告,公司收入下降4,利润减半,延续了上个季度的下降趋势。该公司指出,公司经济状况恶化的原因是全球经济的不确定性导致广告商削减支出、苹果对其商业模式的影响以及转向元宇宙的努力尚未成功等。 10月份,Meta宣布将裁员11,000名员工,约占其全体员工的13,公司CEO扎克伯格试图优先考虑元宇宙方向的投入,但这个支持VR和AR的虚拟世界集合尚未被证明是成功的,并且公司为此每年花费超过100亿美元。 与裁员降本相反,公司预计将增加数据中心支出。第三季度,Meta的资本支出(包括融资租赁的本金支付)为95亿美元,主要是对服务器、数据中心和网络基础设施。Meta预计2023年的资本支出将在340亿至390亿美元之间,其中大部分成本来自服务器和网络基础设施。 Meta的首席战略官DaveWehner在财报电话会议上表示:我们正在大力扩展我们的人工智能能力。这些投资在很大程度上推动了我们2023年的整体资本支出增长。随着我们将更多基础设施迁移到人工智能,资本密集度有所提高。它需要更昂贵的服务器和网络设备,我们正在建设新的数据中心,专门用于支持下一代人工智能硬件。 会议结束后,公司股价大幅下跌约为20。该公司的市值已经从历史最高点下跌了约60,目前处于近七年来的最低点。 到目前为止,公司在元宇宙方向大量的支出似乎没有什么产出。在因MetaVR形象只是浮动的人体而受到批评后,扎克伯格于11月早些时候上台宣布元宇宙即将迈开第一步,展示了一段他本人在元宇宙中跳跃的视频。 然而,扎克伯格将公司重塑为元宇宙业务的努力尚未赢得投资者的青睐。本月早些时候,投资者AltimeterCapital写了一封公开信,声称扎克伯格迷失了方向,呼吁Meta将员工成本削减20,将资本支出减少50亿美元,并大幅削减元宇宙支出。 Altimeter在信中声称:公司已宣布每年向一个元宇宙项目投资100亿至150亿美元,该项目主要包括ARVR沉浸式3D地平线世界,这可能需要10年才能产生结果,Altimeter的CEO布拉德郭士纳说。面对一个未知的未来,1000亿美元以上的投资估算,即使按照硅谷的标准也是超大规模和可怕的。 但是,扎克伯格孤注一掷要实现元宇宙,那么未来的数据中心将与今天的设施不同。这就是为什么Meta决定彻底改革其数据中心设计,以优化其人工智能设施的原因。目前,Meta正在暂停多个数据中心项目的建设,以便可以通过专注于人工智能的待定设计来重新调整其新数据中心方案,这是Meta创始人马克扎克伯格实现沉浸式元宇宙社区愿景的关键,但对于这个下一代计算设施会是什么样子,Meta仍在研究中。 但这种转变将影响世界各地一些园区的建设步伐。Meta通常在其每个大型园区上建造五到九座数据中心大楼。有消息人士称,正在建设的数据中心还将继续完成,但后期阶段的工作可能会暂停,以便使它们符合新的设计标准。 Meta推出的OpenRackv3机架 02hr人工智能推动IT设施创新 本月,许多头条新闻都在关注欧登塞建设项目的停工,但我们认为即将到来的数据中心新设计更值得关注,因为新设计可能反映了数据中心向更多高性能计算(HPC)和人工智能(AI)特征的持续转变。在人工智能(AI)中,计算机被组合成神经网络,模拟人脑的学习过程来解决新的挑战。这是一个需要大量计算能力的过程,这就是为什么该领域的领先者已经超越了传统的CPU驱动的服务器的原因。 2022年10月18日至20日,OCP开放计算项目(OCP)全球峰会在加利福尼亚州圣何塞举行(Facebook是OCP的发起人和主要贡献者之一),Meta工程副总裁AlexisBjorlin在峰会上发表的主题演讲的博客文章中写道:随着我们进入下一个计算平台,即元宇宙,对新的开放式创新来推动人工智能的需求变得更加清晰。我们看到的功率趋势增加,以及对液体冷却进步的需求,迫使我们对平台、机架和电源以及数据中心设计的所有元素进行不同的思考。 Bjorlin在主题演讲中公布了几项创新,这些创新将推进Meta的雄心壮志: (1)GrandTeton平台是基于GPU的下一代大规模人工智能硬件平台,旨在提供两倍的计算能力和增强的内存带宽,以及两倍于前代MetaAI系统的功率。 (2)OpenRackv3,具有新功能,可让用户灵活地配置其电源和冷却基础设施,以及更长的机架备用电源。 (3)尽早了解空气辅助液体冷却设计,它将芯片级液体冷却引入Meta数据中心。 Meta推出的GrandTeton人工智能硬件平台 随着AI模型变得越来越复杂,其相关的工作负载也将变得越来越复杂。GrandTeton平台的设计具有更强的计算能力,以更好地支持Meta的内存带宽受限的工作负载。GrandTeton扩展的运营计算能力范围还针对计算密集型工作负载(如内容理解)进行了优化。通过高度集成还极大地简化了GrandTeton的部署,使其能够更快地部署到数据中心机群,减少潜在故障点,同时提供快速扩展和更高的可靠性。 峰会上Meta公开了最新版本的开放式机架硬件,为整个行业提供通用的机架和电源架构。为了弥合当前和未来数据中心需求之间的差距,OpenRackv3(ORV3)在设计时考虑了灵活性,其机架电源基础设施能够支持广泛的用例,包括对GrandTeton的支持。 20U、48V规格的OpenRackv3电源架 ORV3的电源架没有用螺栓固定在母线上。相反,电源架可以安装在机架中的任何位置,从而实现灵活的机架配置。单个母线上可以安装多个搁板以支持30kW机架。它还具有改进的电池备份单元,与以前的型号相比,电池容量增加到四分钟,每个机架的功率容量为15kW。与电源架一样,该备用单元可安装在机架中的任何位置以进行定制,并在成对安装时提供30kW的功率。 传统上,数据中心机架使用12V电源架,但更高性能的计算和存储平台需要更多的功率,这会导致更大的工作电流。从12V电压转换到48V供电可将工作电流降低至14,传导损耗降低至116。这显著提高了热性能、减小母线尺寸和提高了电源效率。新的OCPORv3电源架将成为超大规模数据中心越来越多地采用48V机架配电的关键技术推动因素。 Meta从一开始就选择通过OCP开发ORV3设计的绝大多数组件。虽然生态系统主导的设计可能会比传统设计消耗更多的设计时间,但最终产品是一个整体基础设施解决方案,可以通过更高的灵活性、完全的供应商互操作性和多样化的供应商生态系统进行大规模部署。 开放计算项目(OCP)数据中心 Meta表示将重新考虑自2011年以来一直在使用的这种数据中心设计 03hr元宇宙Meta数据中心与液体冷却 一个关键问题是:以人工智能为中心的数据中心中,是什么因素促使Meta重新调整其数据中心建设方案? Meta对沉浸式元宇宙的愿景将需要强大的硬件来处理人工智能(AI),以创建这些数字世界。因此支持元宇宙的大型数据中心将具有大量的液体冷却功能。首先。需要整合系统以将液体输送到机架。 目前Meta数据中心的设计是由Facebook在2011年开发的,其特点是使用设施的上半部分来管理冷却供应,以便冷空气从顶部进入服务器机房,利用冷空气下降和热空气上升的自然趋势这就避免了使用气压迫使冷空气通过高架地板上升。而服务器机架放置在混凝土楼板上。 MetaAIResearchSuperCluster(RSC)中的一排排设备 今年早些时候,Meta透露了一个新的设施来容纳其研究超级集群(RSC),当它建成时,它可能会成为世界上最快的人工智能系统。该系统中大部分由GPU驱动的基础设施都采用风冷冷却,但该设施的InfiniBand网络使用了液体冷却分配单元。照片显示,RSC机架部署在高架地板上,与传统的Meta地板设计背道而驰。许多数据中心结构可以适应以平板或架空地板方法使用空气冷却,但使用水可能需要地板下的管道与外部水基础设施的连接。 今年10月的OCP开放计算项目(OCP)全球峰会上,Meta宣布了逐步转向水冷基础设施的路线图,将使用冷板为AI工作负载提供直接到芯片冷却,并正在准备几种设计,以便在机架功率密度时提高供水温度。该路线的第一阶段,将使用背板换热器和空气辅助液体冷却(AALC)来实现,然后在热负荷超过背板换热器的极限时转向设施水冷却策略。下一阶段可能需要增加管道以将冷冻水带到机架。 ORV3生态系统旨在适应几种不同形式的液体冷却策略,包括空气辅助液体冷却(AALC)和设施水冷却,Bjorlin在博客文章中写道。ORV3生态系统还包括可选的盲插液体冷却接口设计,在IT设备和液体歧管之间提供无滴漏连接,从而更容易地维护和安装IT设备。 Meta没有说明何时在生产中实施AALC设计,该设计将在其基础设施中的应用范围有多广,或者何时考虑增加设施用水。 Meta提供了其新数据中心设计的3D体验 包括其空气辅助液体冷却AALC实施 Meta和微软一直在合作开发AALC的原型机,该原型机可以支持高达40kW的机架功率密度,他们在去年的OCP峰会上展示了这一点。 Meta的新数据中心硬件的虚拟演示可在MetaInfraHardware。com网站上获得,该演示提供了基于Web界面或MetaQuestVR头显进行游览的选项,该演示展示了AALC机架组件及其工作原理的视觉概述。 液体冷却长期以来一直服务于高性能计算(HPC)和超级计算。谷歌已经将其人工智能基础设施转向液体冷却,而微软正在其生产数据中心内测试浸没式冷却技术。Meta在OCP峰会上的公告标志着数据中心设计的最新发展,由于Meta巨大的运营规模,Meta转向液体冷却可能会推动OCP生态系统及今后对高级冷却技术的需求。像Meta这样的大买家可能会给液体冷却行业发展注入一剂强心针。 04hrMeta的战略转变所产生的影响 目前,Meta在全球运营着18个数据中心园区,以支持其Facebook、Instagram和Messenger等服务。这些数据中心的投资额为160亿美元,面积超过4000万平方英尺。Meta本月的暂停决定在许多方面都产生了重要影响,这远远超出了其基础设施本身。其影响包括: (1)新的Meta数据中心设计转向液冷设计。尽管Meta没有透露其新设计的细节,但它最近概述了逐步转向液冷基础设施的计划。加速这些计划将为围绕液体冷却不断发展的商业生态系统提供推动力。 (2)华尔街可能会对Meta放缓建设进度表示欢迎,因为证券分析师一直对该公司的元宇宙基础设施支出持谨慎态度。由于该公司重申了对元宇宙基础设施进行大量投资的计划,Meta股价在10月份单日暴跌25。 (3)Meta是数据中心建设团队的最大雇主之一,其多阶段园区扩建让建设团队忙碌多年。其建设项目的任何暂停都将受到数据中心开发社区的密切关注,这些社区正在为提供够的建设人力而发愁。 (4)Meta的新设计可以加强开放硬件运动的相关性,因为该公司与开放计算项目及其不断发展的生态系统分享了其在硬件和数据中心方面的大部分创新。 深知社 作者: Seaman DKV(DeepKnowledgeVolunteer)计划精英成员 公众号声明: 未经公众号DeepKnowledge书面授权,请勿转载。