聚热点 juredian

超30城火拼智算中心!从建起来到用起来,要翻过这五道坎

作者 |  李水青

编辑 |  漠影

近来,对话式AI模型ChatGPT一夜间刷屏圈内外,自动驾驶模型训练速度提升超百倍,AI助力靶向药研究成果频登顶刊……

AI(人工智能)技术正更深入人们的生产生活,背后的算力需求呈现指数级增长态势。

智能计算中心(简称:智算中心)是一种面向AI技术研发与应用的数据中心,专门满足海量而多元化智能算力需求。

2023年1月10日,国家工业信息安全发展研究中心推出《智能计算中心2.0时代展望报告》(简称:《报告》),指出经过5年多发展,智算中心正由1.0粗放扩张阶段走向2.0精细规划阶段。

什么是智算中心2.0时代?我国智算中心发展面临什么样的真实挑战?随着当下各行各业数字化转型加快,作为数字化基础设施的智算中心的又遵循什么样的发展规律?回答这些问题具有很强的实际意义。

近日,智东西通过对话智算中心领域代表企业中科曙光相关负责人,对这些问题进行了深入探讨。

《报告》收录了多项先锋实践,其中,曙光凭借5A级智算中心、浸没式相变液冷技术、全国一体化算力服务平台等多项方案成果成为典型样板。

01

超30城落地智算中心

1.0时代面临五大挑战

随着人工智能产业发展,我国智算中心建设自2017年以来按下快进键,进入十四五发展新时期更是被要求“适度超前发展”。

根据《报告》,2017~2022年以来,我国超30城快速布局智算中心,涌现出包括京津冀大数据智算中心、长沙5A级智能计算中心等多个典型案例。

曙光相关负责人告诉智东西,当下智算中心主要分为企业自建和公共基础设施,全国30城智算中心大多是第二种情况,用于支持地方产业AI化、AI产业化及智能化治理等。

比如曙光目前在运营中的合肥、长沙等地中心,已为科学研究、工业制造、政务服务等多领域提供支撑,助药物研发、材料解析等近百项成果登上国际顶刊《Science》杂志,累计服务用户突破10万+。

根据《报告》,当下智算中心已逐渐赋能区域产业集群发展,但值得注意的是,其在多元算力融合、上下游协同、建设应用联动、能源消耗、使用价格等方面仍面临至少以下五大挑战:

1、通用算力和专用算力待融合。在自动驾驶、智慧医疗、智慧城市等不同场景中,算力需求不同。单一化算力方案难以满足多元算力需求,不能兼顾多产业和多领域。

2、算力、算法和数据协同不足。这些年来建设的智算中心,不同的芯片平台、算法模型、数据库、应用层面部分处于垂直一体化“孤岛”状态,软硬件兼容性问题有待改进。

3、投资建设运营有待联动。智算中心投资、建设和运营往往由不同主体负责。前期建设单位往往对建设后运营的模式、服务标准投入不足,出现了管头不管尾、建设运营割裂的现象,影响客户体验。

4、碳排放和能耗高。设备自身的能耗排放带来非常大的挑战,比如OpenAI公司的超大规模预训练模型GPT-3训练所需的耗电量为19万千瓦时,相当于2021年人均用电量的228倍。

5、投资成本和应用价格待规范。智算中心的投建成本较高,部分智算中心每 100P半精算力的投资成本高达5-6亿元,远远高出正常市场价格,同时使用成本也较高,比如据保守估计GPT-3大模型训练费用超过1200万美元。

02

智算中心2.0时代:

算力融合、告别烟囱、绿色低碳

按照《报告》对产业的洞察,我国智算中心产业发展正在克服1.0时代的挑战进入2.0时代,背后来自于产业和政策两方面的驱动。

一方面,各行业数字化转型加快,智慧城市、智能制造、无人驾驶、数字孪生等大量场景需求拉动了数据计算分析的需求。根据知名行研机构罗兰贝格报告显示,2030年人工智能的算力需求将是2018年的算力需求的390倍。

另一方面,“十四五”规划与中长期发展纲要明确强调,要加快构建全国一体化大数据中心体系,强化算力统筹、智能调度。

2022年2月东数西算启动,我国智算中心在10大国家数据中心集群拉开新序幕。东数西算对数据中心提出集约化建设、能耗低碳等要求,催促智算中心由粗放式扩张走向精细式规划建设的2.0阶段。

智算中心2.0阶段为产业发展提供了新的指引,那么它有什么特征?

根据《报告》,智算中心2.0阶段标志着一个“有序发展”和“算网一体”建设新格局产生,赋予了以下7大新内涵:

1、算力融合,通用和专用算力融合供应。智算中心在1.0阶段主要提供同构计算、专用算力,2.0阶段则需要利用CPU、GPU等加速芯片的异构,实现“高精度通用算力+低精度专用算力”融合供应。包括谷歌、英特尔、阿里、曙光、百度等国内外企业都在研发异构计算结构。

2、软硬协同,加快增强产业发展协同性。在1.0阶段,智算中心主要采用垂直一体的软硬件烟囱式方案,通用性和兼容性较低;在2.0阶段,智算中心更强调产业链上下游的开放协同,要实现算力、模型和数据集的横向兼容,确保各层次灵活构建。

3、建运一体,逐步完善一体化服务体系。在1.0阶段,智算中心主要聚焦在算力基础设施建设上;2.0阶段,更加关注规划建设和服务的统筹全局性。

4、能耗低碳,加快部署能耗低碳化技术。传统的数据中心较多采用风冷方式,散热效率较低;在2.0阶段,数据中心的冷却方式需要绿色节能,液冷方式发展起来。

5、成本优化,持续优化成本实现价格的普惠。在1.0阶段,较高的投建成本稀释了算力的价值;2.0阶段应该发算力基础设施的公共属性,尤其要推进智能算力网络建设,促进不同地区、不同应用之间的算力普惠发展。

6、需求牵引,从建起来到用起来。1.0阶段,大多数智算中心是规划牵引的政府规划、财政拨款建设;2.0阶段,应更强调市场需求牵引、平台化运营,多元化的模式来进行智算中心建设。

7、安全可信,落实新基建安全要求。在1.0阶段,自主创新程度还是比较低;2.0阶段要充分考虑信息安全和产业安全,以自主“通用芯片+AI芯片+操作系统+硬件设备+框架模型”为基础技术体系来构建生态、发展应用。

可以看到,2.0阶段的智算中心正从拼规模向拼质量发展。

曙光相关负责人对智东西说,国家十四五数字经济发展规划中提及“有序发展”,意味着此前几年存在的一些无序状态将要改变;同时智算中心建设强调协同,从原来的单打独斗走向上下游软硬件厂商的协同作战,将算法、算力、数据厂商联动起来。

03

开放架构

曙光5A智算中心打造行业样板

基于2.0阶段的要素特征,《报告》给出当前产业内示范样例,为智算中心从“建好”到“用好“提供借鉴与指导。

值得一提的是,以曙光为代表的ICT企业凭借多个实际应用案例正成为典型样板。

《报告》指出,“中科曙光推出5A级智算中心可通过分布式异构并行体系结构,覆盖全算力精度,实现多样化算力供应。”

开放是曙光5A级智算中心的最核心宗旨,通过硬件、算法、框架、模型的全面开放、兼容,构建多元集成的基础架构,实现算力底座最大程度的易用性,降低迁移成本。

当下国内智算中心推进格局就像“爬珠峰”一样,分化出南坡、北坡等不同的架构“爬坡”路线。

有的企业选择用自己的芯片、操作系统、模型框架等技术形成一个垂直架构闭环,有的选择多方协作的开放架构。而曙光推出的5A级智算中心,是要做第二种路线的典范。

目前,5A级智算中心在长沙、合肥等多地投运,致力为千行百业注入AI活力,打造智能算力领域的行业样板。

04

结语:开放融合共建智算中心

从“建起来”到“用起来”

《报告》以2022年十四五规划及行业政策的陆续出台为分界点,将智算中心的发展划分为高速扩张的1.0阶段与行业引导的2.0阶段,2.0阶段的智算中心将从粗放扩张转向精细式规划建设。

如同“攀珠峰”一般,国内智算中心建设也开出了多条爬坡路径。无论何种路径,开放生态、绿色低碳、算力融合都是作为公共基础设施的智算中心规模落地的必由之路。

本文授权转载自公众号:智东西(zhidxcom)

排版:骆伟玲

图片源于Q仔互联网冲浪所得,若有侵权,后台联系,Q仔滑跪删除~

欢迎转载、留言、评论,留言点赞数最高(10个以上)的朋友,我们会赠送清博指数&清博舆情一个月会员权限~

清博智能旗下的产品大多数开放免费试用权限,想体验我们的产品,欢迎扫码咨询~

当然,对咱们的文章有兴趣或者有意见的朋友也可以扫码勾搭Q仔哦~

搜索建议:
热文

 以我与书为话题的小学作文

以我与书为话题的小学作文7篇以我与书为话题的小学作文1从我懂事起,我就常常依偎在妈妈怀里,听妈妈给我讲《海的女儿》、《白雪公主》等故事《龟兔赛跑》。当我长大了,...(展开)

热文

 【歌词】梅花三弄 (feat. ...

歌曲名称:梅花三弄 (feat. 阿诚)(live版)歌手:姜育恒专辑:天下无双何吉森红尘自有痴情者莫笑痴情太痴狂若非一番寒澈骨那得梅花扑鼻香问世间情为何物只教...(展开)