清微智能欧阳鹏架构创新是通往高性能计算芯片必由之路视点
视点发自凹非寺
量子位公众号QbitAI
这几年,如果问哪个行业最热?无疑是芯片。
宏观层面,我们看到了国外的限制打压,国内政策的扶持,整个芯片产业的沸腾。芯片对于高新技术、前沿科技发展的重要性不言而喻。
而在微观层面,中国芯片产业一直在不断进行技术尝试。面临数据爆炸的大算力时代,传统芯片架构的计算瓶颈有待突破,而在前沿架构的探索上,中外公司不约而同地选择了数据流驱动的可重构架构。
那么,可重构计算架构为何能够成为应对大算力时代的最佳技术路线?又是如何兼顾高能效比、软硬件灵活可重构与可扩展性的?目前该架构的落地难点在哪里、落地情况如何呢?
围绕可重构计算架构芯片的探索、创新与商业落地等,清微智能联合创始人兼CTO欧阳鹏在量子位视点直播中分享了他的从业经验和观点。
以下根据分享内容进行整理:
今天和大家分享的题目是可重构计算架构(CGRA)创新实现计算性能突破。
我从几个方面来展开今天的介绍:首先是清微智能公司的发展情况,包括发展状态、软硬件产品等;其次是算力大爆炸的时代背景下带来的挑战;再者是现在的技术路线,以及主流的产品架构存在的问题;第四是清微智能如何在这种环境和挑战之下,通过创新突破实现产品性能的提升;第五是对未来技术的展望,包括发展趋势、发展方向等。全球首家也是出货量最大的可重构芯片企业
清微智能在可重构计算技术研究方面已有16年历史。2006年,我们在清华大学成立了可重构计算实验室,开展可重构计算相关的研究,16年间已培养了超过300名的硕士、博士和博士后。在该领域不断探索、突破,沉淀了三百个专利和论文,先后获得国家技术发明二等奖,国家专利金奖以及国际竞赛冠军。
基于多年的积累,2018年清微智能成立,正式开启商业化道路。2020年,清微获得了中国电子学会技术发明一等奖,2021年和2022连续入选国际电子信息领域的时代周刊EETimes的全球半导体公司Silicon100榜单,2022年入选麻省理工评选的全球50家最聪明公司(MITTR50)。经过四年的商业落地,目前已经有十款型号的芯片形成规模销售,头部客户包括了海康、国网、商汤、阿里等,技术经受了市场考验。清微智能的可重构芯片是完全发源于本土、掌握自主核心技术、完全自主可控的技术体系,清微智能是全球可重构芯片领导企业。人工智能的发展对芯片算力提出更大挑战
当前人工智能发展非常迅速,对算力产生需求巨大,可以说我们已经进入算力爆炸时代。作为智能算力的提供者,芯片企业应该怎么来应对呢?
我们先来看看在这个时代,都有哪些特点?具体来说,人工智能对算力需求呈爆发式增长,来源于是网络模型参数量、计算量的不断增加。到2025年,模型参数量将达到万亿级别,支撑从图像视频处理、自然语言处理、到自动驾驶、通用智能,甚至元宇宙等的发展。模型的发展进一步推动对各种智算中心的建设需求,现在有26座城市都在开建计算中心,算力都是P级以上的规模。2022年8月,美国总统拜登签署《芯片与科学法案》,计划在未来5年内投资2800亿美元,甚至以搭建Z(十万亿亿)级高算力平台作为目标。
这样的算力需求对芯片底层提出非常严峻的挑战。如果用最主流的GPU产品,会带来巨大的计算能耗以及投入成本,无法满足大模型发展带来的算力黑洞。
举个例子,比如像openAIGPT,只需要3张英伟达的A100训练三天,但使用单卡,就需要训练366年。像GPT3模型,则需要1024张80GB的显卡,训练一个月,训练成本超过1200万美金。如果训练北京智源研究院的悟道模型,整个花费也是达数千万美元。图1所示:我们可以看到以GPT3为界,左边这个图里模型到了GPT3以后,switchtransform、悟道、阿里M6等等都是千亿到万亿的模型参数计算量。
图1AI大模型
而从另外一个维度看,能够提升芯片性能的,无非就是制程和架构。图2是展示了基于浪潮8卡AI服务器做MLperf性能数据,计算性能已经超过了摩尔定律发展,这意味着架构创新起了非常大的作用。随着时间的推移,芯片架构创新对性能提升的影响会越来越大。性能的提升跟摩尔定律的剪刀差会越来越明显。
图2架构创新推动作用超过摩尔定律架构创新是必由之路
所以,架构的突破和创新,目前来看是算力大爆炸时代唯一解决办法。
我们来看现有的一些技术架构路线。如图3,图里分为左边和右边两个技术方向,右边是红色的箭头,表示是更加共享存储,而相反的越往左边则是更加的数据流或者是空域计算能力越强。
图3主流技术路线对比
这代表当前两个技术方向:一条代表着可以更加共享存储,通过不断提高工艺制程,利用先进HBM存储,提高晶体管密度把单芯片性能做高;另一条则是对制程要求不高,通过数据流驱动架构来提高性能以及多机多卡的线性度,除了清微,国外的像Sambanova、tenstorrent也是走的这条路线。以共享存储方式为代表的GPU计算架构,在单卡上,通过高工艺能够提高性能,但也存在一些问题,问题分为三个方面。
第一,核心SM架构本质上还是指令集驱动的,所以没法把大量的资源用在计算上,尤其像AI这类流式运算,需要大量的指令,频繁调度来保证精确的计算。
第二,由于共享存储,其内部有不同的缓存结构,也就存在不同级的延迟。同时,在多个服务器之间,还需要网卡、交换机进行连接。这样的话,通过增加卡的数量,性能并不一定是线性增长的,因为会有网络的延迟,通信的延迟。
第三点是成本,这其实是大的算力中心,包括数据中心,需要去关注的点。现有的一些方案,采用2。5DHBM存储,以a100为例,它的成本中HBM超过50,非常昂贵。另外,基于这种技术方案建大的计算集群的时,需要网卡,分层交换机等,这部分成本非常高,也接近总成本50。
要实现一个数据中心的可持续发展,必须要去考虑如何实现线性算力增长,同时降低芯片和系统单位算力的能耗和成本。
再一个,刚才提到了现在主流的GPU产品,都是以2D2。5D方式来做存储集成,比如HBM,能够提供一个12TBs的带宽。但是我们看AI本身的计算,尤其像训练,对带宽的要求非常高,至少5TBs以上。要把性能充分发挥出来,2D和2。5D存储集成提供的带宽是远远不够的。如下图4展示,受限于互联端口的数量,带宽无法做到更高。
图4目前2D、2。5D存储集成方案存制约性能的提高数据流驱动的可重构计算架构天然适应大算力计算
因此,需要一个新的计算范式,或者一些新思路来解决这些问题,解决计算单元效率的问题,我们从三个方面来考虑:
第一个是计算范式上,能不能把更多的计算资源用在计算上,不要去做太多的控制,很多的应用场景它不需要太多的控制。如果我把90的资源都用在计算上,那肯定能够提高计算效率。
第二,通信墙的问题。更多的算法,更多的更大的模型,意味着大量的通信,通信有时延,并成为算力增长的短板。要考虑的就是:如何让这个多卡之间能够实现线性增长,同时能够去掉包括交换机、网络在内的非核心计算设备的成本?
第三,无论是2D还是2。5D,都是在解决带宽的问题,如何突破现有方案,让存储和计算更加耦合和紧密,进而提高带宽。
那我们是如何来思考这个问题呢?
首先第一点,将宝贵的应用资源尽可能的集中于计算。
传统的CPU、GPU,都是指令驱动的,需要逐条逐条取指译码,需要有精确的控制。这样大量的资源用在控制上,用在频繁的访存上。我们采用了一个数据驱动的动态重构的空间模式:里面有大量的计算资源,能够灵活地组织成不同的计算通道,大幅减少控制开销,将90的基本资源用在计算上来提高计算效率。
第二就是让数据尽量在计算单位中流动,减少大量的访外存开销。传统GPU采用共享存储,无论是采用GDDR还是HBM,来实现共享同步,包括多卡之间也是如此。新的方式就是让数据在计算单元之间传导,不需要频繁的去跟外面存储器交换,减少访存的代价。这里包含两个层面:一个数据流动发生在计算单元之间,这是一种微观的传输。二是数据流动发生在芯片与芯片之间,直接实现数据传输。
第三点,提高数据流可拓展的软硬件能力。跨server、跨机架直接连接,打破芯片边界。我们一直说GPU很强,但是他要扩展更大的集群,还是需要找交换机,我们叫数据交换设备。那能不能把交换设备给摒弃掉?直接在芯片与芯片之间就实现互联,整体是一个数据的模式,去支持这个应用。同时,每一个数据流它是可配置的,来提高编程维度,提高灵活性。这样,从芯片内和芯片间都是拉平了。从逻辑上,对开发者来说,一台机器和十台机器,面对的都是同样的编程模式,因为底层的架构上它是拉平。所以说,通过这种方式来实现芯片与芯片的直通,保证数据流能够突破芯片的边界,进一步去减少访存代价。
第四,通过数据流的方式在芯片内和芯片间流动起来。在单芯片上省去昂贵HBM,通过局部存储提供大带宽。同时,通过多芯片之间的直联,省掉昂贵的交换机。我们上面说过,GPU产品是通过交换机,网卡来实现互联,成本非常高。如果通过芯片内外直接互联,整个都是数据流,就可以省掉昂贵的存储器、交换机的成本。
第五点,采用3D存储方式解耦先进存储。考虑让存储和计算挨得更近。清微是通过一种叫3D存储集成的方式实现。如图5,这种集成方式天然适配数据流计算方案,因为它是垂直连接,不需要每个PE去访问整个空间,每个PE可以拥有自己独立的存储量和带宽。通过面与面的集成,减少计算单元与存储单元连线距离,增加信号密度,减少搬运功耗,可以在节省一半功耗的情况下达到同样的性能,相比传统集成方式,带宽可以提高十倍。
图5可重构分布式计算与3DDRAM天然结合
上面这些正是我们在做的事情。清微云端芯片TX8项目在2021年就已经启动,汇集了一批来自苹果,海思,英伟达,SUN,Intel,AMD,平头哥等公司,具备丰富服务器芯片和AI芯片软硬件经验的技术骨干,团队正在快速推进工程落地,产品预计在明年年底上市。我们希望通过这种更合理、更可行的可重构计算架构方式,来满足算力爆炸时代对芯片的需求,解决目前方案中存在的一些问题。全球可重构计算路线发展情况
可重构计算这个技术出现还是比较早。1991年,国际学术界开启可重构芯片研究(ANovelASICDesignApproachBasedonaNewMachineParadigm)。历经10余年探索和发展,其算力和通用性的完美平衡获得广泛认可。
2003年,欧洲宇航防务集团(EADS)率先在卫星上采用可重构计算芯片。2017年,美国发布电子复兴计划,将可重构计算技术列为美国未来三十年的战略技术。2019年,赛灵思推出包含CGRA架构芯片的Versal系列产品,面向高端智能驾驶,算力达到128TOPS。2020年,SambaNova基于可重构数据流架构(RDA)推出了高性能计算的DataScale平台,获得Intel和Google的联合投资,实现软件定义硬件,部署到了美国阿贡国家实验室,美国能源部旗下国家核安全管理局,劳伦斯利国家实验室,洛斯阿拉莫斯国家实验室,用于药物分析,核安全计算、人工智能等高性能计算场景。2021年英特尔的自动驾驶子公司Mobileye宣布下一代L4SoC中包含粗粒度可重构阵列(CGRA)内核。2022年,瑞萨推出能够处理多个摄像头图像数据的全新可重构芯片RZV2MA,并为视觉AI应用带来新水平的高精度图像识别能力。
国际产业界和学术界已形成共识,可重构架构芯片具备广泛的通用计算能力,可以应用在非常多的场景。面对日益增长的算力需求,兼顾灵活性和高算力特点,可重构计算技术是解决通用高算力需求的必由之路。
未来,可重构芯片定位为数据密集型计算的核心载体,形成CGRA的异构开放生态。这个是必然趋势。英特尔主打CPU,然后收购Altera,加上自研GPU,形成了一个CPUGPUFPGA异构产品形态。AMD基于x86CPU,收购赛灵思FPGA,赛灵思同步已经切入CGRA,同时收购ATIGPU,形成了一个CPUFPGACGRAGPU的生态。英伟达,曾经试图去收购ARM,但没有成功,但是也可以反映出它整个的技术路线,希望形成一个CPUGPU的生态。清微不会去做通用的生态,而是做计算生态,它往前发展,是一个CGRACPU的生态,我们的CPU可以是x86架构的,可以是ARM架构,还可以是RISCV架构,开放兼容。
最后,我想说说清微智能未来的发展规划。清微现实从端侧入手,正在向云侧延伸,打造CGRA的生态。如图6所示,从横坐标和纵坐标两个维度发展,横向是软件生态,不断地从单点产品切入,完善整个应用场景,到完善整个生态。纵向是基于CGRA技术体系,不断内生和外延,吸纳单点技术,实现软硬件通用处理器平台。
图6清微未来十年技术发展规划关于量子位视点
量子位发起的CEOCTO系列分享活动,不定期邀请前沿科技领域创业公司CEOCTO,分享企业最新战略、最新技术、最新产品,与广大从业者、爱好者探讨前沿技术理论与产业实践。欢迎大家多多关注
魔性游戏!羊了个羊爆了,这是在激活成年人的快乐Hello,我是童小羊,用最社恐的视角带你看最开放的世界你还记得上一款你觉得全名火爆的游戏是什么吗?《开心消消乐》还是《消灭星星》或者是《2048》?这几天一……
凯芙兰素颜霜好用吗?凯芙兰平价中的战斗机凯芙兰是卡姿兰旗下的彩妆品牌,在我们平时的日常生活中经常可以见到有很多人使用凯芙兰的化妆品,素颜霜是现代生活中很流行的一种素颜神器,那么凯芙兰素颜霜好用吗?凯芙兰平价中的战斗机……
高光的作用是什么高光粉的多种用处化妆品的种类有很多,高光是很多人化妆高的时候都会使用的一种化妆品,有很好的美妆作用,高光可以是我们扁平的五官变的立体起来,有很好的提亮作用。高光的作用是什么高光的作用主要……
用唇彩笔画眼影图解教程对于女人来说化妆品中第一款入的可能就是口红,因为口红的不仅有让唇部干裂的问题得到解决,同时也会让人的双唇更加迷人气质也会明显提升,不过你有尝试过使用口红做眼影吗,以下小编就教大……
怎么用口红画眼影?两步画好眼妆听到口红可以画眼影是不是惊呆了?口红能打造出精美、性感双唇,照样也能打造魅惑电眼。下面5号网小编带大家来看一下怎么用口红画眼影?怎么用口红画眼影1、用口红在上眼睑眼球凸起……
奔驰造型,高速读写,奥睿科UFSDC快闪U盘上手实测U盘已经成为生活中的必需品,相比网盘来说更加方便,可以随时随地的进行数据传输。之前也买过很多不同品牌的U盘,速度确实太慢了,因此一直在寻找一款性能出众的产品。最近了解到奥睿科(……
医采气垫孕妇能用吗医采气垫适合什么皮肤1医采气垫孕妇能用吗一般专家建议,怀孕期间,是不可以使用任何化妆品了,因为化妆品里面,还有许多刺激性的化学物质,会影响到胎儿的正常发育,而且有些化妆品,含铅比较高,是不能……
化妆刷品牌排行榜这些化妆刷最好用化妆刷是我们平时最常使用的一种化妆工具,我们平时画底妆或者眼妆都会使用到化妆刷,好用的化妆刷是很重要的,作为化妆辅助工具一定要选好,下面我们就来看一下化妆刷品牌排行榜,这些化妆……
什么牌子的化妆刷好用性价比高的化妆刷推荐化妆刷是很多人都非常喜欢的一种化妆工具,现在市面上的化妆刷品牌非常多,选择一款专业好用的化妆刷非常重要,精致完美的妆容化妆刷必不可少,那么什么牌子的化妆刷好用?性价比高的化妆刷……
哪款妆前乳最隐形毛孔4款人气妆前毛孔隐形霜粗毛孔族看过来!小编的评比小特集回归啦!今日要为各位重磅介绍几个专柜品牌超夯的毛孔隐形霜,带大家实测他们的惊人效果,准备好了吗?赶快看下去。哪款妆前乳最隐形毛孔1、BOB……
绿联星辰GS600户外电源评测UTurbo超能模式,智能逆变前言此前,充电头网就已预告专注于消费电子领域的绿联与深圳比亚迪电子签署深度合作协议,正式进军户外电源市场,为消费者打造出拥有UTurbo超能模式与PowerZip优闪充技……
丝绒美甲怎么做教程丝绒美甲能沾水吗美甲的款式有很多种,很多人都非常喜欢做美甲,美甲可以使我们的双手更加精致好看,独特的美甲款式看起来很有个性,丝绒美甲是很特别的一种美甲种类,那么丝绒美甲怎么做教程?丝绒美甲能沾……
NBA历史最强防守大闸盘点在nba一直流传着这样的一句话,进攻赢得比赛防守赢得总冠军。今天我们就来盘点下联盟里的那些防守悍将。卡哇伊伦纳德作为nba历史上蝉联过年度最佳防守球员中唯二的外线球……
步行模拟器与游戏设计的黄昏所谓步行模拟器(WalkingSimulator),起初是某种戏称,据不够认真的考据,大概正式起源于《亲爱的艾斯特》这款游戏,正值2012年。直白的称呼透露出当时玩家们隐含的质……
金稻直发梳会伤头发吗?金稻直发梳哪个型号好一款可以打造直发和卷发的神器,金稻直发梳,比卷发棒更加方便,重要的是不容易像卷发棒一样烫伤自己,那么,它会不会像卷发棒一样,对于头发伤害很大呢?金稻直发梳会伤头发吗如果是……
广东整个镇都在卖一碗饭,当地人三更半夜来抢,外地人却吃不惯一些懂吃的美食家会把广东美食、顺德美食和潮汕美食分开来说,比如说广东人爱吃鹅肉,一年能吃掉1亿多只鹅,一些地区爱吃烧鹅,焖鹅,而光是潮汕地区就有卤鹅、鹅肠火锅、鹅肉饭等等,让人……
证件照化妆技巧适合拍证件照的妆证件照是我们平时经常会需要的一种照片,我们都知道很多时候证件照拍出来都丑的不忍直视,其实拍证件照是可以化妆的,这样我们就可以有一个美美的证件照了,那么我们一起来学学证件照化妆技……
塌鼻子怎么化妆变挺拯救塌鼻梁小技巧鼻子是我们整个五官中非常重要的一个部位,都说看一个人是不是真正的大美女,就要看她的鼻子,所谓面部一枝花,全靠鼻当家,挺拔的鼻梁会为整个人加分不少,那么塌鼻子怎么化妆变挺?拯救塌……
黑胡椒味香水有哪些胡椒味道的香水推荐香水是一个人的标志,独特的香水味道会给人留下很深的印象,市面上的香水味道非常多,香水彰显着每个人无限的个性魅力,是深受大家喜爱的一个彩妆产品。黑胡椒味香水有哪些1、祖玛珑……
芦丹氏和祖马龙哪个好卤蛋和祖马龙选谁芦丹氏和祖马龙是两个很有名的香水品牌,在平时生活中经常可以看到有很多人都喜欢使用芦丹氏和祖马龙的香水,好的香水能彰显好品味,那么芦丹氏和祖马龙哪个好?卤蛋和祖马龙选谁?芦丹氏和……
卤蛋蜜粉饼是什么?芦丹氏蜜粉饼怎么样?最近大表哥在微博上屡屡推荐了一款卤蛋蜜粉饼,那么卤蛋蜜粉饼到底是什么牌子呢?今天5号网小编就要为大家介绍一下,卤蛋蜜粉饼是什么?芦丹氏蜜粉饼怎么样?卤蛋蜜粉饼是什么卤蛋蜜……
sergelutens卤蛋眼影色号芦丹氏眼影试色sergelutens卤蛋家的眼影粉质超级好,也是贵妇级的品牌,属于资生堂的顶级彩妆线,专柜也是经常断货,配色很日常,怎么化都不容易出错的一款,一起来看看卤蛋眼影吧!serge……
胎毛刘海怎么剪啊胎毛刘海适合什么脸型胎毛浏海就是在发际线边小小的修两刀,修出小碎发的感觉,不但显嫩还看起来更年轻,发际线高、额头又大又圆的杨幂,最近就弄出两撮胎毛浏海,看起来减龄好几岁,散发满满少女感胎毛是……
干玫瑰色口红哪个牌子最好看好看的干枯玫瑰色口红我们平时涂口红都会根据口红的颜色来选择适合自己的,干枯玫瑰色口红一直是很火的一个口红色号,很多人喜欢干枯玫瑰色口红,温柔、高雅、有气质。干玫瑰色口红哪个牌子最好看1、迪奥……