游戏电视苹果数码历史美丽
投稿投诉
美丽时装
彩妆资讯
历史明星
乐活安卓
数码常识
驾车健康
苹果问答
网络发型
电视车载
室内电影
游戏科学
音乐整形

又是拼装货?英伟达800亿晶体管核弹GPU芯片架构深入解读

  编者注:NVIDIA在3月23日公布基于全新Hopper架构的GPUH100,其多种精度下的AI性能达到上一代A100的36倍。NVIDIA如何做到如此大幅的性能升级?Hopper架构有何玄机?千芯科技董事长陈巍博士对此加以解读。
  在2022年3月NVIDIAGTC大会上,NVIDIA创始人兼CEO黄仁勋介绍了一款基于全新Hopper架构的H100GPU,这是英伟达迄今用于加速人工智能(AI)、高性能计算(HPC)和数据分析等任务的最强GPU芯片。
  Hopper架构H100GPU的主要升级
  Hopper架构以计算科学的先驱GraceHopper的姓氏命名。黄教主称:HopperH100是有史以来最大的代际飞跃。H100具有800亿个晶体管,在性能上堪称NVIDIA的新核弹。
  那么,新核弹的核心是什么样的?本文将深入解读和分析Hopper架构。
  Hopper架构的H100与前几代GPU性能对比
  注:GraceHopper博士是哈佛Mark1的首批程序员,被誉为编译语言之母。据称她发现了计算机程序中的第一个Bug,同时也创造了计算机世界最大的Bug千年虫。01。Hopper的整体结构拆解
  NVIDIAHopper架构H100芯片采用台积电4nm工艺(N4是台积电N5工艺的优化版),芯片面积为814平方毫米(比A100小14平方毫米)。
  H100TensorCoreGPU的性能规格
  Hopper架构可以视为由两组对称结构拼接而成。(是不是有点类似我们之前介绍的苹果UltraFusion架构的拼接思路?不过这里的GPU还是单片的。回顾苹果UltraFusion架构可参见《苹果芯片拼装的秘方,在专利里找到了》文章。)
  在顶层拓扑上,Hopper似乎与她的前辈Ampere架构差别不大。图中的Hopper架构GPU由8个图形处理集群(GraphicsProcessingCluster,GPC)拼接组成。
  Hopper架构基本结构
  外周与多组HBM3封装在一起(Chiplet技术),形成整个芯片模组从模组上看又是个拼装货。片上的每个GPC又由9个纹理处理集群(TextureProcessorCluster,TPC)拼接组成。
  由PCIe5或SMX接口进入的计算任务,通过带有多实例GPU(MultiInstanceGPU,MIG)控制的GigaThread引擎分配给各个GPC。GPC之间通过L2缓存共享中间数据,GPC计算的中间数据通过NVLink与其他GPU连接交换。每个TPC由2个流式多处理器(StreamingMultiprocessor,SM)组成。
  Hopper架构的性能提升和主要变化体现在新型线程块集群技术和新一代的流式多处理器(具有第4代张量核心)。
  线程块集群和带有集群的网格
  Hopper架构中引入了一种新的线程块集群机制,该机制可以跨SM单元进行协同计算。H100中的线程块集群可在同一GPC内的大量SM并发运行,这样对较大的模型具有更好的加速能力。02。新一代流式多处理器SM与FP8支持
  Hopper架构的新一代流式多处理器引入了FP8张量核心(TensorCore)来加速AI训练和推理。FP8张量核心支持FP32和FP16累加器,以及两种FP8输入类型(E4M3和E5M2)。
  流式多处理器SM
  与FP16或BF16相比,FP8将数据存储要求减半,吞吐量翻倍。我们在Transformer引擎的分析中还会看到使用FP8可自适应地提升Transformer的计算速度。
  每个SM包括128个FP32CUDA核心、4个第4代张量核心(TensorCore)。
  进入SM单元的指令首先存入L1指令缓存(L1InstructionCache),然后再分发到L0指令缓存(L1InstructionCache)。与L0缓存配套的线程束排序器(WrapScheduler)和调度单元(DispatchUnit)来为CUDA核心和张量核心分配计算任务。(注:GPU中最小的硬件计算执行单位是线程束,简称Warp。)
  FP8具有FP16或BF1622倍吞吐量
  每个SM通过使用4个特殊函数单元(SpecialFunctionUnit,SFU)单元进行超越函数和插值函数计算。03。Hopper的张量核心与Transformer引擎
  在GPU中,张量核心是用于矩阵乘法和矩阵累加(MatrixMultiplyAccumulate,MMA)数学运算的专用高性能计算核心,可为AI和HPC应用程序提供突破性的性能加速。
  张量核心是GPU中做AI加速的关键模块,也是Ampere及之后GPU架构与早期GPU的显著区别所在。
  Hopper的张量核心支持FP8、FP16、BF16、TF32、FP64和INT8MMA数据类型。这一代张量核心的关键点是引入了Transformer引擎。
  H100FP16TensorCore的吞吐量是A100FP16TensorCore的3倍
  Transformer算子是主流的BERT到GPT3等NLP模型的基础,且越来越多地应用于计算机视觉、蛋白质结构预测等不同领域。
  与上一代A100相比,新的Transformer引擎与HopperFP8张量核心相结合,在大型NLP模型上提供高达9倍的AI训练速度和30倍的AI推理速度。
  新的Transformer引擎动态调整数据格式以充分运用算力
  为了提升Transformer的计算效率,在这一新的Transformer引擎中使用了混合精度,在计算过程中智能地管理计算精度,在Transformer计算的每一层,根据下一层神经网络层及所需的精度,在FP8和其他浮点格式中进行动态格式转换,充分运用张量核心的算力。04。张量存储加速器与异步执行
  Hopper架构中新增加了张量存储加速器(TensorMemoryAccelerator,TMA),以提高张量核心与全局存储和共享存储的数据交换效率。
  在这一新的TMA操作中,使用张量维度和块坐标指定数据传输,而不是简单的按数据地址直接寻址。TMA通过支持不同的张量布局(1D5D张量)、不同的存储访问模式、显著降低了寻址开销并提高了效率。
  也就是说,原来是一个一个的捡豆子(数据),现在的方法就是一碗一碗的舀豆子。这样的设计,是不是越来越接近DSA的寻址方式?
  TMA的块坐标寻址方式
  当然,TMA操作是异步的,多个线程可以共享数据通道,排序完成数据传输。
  TMA的一个关键优势是它可以在进行数据复制的时候,释放线程的算力来执行其他工作。
  例如,在A100上,由线程本身负责生成所有地址执行所有数据复制操作。但在Hopper中,TMA来负责生成地址序列(这个思路类似DMA控制器),接管数据复制任务,让线程去做其他事。
  Hopper架构的H100的基于TMA的存储复制效率更高05。结语:GPU走向领域专用化
  总体而言,基于Hopper架构的H100计算性能比Ampere架构的A100提高了大约6倍。
  性能大幅提升的核心原因在于引入FP8后的张量核心和针对NLP任务的Transformer引擎,特别是TMA技术减少了SM单元在数据复制时的无用功。
  从设计哲学上看,针对数据中心的Hopper架构中DSA(DomainSpecificArchitecture,特定领域架构)的想法越来越多,且流多处理器间的协作变多。大概老黄也觉得,GPU应朝着领域专用化的方向去发展。
  今年发布Hopper架构相对Ampere架构有较多的微观进步,希望老黄下次能给我们带来更多的技术惊喜。
  参考文献:《NVIDIAH100TensorCoreGPUArchitecture》白皮书,英伟达;《GPGPU芯片设计:原理与实践》,陈巍、耿云川

6139套,11月惠州住宅网签套数为年内第三高月份政策的效果市场正在反馈,楼市行业的信心和预期正在恢复。从惠州的各种数据反馈来看,没有传统供需两旺的金九银十,市场的活跃度依然不足,但近期在各种纾困暖市政策的刺激下,惠州房……谁是中国最能打的女人?为什么现在的武侠片没内味儿了?在武侠片里长大的一代人,躲在被窝里打着手电筒读过古龙金庸,挤在学校体育场看过露天放映的《黄飞鸿》。那时候让人着迷的是影片里另一个世界的……大家有没有发现,发型不是发型决定的我们总有一两款向往的发型,怎么也剪不出来、留不起来、烫不出来、染不出来我们也都有过这样的经历:在理发店,头发在Tony老师的整理下美美的,回家第二天就开始现出原形了。……成为球星的路上,劳里马尔卡宁的真正归宿!在202223赛季之前,不少人曾经看低过劳里马尔卡宁:2017年第一轮第7顺位进入NBA,在芝加哥公牛前两季表现不俗,劳里马尔卡宁曾经是最有前途的二年级生,有着稳定产出20分、……联想四风扇核显笔记本侧面照公布,对比自家游戏本IT之家8月4日消息目前市面上的标压核显笔记本不是很多,主流品牌中有戴尔XPS15,现在联想也要推出Y9000X,搭载第九代酷睿移动标压处理器。现在,联想官方又放出了一张对比图……王者荣耀时隔一年半,终于传来了新皮肤的消息每年年底,王者荣耀一定会上架许多新皮肤,毕竟过大年,小伙伴们都荷包鼓鼓,天美还靠这波业绩发年终奖呢。继去年的五虎上将皮肤后,时隔一年半时间,终于传来了新皮肤的消息。不过根……明明长得帅,导演却总找他们演渣男,这6位男星的脸都变得气人了小陶虹某次做采访时反问主持人:你知道为什么徐峥要当导演吗?主持人问为啥。小陶虹说:因为没有人找他演戏,找上来的戏都是一样的,因为你演了一个茄子,所有紫色都来找你了。……百度网盘第一轮付尾款超级会员年卡178元新低百度网盘天猫官方旗舰店双11预热第二轮预定,10元抢限量130元优惠券(点此抢券),11月11日期间购买百度网盘超级会员年卡券后价178元(定金10元尾款168元),点此购买。……双11大促汇总腾讯视频优酷爱奇艺QQ会员等低至2。7折双11影音VIP大促,腾讯视频VIP年卡4。7折94元、超级影视VIP年卡季卡4。3折479元,优酷会员15个月3。9折99元、酷喵会员年卡2。7折128元,京东PLUS会员年……索尼PS5为什么那么大索尼新一代游戏主机PlayStation5(以下简称PS5)很快就要发售了,随着开箱上手视频的解禁,关于它外形的讨论又多了起来。其实在PS5刚公布后,大家就发现它的体积有点超乎……OPPOWatch将于7月31日登陆海外市场搭载谷歌WearIT之家7月24日消息在今年3月的FindX2系列新品发布会上,OPPO发布了旗下首款智能手表产品OPPOWatch。据外媒engadget今日报道,OPPOWatch即……外媒将英特尔i910900K超频至7GHzIT之家6月22日消息今天,外媒Tom39;sHardware发文称已经英特尔的i910900K超频到了7GHz,创下新的记录。图自Tom39;sHardware据……
英特尔i710510Ui510210U跑分曝光,不敌AMD竞IT之家6月20日消息Geekbench上出现了两款全新的英特尔酷睿i系列处理器,分别是Corei710510U和Corei510210U,得分偏低,都不敌AMD的低压CPU竞……2023河北张家口冰雪产业博览会3月31日开幕纵览客户端讯(燕赵都市报纵览新闻记者张岩实习生刘畅)3月28日,记者从2023河北张家口冰雪产业博览会新闻发布会上了解到,2023河北张家口冰雪产业博览会将于3月31日4月2日……正式服12。14更新7英雄调整,公孙离前期削弱,鲁班飞艇带减在王者荣耀正式服12月14日早晨将进行一波不停机更新,在此期间孙膑、钟馗、公孙离、杨玉环、鲁班七号、程咬金、金蝉七名英雄将作出调整。孙膑:前期机动性提升初始血量:3208……五盘位NAS探底1599元威联通TS551网络存储器京东大促IT之家7月25日消息威联通TS551网络存储器京东日常售价1970元,今日直降至1599元新低。Intel处理器5盘位NAS,支持分层分区存储和4K影像输出:点此购买。……老本升级之选,京东协德DDR3L16008GB笔记本内存条探IT之家6月27日消息协德1。35V低电压版DDR3L16008GB笔记本内存条今日京东PLUS会员直降至129元,关注店铺可获得1张5元优惠券,实付124元到手好价。8GB才……对话刘艳钊坦克品牌加电依然最强,坦克700或明年公布进展坦克品牌CEO刘艳钊文:懂车帝原创魏微〔懂车帝原创2022成都车展〕〔懂车帝原创行业〕2022年转眼间已走过大半,行业传统的金九银十即将到来,随着国家政策的强有力支……199元秒杀新低,AMAZFIT米动1代健康手环直降400元IT之家6月26日消息AMAZFIT米动1代健康手环日常售价599元,今日20:00京东直降至199元新低好价。心血管健康指数检测心率睡眠检测HRV疲劳度检测,性价比还是很不错……三星发布全球首款1TBeUFS2。1闪存为高端手机提供笔记本IT之家1月30日消息根据三星官方的消息,三星电子今天宣布已开始批量生产业界首款1TB嵌入式通用闪存(eUFS)2。1,官方称智能手机很快就能享受到与高级笔记本相同的存储容量。……没有光线追踪官方透露XPS152019款不会有RTX2060IT之家1月22日消息戴尔的XPS15具有强大的功能和便携性,其特色之一是使用45WH系列CPU和专用的GeForce显卡。Nvidia英伟达今年在CES2019上发布了新的G……AMD50周年大甩卖开始买2700X送华硕微星X470主板IT之家5月2日消息AMD现已在京东旗舰店上架了多款套装,其中R72700X50周年版本4TB希捷硬盘售价2099元,其中硬盘单独购买的价格为649元,相当于R72700X14……印度申办奥运会能成功吗?12年前那场运动会,简直是灾难印度申办奥运会能成功吗?12年前那场运动会,简直是灾难正吃饭呢,刚刚看到一个消息,差点给我全喷在餐桌上。干净又卫生的印度,竟然要申办奥运会了!据印度时报报道,印度将……华为WatchGT2国行价格公布1388元起IT之家9月26日消息今天下午,华为推出了华为WatchGT2智能手表,现在国行价格也正式公布了,42mm版本售价1388元起,46mm版本售价1488元起。全新的华为W……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网