游戏电视苹果数码历史美丽
投稿投诉
美丽时装
彩妆资讯
历史明星
乐活安卓
数码常识
驾车健康
苹果问答
网络发型
电视车载
室内电影
游戏科学
音乐整形

深度学习GPU选购指南哪款显卡配得上我的炼丹炉?

  编辑:JoeyDavid【新智元导读】最近,曾拿到斯坦福、UCL、CMU、NYU博士offer、目前在华盛顿大学读博的知名测评博主TimDettmers在自己的网站又上线了深度学习领域的GPU深度测评,到底谁才是性能和性价比之王?
  众所周知,在处理深度学习和神经网络任务时,最好使用GPU而不是CPU来处理,因为在神经网络方面,即使是一个比较低端的GPU,性能也会胜过CPU。
  深度学习是一个对计算有着大量需求的领域,从一定程度上来说,GPU的选择将从根本上决定深度学习的体验。
  但问题来了,如何选购合适的GPU也是件头疼烧脑的事。
  怎么避免踩雷,如何做出性价比高的选择?
  曾经拿到过斯坦福、UCL、CMU、NYU、UW博士offer、目前在华盛顿大学读博的知名评测博主TimDettmers就针对深度学习领域需要怎样的GPU,结合自身经验撰写了万字长文,最后给出了DL领域的推荐GPU。
  TimDettmers此人的研究方向是表征学习、硬件优化的深度学习,他自己创建的网站在深度学习和计算机硬件领域也是小有名气。
  TimDettmers此文推荐的GPU全部来自N厂,他显然也认为,搞机器学习,AMD目前还不配拥有姓名。
  原文链接小编也贴在下面啦。
  原文链接:https:timdettmers。com20230116whichgpufordeeplearningGPUDeepLearningPerformanceperDollar
  RTX40和30系的优缺点
  与英伟达图灵架构RTX20系列相比,新的英伟达安培架构RTX30系列具有更多优势,如稀疏网络训练和推理。其他功能,如新的数据类型,应更多地被看作是一种易用化功能,因为它们提供了与图灵架构相同的性能提升,但不需要任何额外的编程要求。
  AdaRTX40系列甚至有更多的进步,比如上面介绍的张量内存加速器(TMA)和8位浮点运算(FP8)。与RTX30相比,RTX40系列也有类似的电源和温度问题。RTX40的电源连接器电缆融化的问题可以通过正确连接电源电缆而轻松避免。
  稀疏的网络训练
  安培允许在密集的速度下进行细粒度结构的自动稀疏矩阵乘法。这是如何做到的?以一个权重矩阵为例,把它切成4个元素的碎片。现在想象这4个元素中的2个元素为零。图1显示了这种情况的样子。
  图1:Ampere架构GPU中的稀疏矩阵乘法功能所支持的结构
  当你将这个稀疏权重矩阵与一些密集输入相乘时,安培的稀疏矩阵张量核心功能会自动将稀疏矩阵压缩为密集表示,其大小为图2所示的一半。
  在压缩之后,密集压缩的矩阵瓦片被送入张量核心,张量核心计算的矩阵乘法是通常大小的两倍。这有效地产生了2倍的速度,因为在共享内存的矩阵乘法过程中,带宽要求减半。
  图2:在进行矩阵乘法之前,稀疏矩阵被压缩为密集表示。
  我在研究中致力于稀疏网络训练,我还写了一篇关于稀疏训练的博文。对我的工作的一个批评是:你减少了网络所需的FLOPS,但并没有产生速度的提升,因为GPU不能进行快速的稀疏矩阵乘法。
  随着TensorCores的稀疏矩阵乘法功能的增加,我的算法或其他稀疏训练算法,现在实际上在训练期间提供了高达2倍的速度。
  开发的稀疏训练算法有三个阶段:(1)确定每层的重要性。(2)删除最不重要的权重。(3)提升与每层的重要性成比例的新权重。
  虽然这一功能仍处于实验阶段,而且训练稀疏网络还不普遍,但在你的GPU上拥有这一功能意味着你已经为稀疏训练的未来做好了准备。
  低精度计算
  在我的工作中,我之前已经表明,新的数据类型可以提高低精度反向传播期间的稳定性。
  图4:低精度深度学习8位数据类型。深度学习训练得益于高度专业化的数据类型
  目前,如果你想用16位浮点数(FP16)进行稳定的反向传播,最大的问题是普通FP16数据类型只支持〔65,504,65,504〕范围内的数字。如果你的梯度滑过这个范围,你的梯度就会爆炸成NaN值。
  为了防止在FP16训练中出现这种情况,我们通常会进行损失缩放,即在反向传播之前将损失乘以一个小数字,以防止这种梯度爆炸。
  BrainFloat16格式(BF16)对指数使用了更多的比特,这样可能的数字范围与FP32相同,BF16的精度较低,也就是有效数字,但梯度精度对学习来说并不那么重要。
  所以BF16所做的是,你不再需要做任何损失缩放,也不需要担心梯度会迅速爆炸。因此,我们应该看到,通过使用BF16格式,训练的稳定性有所提高,因为精度略有损失。
  这对你意味着什么。使用BF16精度,训练可能比使用FP16精度更稳定,同时提供相同的速度提升。使用TF32精度,你可以得到接近FP32的稳定性,同时提供接近FP16的速度提升。
  好的是,要使用这些数据类型,你只需用TF32取代FP32,用BF16取代FP16不需要修改代码。
  不过总的来说,这些新的数据类型可以被看作是懒惰的数据类型,因为你可以通过一些额外的编程努力(适当的损失缩放、初始化、规范化、使用Apex)来获得旧数据类型的所有好处。
  因此,这些数据类型并没有提供速度,而是改善了训练中低精度的使用便利性。
  风扇设计和GPU温度
  虽然RTX30系列的新风扇设计在冷却GPU方面表现非常好,但非创始版GPU的不同风扇设计可能会出现更多问题。
  如果你的GPU发热超过80C,它就会自我节流,减慢其计算速度功率。解决这个问题的办法是使用PCIe扩展器,在GPU之间创造空间。
  用PCIe扩展器分散GPU对散热非常有效,华盛顿大学的其他博士生和我都使用这种设置,并取得了巨大的成功。它看起来并不漂亮,但它能使你的GPU保持凉爽!
  下面这套系统已经运行了4年,完全没有问题。如果你没有足够的空间在PCIe插槽中安装所有的GPU,也可以这么用。
  图5:带PCIE扩展口的4显卡系统,看起来一团乱,但散热效率很高。
  优雅地解决功耗限制问题
  在你的GPU上设置一个功率限制是可能的。因此,你将能够以编程方式将RTX3090的功率限制设置为300W,而不是其标准的350W。在4个GPU系统中,这相当于节省了200W,这可能刚好足够用1600WPSU建立一个4xRTX3090系统的可行性。
  这还有助于保持GPU的冷却。因此,设置功率限制可以同时解决4xRTX3080或4xRTX3090设置的两个主要问题,冷却和电源。对于4倍的设置,你仍然需要高效散热风扇的GPU,但这解决了电源的问题。
  图6:降低功率限制有轻微的冷却效果。将RTX2080Ti的功率限制降低5060W,温度略有下降,风扇运行更加安静
  你可能会问,这不会降低GPU的速度吗?是的,确实会降,但问题是降了多少。
  我对图5所示的4xRTX2080Ti系统在不同功率限制下进行了基准测试。我对推理过程中BERTLarge的500个小批次的时间进行了基准测试(不包括softmax层)。选择BERTLarge推理,对GPU的压力最大。
  图7:在RTX2080Ti上,在给定的功率限制下测得的速度下降
  我们可以看到,设置功率限制并不严重影响性能。将功率限制在50W,性能仅下降7。
  RTX4090接头起火问题
  有一种误解,认为RTX4090电源线起火是因为被弯折过度了。实际上只有0。1的用户是这个原因,主要问题是电缆没有正确插入。
  因此,如果你遵循以下安装说明,使用RTX4090是完全安全的。
  1。如果你使用旧的电缆或旧的GPU,确保触点没有碎片灰尘。
  2。使用电源连接器,并将其插入插座,直到你听到咔嚓一声这是最重要的部分。
  3。通过从左到右扭动电源线来测试是否合适。电缆不应该移动。
  4。目视检查与插座的接触情况,电缆和插座之间无间隙。
  H100和RTX40中的8位浮点支持
  对8位浮点(FP8)的支持是RTX40系列和H100GPU的一个巨大优势。
  有了8位输入,它允许你以两倍的速度加载矩阵乘法的数据,你可以在缓存中存储两倍的矩阵元素,而在Ada和Hopper架构中,缓存是非常大的,现在有了FP8张量核心,你可以为RTX4090获得0。66PFLOPS的计算量。
  这比2007年世界上最快的超级计算机的全部算力还要高。4倍于FP8计算的RTX4090,可与2010年世界上最快的超级计算机相媲美。
  可以看到,最好的8位基线未能提供良好的零点性能。我开发的方法LLM。int8()可以进行Int8矩阵乘法,结果与16位基线相同。
  但是Int8已经被RTX30A100Ampere这一代GPU所支持,为什么FP8在RTX40中又是一个大升级呢?FP8数据类型比Int8数据类型要稳定得多,而且很容易在层规范或非线性函数中使用,这在整型数据类型中是很难做到的。
  这将使它在训练和推理中的使用变得非常简单明了。我认为这将使FP8的训练和推理在几个月后变得相对普遍。
  下面你可以看到这篇论文中关于FloatvsInteger数据类型的一个相关主要结果。我们可以看到,逐个比特,FP4数据类型比Int4数据类型保留了更多的信息,从而提高了4个任务的平均LLM零点准确性。
  GPU深度学习性能排行
  先上一张图来看GPU的原始性能排行,看看谁最能打。
  我们可以看到H100GPU的8位性能与针对16位性能优化的旧卡存在巨大差距。
  上图显示的是GPU的原始相对性能,比如对于8位推理,RTX4090的性能大约是H100SMX的0。33倍。
  换句话说,与RTX4090相比,H100SMX的8位推理速度快三倍。
  对于此数据,他没有为旧GPU建模8位计算。
  因为8位推理和训练在AdaHopperGPU上更有效,而张量内存加速器(TMA)节省了大量寄存器,这些寄存器在8位矩阵乘法中非常精确。
  AdaHopper也有FP8支持,这使得特别是8位训练更加有效,在HopperAda上,8位训练性能很可能是16位训练性能的34倍。
  对于旧GPU,旧GPU的Int8推理性能则接近16位推理性能。
  每一美元能买到多少算力
  那么问题来了,GPU性能强可是我买不起啊。。。。。。
  针对预算不充足的小伙伴,接下来的图表是他根据各个GPU的价格和性能统计的每美元性能排名(PerformanceperDollar),侧面反映了GPU性价比。
  选择一个完成深度学习任务并且符合预算的GPU,可分为以下几个步骤:
  首先确定你需要多大的显存(至少12GB用于图像生成,至少24GB用于处理Transformer);针对选8位还是16位(8bitor16bit),建议是能上16位就上,8位在处理复杂编码任务时还是会有困难;根据上图中的指标,找到具有最高相对性能成本的GPU。
  我们可以看到,RTX4070Ti对于8位和16位推理的成本效益最高,而RTX3080对于16位训练的成本效益最高。
  虽然这些GPU最具成本效益,但他们的内存也是个短板,10GB和12GB的内存可能无法满足所有需求。
  但对于刚入坑深度学习的新手来说可能是理想GPU。
  其中一些GPU非常适合Kaggle竞赛,在Kaggle比赛中取得好成绩,工作方法比模型大小更重要,因此许多较小的GPU非常适合。
  Kaggle号称是全球最大的数据科学家汇聚的平台,高手云集,同时对萌新也很友好。
  如果用作学术研究和服务器运营的最佳GPU似乎是A6000AdaGPU。
  同时H100SXM的性价比也很高,内存大性能强。
  个人经验来说,如果我要为公司学术实验室构建一个小型集群,我推荐6680的A6000GPU和2033的H100SXMGPU。
  综合推荐
  说了这么多,终于到了GPU安利环节。
  TimDettmers专门制作了一个GPU选购流程图,预算充足就可以上更高配置,预算不足请参考性价比之选。
  这里首先强调一点:无论你选哪款GPU,首先要确保它的内存能满足你的需求。为此,你要问自己几个问题:
  我要拿GPU做什么?是拿来参加Kaggle比赛、学深度学习、做CVNLP研究还是玩小项目?
  预算充足的情况下,可以查看上面的基准测试并选择适合自己的最佳GPU。
  还可以通过在vast。ai或LambdaCloud中运行您的问题一段时间来估算所需的GPU内存,以便了解它是否能满足你的需求。
  如果只是偶尔需要一个GPU(每隔几天持续几个小时)并且不需要下载和处理大型数据集,那么vast。ai或LambdaCloud也能很好地工作。
  但是,如果一个月每天都使用GPU且使用频率很高(每天12小时),云GPU通常不是一个好的选择。
  参考资料:
  https:timdettmers。com20230116whichgpufordeeplearningmore6
  https:timdettmers。com

A股为什么没有预期的大涨?下午的大盘会怎么走?美股的大涨没能刺激到今天上午的A股,倒是把许多大V从晚上下午到今天早上,刺激得一直处在癫狂状态,而且都还是信誓旦旦鼓吹涨,大涨。我昨天的文章提出了A股走势的三大隐忧和对今天的影……一文弄懂GPIO不同模式之间的区别与实现原理GPIO全称GeneralPurposeInputOutput,即通用输入输出。其实GPIO的本质就是芯片的一个引脚,通常在ARM中所有的IO都是通用的。不过,由于每个开发板上……叶酸多少钱一瓶?叶酸价廉物美叶酸现在在药店医院都是比较好买到的,那么叶酸的价格是多少呢,下面5号网的小编为你们介绍叶酸多少钱一瓶?叶酸价廉物美。叶酸多少钱一瓶通用名称:叶酸片产品编号:B122……叶酸要吃到生吗?叶酸不可过量叶酸在孕期中是不可少的,那么一直要吃到什么时候呢,下面5号网的小编为你们介绍叶酸要吃到生吗?叶酸不可过量。叶酸要吃到生吗一般在怀孕前的3个月和怀孕的头3个月补充叶酸,叶酸……叶酸会影响排卵吗?关于叶酸你要知道的事情叶酸是孕妈妈们不可或缺的药品,很多人担心备孕的时候叶酸会影响排卵,下面5号网的小编为你们介绍叶酸会影响排卵吗?关于叶酸你要知道的事情。叶酸会影响排卵吗叶酸是不会影响排卵的……唐嫣出席活动,大长腿非常抢镜,这身材,羡慕了多少人?近日,有网友晒出唐嫣参加活动的视频。视频中,唐嫣留着长发,身穿浅蓝色连衣裙和紧身裙,搭配白色高跟鞋,比例非常好,尤其是一双大长腿。网友们羡慕唐嫣的身材,也羡慕她老公罗晋的好运气……湿毒清胶囊会引起便秘吗湿毒清胶囊能排出体内湿毒吗由于湿毒清胶囊治疗皮肤瘙痒的效果很好,得到了很多人的喜爱,但是又怕吃了之后会有不良反应。那么,湿毒清胶囊会引起便秘吗?可以排出体内的湿毒吗?湿毒清胶囊会引起便秘吗湿毒清胶……资讯华为Mate50系列5G通信壳降价促销了vivoX90系【电动狗】数源科技SoyeAlink打造的华为Mate50系列5G通信壳上市发售,其中Mate50、Mate50E、Mate50Pro三款通信壳售价799元,RS保时捷版……过期了的蜂胶能吃吗?过期了的蜂胶吃了有什么危害?蜂胶是一种很补的食品,有些人会一次性的买了很多,以致于蜂胶过期了。那么,过期了的蜂胶可以吃吗?蜂胶过期了还能吃吗蜂胶过期了不能吃。蜂胶是蜜蜂采集各种植物的树胶……中国科研人员合成新核素锕204我科研人员合成新核素锕204科技日报讯(记者颉满斌)近日,中国科学院近代物理研究所核物理中心超重核与核结构室研究员甘再国课题组,与合作者合成了新核素锕204。这是锕元素质……生育险医疗险合并有什么影响?生育险和医疗险合并好吗?近期,人力资源社会保障部与财政部发出《关于阶段性降低社会保险费率的通知》称生育保险和基本医疗保险合并实施工作。生育险医疗险合并有什么影响?生育险和医疗险合并好吗?生育险医……原神2。4版本已更新大家体验如何?首先啊,这两天看到一则关于日本降低成年年龄的新闻,然后又紧接着赶上咱们的《原神》更新2。4版本被强制调整人物模型,我想说的是这真的太符合咱们的文化输出特性了,是真真切切的中国式……
玉兔二号在月球上遇见玉兔来源:解放军报前不久,置身于月球背面的玉兔二号巡视器,拍下了北侧天际线处的神秘小屋,一时间引起全世界的广泛关注,网友们纷纷风趣地留言:这是广寒宫,或是作为玉兔二号驾……为什么有的孩子会有爱打人咬人脾气暴躁的现象?孩子出现打人咬人现象,父母应该正确地对待,不能太过暴躁,每一个孩子的性格都是完全不同的,有一些小宝宝他们在成长的过程当中都会有很多不正常的现象,比如说年龄不大的时候和小朋友们在……冬奥会邂逅春节文体旅合奏冰与火之歌新华社上海2月7日电题:冬奥会邂逅春节文体旅合奏冰与火之歌新华社记者陈爱平、朱翃北京冬奥会邂逅春节假期,冰雪运动、冰雪旅游消费升温。多家旅游平台6日发布假日盘点称,……CBA三消息山东外援终于到位,胡金秋当选周最佳,王泉泽较低迷大家好呀,我是北柠,各位小伙伴们要养成先赞后看的习惯哦!山东队这个赛季常规赛第一阶段遇到了较大的困难,球队在没有外援可以使用的情况下想要赢球就只能过多依赖主力球员,陶汉林……长寿是一种福气吗?然而现实生活中未必!我家三爷99仍在煎熬每个人都想长命百岁,福寿绵长。然而现实却是因为各种天灾人祸,疾病,让许多人带着许多遗憾和不甘早早的离开了这个世界!因此祈求长寿甚至长生是古往今来人们一直追求的梦想!……今年必将爆款的10大潮品(1)进入2022年,有人选出了今年在美国市场上可能爆款的10个高科技潮流潮品,虽然我们不一定能很快买到,但我们可以开拓眼界,了解他们的创意和设计,与世界接轨,从而使我们也获益匪浅。……中国科学院院士陈十一我国工业软件最薄弱环节在研发设计12月5日,湾区蓝海智汇番禺2021年广州大学城(小谷围)国际产业人才大会暨科技创新大会举行。中国科学院院士、发展中国家科学院院士、南方科技大学和北京大学教授陈十一表示,要解决……CBA最新积分榜浙江爆冷被天津逆转,广东27分大胜北控稳居第1月12日,CBA常规赛第25轮结束了最后2场比赛,浙江队8896被天津队逆转,积46分仍位居榜首位置,领先第2名的辽宁队1分,天津队止住4连败的颓势积30分排在倒数第三位。广……女排ampampquot青铜一代ampampquot全退役惠11月15日,前中国女排主力副攻杨珺菁宣布退役,随着杨珺菁告别赛场,中国女排的青铜时代也正式落幕。媒体和球迷将夺得2004年雅典和2016年里约金牌的女排队员称之为黄金一代,而……世界儿童日呼吁预防儿童呼吸道疾病,TCL卧室新风空调守护健康11月20日世界儿童日临近,随着疫情和空气污染等问题日益严峻,关注儿童呼吸健康,为儿童提供一个洁净的呼吸环境,成为目前家长们的关心焦点。而获得中国家用电器研究院母婴嘉电证书的T……Meta推出头号玩家中触觉手套原型,伸向元宇宙的触手出现了从收购OculusVR至今,Facebook已经走过7年。这一路走来,公司将VR游戏世界扩容为虚拟世界,用元宇宙的名号叫出响来,并将Meta扶持为公司大icon,力证7年之路,……性价比超高的三款神机第一款,红米note10Pro,这款手机可以算得上是性价比最高的手机了,在某兔兔上,它的跑分高达60多万,它本身搭载的是一款天玑1100的处理器,不管是打游戏还是正常使用都完全……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网