纠纷奇闻社交美文家庭
投稿投诉
家庭城市
爱好生活
创业男女
能力餐饮
美文职业
心理周易
母婴奇趣
两性技能
社交传统
新闻范文
工作个人
思考社会
作文职场
家居中考
兴趣安全
解密魅力
奇闻笑话
写作笔记
阅读企业
饮食时事
纠纷案例
初中历史
说说童话
乐趣治疗

深度学习装机指南:从GPU到显示器,全套硬件。。。

1月17日 九阙忬投稿
  硬件设备,是任何一名深度学习er不可或缺的核心装备。各位初级调参魔法师们,你们有没有感到缺少那一根命中注定的魔杖?
  可是,各种CPU、GPU、内存条、外设,那么多品牌种类型号参数,到底该怎么选?
  为了帮你凑齐一套能打的装备,一位名叫TimDettmers的歪果小哥哥将自己一年组装七部工作站的装机经验凝练成一篇实用攻略分享了出来,帮你确定一整套硬件选型,并且,还根据今年的新硬件做了推荐。
  好啦,下面我们从GPU开始,依次看看各重要部件应该如何选择,全文超过5000字,预计阅读时间11分钟。当然,文末还为大家准备了“精华清单”
  GPU
  显卡(GPU)是深度学习的重要部件,甚至比CPU更重要。做深度学习不用GPU只用CPU显然是不明智的,所以作者Tim先介绍了GPU的选择。
  选购GPU有三大注意事项:性价比、显存、散热。
  使用16bit的RTX2070或者RTX2080Ti性价比更高。另外在eBay上购买二手的32bitGTX1070、GTX1080或者1080Ti也是不错的选择。
  除了GPU核心,显存(GPURAM)也是不可忽视的部分。RTX比GTX系列显卡在显存方面更具优势,在显存相同的情况下,RTX能够训练两倍大的模型。
  通常对显存的要求如下:
  如果想在研究中追求最高成绩:显存11GB;
  在研究中搜寻有趣新架构:显存8GB;
  其他研究:8GB;
  Kaggle竞赛:48GB;
  创业公司:8GB(取决于具体应用的模型大小)
  公司:打造原型8GB,训练不小于11GB
  需要注意的是,如果你购买了多个RTX显卡,一定不要忽视散热。两个显卡堆叠在相邻PCIe插槽,很容易令GPU过热降频,可能导致性能下降30。这个问题后面还会具体讨论。
  内存
  选择内存(RAM)有两个参数:时钟频率、容量。这两个参数哪个更重要?
  时钟频率
  炒作内存时钟频率是厂家常用的营销手段,他们宣传内存越快越好,实际上真的是这样吗?
  知名数码博主LinusTechTips解答了这个问题:厂商会引诱你购买“更快”的RAM,实际上却几乎没有性能提升。
  内存频率和数据转移到显存的速度无关,提高频率最多只能有3的性能提升,你还是把钱花在其他地方吧!
  内存容量
  内存大小不会影响深度学习性能,但是它可能会影响你执行GPU代码的效率。内存容量大一点,CPU就可以不通过磁盘,直接和GPU交换数据。
  所以用户应该配备与GPU显存匹配的内存容量。如果有一个24GB显存的TitanRTX,应该至少有24GB的内存。但是,如果有更多的GPU,则不一定需要更多内存。
  Tim认为:内存关系到你能不能集中资源,解决更困难的编程问题。如果有更多的内存,你就可以将注意力集中在更紧迫的问题上,而不用花大量时间解决内存瓶颈。
  他还在参加Kaggle比赛的过程中发现,额外的内存对特征工程非常有用。
  CPU
  过分关注CPU的性能和PCIe通道数量,是常见的认知误区。用户更需要关注的是CPU和主板组合支持同时运行的GPU数量。
  CPU和PCIe
  人们对PCIe通道的执念近乎疯狂!而实际上,它对深度学习性能几乎没有影响。
  如果只有一个GPU,PCIe通道的作用只是快速地将数据从内存传输到显存。
  ImageNet里的32张图像(32x225x225x3)在16通道上传输需要1。1毫秒,在8通道上需要2。3毫秒,在4通道上需要4。5毫秒。
  这些只是是理论数字,实际上PCIe的速度只有理论的一半。PCIe通道通常具有纳秒级别的延迟,因此可以忽略延迟。
  Tim测试了用32张ImageNet图像的minibatch,训练ResNet152模型所需要的传输时间:
  前向和后向传输:216毫秒
  16个PCIe通道CPUGPU传输:大约2毫秒(理论上为1。1毫秒)
  8个PCIe通道CPUGPU传输:大约5毫秒(2。3毫秒)
  4个PCIe通道CPUGPU传输:大约9毫秒(4。5毫秒)
  因此,在总用时上,从4到16个PCIe通道,性能提升约3。2。但是,如果PyTorch的数据加载器有固定内存,则性能提升为0。因此,如果使用单个GPU,请不要在PCIe通道上浪费金钱。
  在选择CPUPCIe通道和主板PCIe通道时,要保证你选择的组合能支持你想要的GPU数量。如果买了支持2个GPU的主板,而且希望用上2个GPU,就要买支持2个GPU的CPU,但不一定要查看PCIe通道数量。
  PCIe通道和多GPU并行计算
  如果在多个GPU上训练网络,PCIe通道是否重要呢?Tim曾在ICLR2016上发表了一篇论文指出(https:arxiv。orgabs1511。04561):如果你有96个GPU,那么PCIe通道非常重要。
  但是,如果GPU数量少于4个,则根本不必关心PCIe通道。几乎很少有人同时运行超过4个GPU,所以不要在PCIe通道上花冤枉钱。这不重要!
  CPU核心数
  为了选择CPU,首先需要了解CPU与深度学习的关系。
  CPU为深度学习中起到什么作用?当在GPU上运行深度网络时,CPU几乎不会进行任何计算。CPU的主要作用有:(1)启动GPU函数调用(2)执行CPU函数。
  到目前为止,CPU最有用的应用是数据预处理。有两种不同的通用数据处理策略,具有不同的CPU需求。
  第一种策略是在训练时进行预处理,第二种是在训练之前进行预处理。
  对于第一种策略,高性能的多核CPU能显著提高效率。建议每个GPU至少有4个线程,即为每个GPU分配两个CPU核心。Tim预计,每为GPU增加一个核心,应该获得大约05的额外性能提升。
  对于第二种策略,不需要非常好的CPU。建议每个GPU至少有2个线程,即为每个GPU分配一个CPU核心。用这种策略,更多内核也不会让性能显著提升。
  CPU时钟频率
  4GHz的CPU性能是否比3。5GHz的强?对于相同架构处理器的比较,通常是正确的。但在不同架构处理器之间,不能简单比较频率。CPU时钟频率并不总是衡量性能的最佳方法。
  在深度学习的情况下,CPU参与很少的计算:比如增加一些变量,评估一些布尔表达式,在GPU或程序内进行一些函数调用。所有这些都取决于CPU核心时钟率。
  虽然这种推理似乎很明智,但是在运行深度学习程序时,CPU仍有100的使用率,那么这里的问题是什么?Tim做了一些CPU的降频实验来找出答案。
  CPU降频对性能的影响:
  请注意,这些实验是在一些“上古”CPU(2012年推出的第三代酷睿处理器)上进行的。但是对于近年推出的CPU应该仍然适用。
  硬盘固态硬盘(SSD)
  通常,硬盘不会限制深度学习任务的运行,但如果小看了硬盘的作用,可能会让你追、悔、莫、及。
  想象一下,如果你从硬盘中读取的数据的速度只有100MBs,那么加载一个32张ImageNet图片构成的minibatch,将耗时185毫秒。
  相反,如果在使用数据前异步获取数据,将在185毫秒内加载这些minibatch的数据,而ImageNet上大多数神经网络的计算时间约为200毫秒。所以,在计算状态时加载下一个minibatch,性能将不会有任何损失。
  Tim小哥推荐的是固态硬盘(SSD),他认为SSD在手,舒适度和效率皆有。和普通硬盘相比,SSD程序启动和响应速度更快,大文件的预处理更是要快得多。
  顶配的体验就是NVMeSSD了,比一般SSD更流畅。
  电源装置(PSU)
  一个程序员对电源最基础的期望,首先得是能满足各种GPU所需能量吧。随着GPU朝着更低能耗发展,一个质量优秀的PSU能陪你走很久。
  应该怎么选?Tim小哥有一套计算方法:将电脑CPU和GPU的功率相加,再额外加上10的功率算作其他组件的耗能,就得到了功率的峰值。
  举个例子,如果你有4个GPU,每个功率为250瓦,还有一个功率为150瓦的CPU,则需电源提供42501501001250瓦的电量。
  Tim通常会在此基础上再额外添加10确保万无一失,那就总共需要1375瓦。所以这种情况下,电源性能需达1400瓦。
  这样手把手教学,应该不难理解了。还有一点得注意,即使一个PSU达到了所需瓦数,也可能没有足够的PCIe8pin或6pin的接头,所以买的时候还要确保电源上有足够多的接头接GPU。
  另外,买一个能效等级高的电源,特别是当你需要连很多GPU并且可能运行很长时间的时候,原因你懂的。
  再举个例子吧,如果以满功率(10001500瓦)运行4GPU系统、花两周时间训练一个卷积神经网络,需要耗用300500度电。按德国每度0。2欧元计算,电费最终耗费约折合人民币455766元。
  如果电源效率降到80,电费将增加140203元人民币。
  需要的GPU数量越多,拉开的差距越明显。PSU的挑选是不是比之前想象的复杂一点?
  CPU和GPU的冷却
  对于产热大户CPU和GPU来说,散热性不好会降低它们的性能。
  对CPU来说,则标配的散热器,或者AIO水冷散热器都是不错的选择。
  但GPU该用哪种散热方案,却是个复杂的事。
  风冷散热
  如果只有单个GPU,风冷是安全可靠的,但若你GPU多达34个,靠空气冷却可能就不能满足需求了。
  目前的GPU会在运行算法时将速度提升到最大,所以功耗也达到最大值,一旦温度超过80,很有可能降低速度,无法实现最佳性能。
  对于深度学习任务来说这种现象更常见了,一般的散热风扇远达不到所需效果,运行几秒钟就达到温度阈值了。如果是用多个GPU,性能可能会降低1025。
  怎么办?目前,英伟达GPU很多是针对游戏设计的,所以对于Windows系统进行了专门的优化,也可以轻松设置风扇方案。
  但在Linux系统中这招就不能用了,麻烦的是,很多深度学习库也都是针对Linux编写的。
  这是一个问题,但也不是无解。
  在Linux系统中,你可以进行Xorg服务器的配置,选择“coolbits”选项,这对于单个GPU还是很奏效。
  若你有多个GPU,就必须模拟一个监视器,Tim小哥说自己尝试了很长时间,但还是没有什么改进。
  如果你想在空气冷却的环境中运行34个小时,则最应该注意风扇的设计。
  目前市场上的散热风扇原理大致有两种:鼓风式的风扇将热空气从机箱背面推出,让凉空气进来;非鼓风式的风扇是在GPU中吸入空气达到冷却效果。
  所以,如果你有多个GPU彼此相邻,那么周围就没有冷空气可用了,所以这种情况,一定不要用非鼓风式的散热风扇了。
  那用什么?接着往下看
  水冷散热
  水冷散热虽然比风冷法成本略高,但很适用于多个GPU相邻的情况,它能hold住四个最强劲的GPU保持周身凉爽,是风冷无法企及的效果。
  另外,水冷散热可以更安静地进行,如果你在公共区域运行多个GPU,水冷的优势更为凸显了。
  至于大家最关心的成本问题,水冷单个GPU大概需要100美元(约690元人民币)再加一些额外的前期成本(大约350元人民币)。
  除了财力准备,还需要你投入一些精力,比如额外花时间组装计算机等。这类事情网上教程已经很多了,只需要几个小时搞定,后期的维护也不复杂。
  结论
  对于单个GPU,风冷便宜也够用;多个GPU情况下,鼓风式的空气冷却比较便宜,可能会带来1015的性能损失。如果想追求散热极致,水冷散热安静且效果最好。
  所以,风冷or水冷都合理,看你自己的实际情况和预算了。但小哥最后建议,通常情况下,还是考虑下低成本的风冷吧。
  主板
  主板应该有足够的PCIe插槽来支持所需的GPU数量。但需要注意的是,大多数显卡宽度需要占用两个PCIe插槽。
  【PCIe插槽】
  如果打算使用多个GPU,就要购买PCIe插槽之间有足够空间的主板,确保显卡之间不会相互遮挡。
  机箱
  选机箱的时候,必须保证机箱能装下主板顶部的全长GPU,虽然大部分机箱是没问题的,但是万一你买小了,那就得看商家给不给你七天无理由了
  所以,买之前最好确认一下机箱的尺寸规格,也可以搜一下机箱装着GPU的图,有别人的成品图的话就能买得放心一些。
  另外,如果你想用定制水冷的话,保证你的机箱能装得下散热器,尤其是给GPU用定制水冷的时候,每个GPU的散热器都需要占空间。
  显示器
  怎么配显示器还用教?
  必须得教。
  Tim放出了买家秀:
  是的,作为一个成熟的技术人员,用多台显示器是基本配置了。
  想象一下把买家秀上这三台显示器上的内容堆到同一块屏幕里,来回切换窗口,这得多累人。
  太长不看版
  GPU:
  RTX2070、RTX2080Ti、GTX1070、GTX1080、GTX1080,这些都不错。
  CPU:
  1。给每个GPU配12个CPU核心,具体要看你预处理数据的方式;
  2。频率要大于2GHz,CPU要能支持你的GPU数量;
  3。PCIe通道不重要。
  内存:
  1。时钟频率无关紧要,内存买最便宜的就行了;
  2。内存显存最大的那块GPU的RAM;
  3。内存不用太大,用多少买多少;
  4。如果你经常用大型数据集,买更多内存会很有用。
  硬盘SSD:
  1。给你的数据集准备足够大的硬盘(3TB);
  2。有SSD会用的舒坦一些,还能预处理小型数据集。
  PSU:
  1。需要的功率最大值(CPU功率GPU功率)110;
  2。买一个高能效等级的电源,特别是当你需要连很多GPU并且可能运行很长时间的时,这样可以节省很多电费;
  3。买之前请确保电源上有足够多的接头(PCIe8pin或6pin)接GPU。
  散热:
  CPU:
  标准配置的CPU散热器或者AIO水冷散热器;
  GPU:
  1。单个GPU,风冷散热即可;
  2。若用多个GPU,选择鼓风式风冷散热或水冷散热。
  主板:
  准备尽可能多的链接GPU的PCle插槽,一个GPU需要两个插槽,每个系统最多4个GPU,不过你也要考虑GPU的厚度。
  显示器:
  为了提高效率,多买几块屏幕吧。
  发了三篇顶会的博士在读小哥哥
  这篇指南的作者TimDettmers去年硕士毕业,目前在华盛顿大学读博,主要研究知识表达、问答系统和常识推理,曾在UCL机器学习组和微软实习。
  按照去年毕业开始读博的话,Tim的博士才读了一年半,现在就已经是三篇顶会论文的作者了,其中还有一篇AAAI是一作,一篇ICLR是唯一作者。
  另外,他还是一个刷Kaggle爱好者,曾经在2013年排到全球第63名(前0。22)。
  OneMoreThing
  其实说了这么多,你也不想装机对不对?
  Tim已然料到,所以,在装机指南之外,他还主动奉献了一些装机鼓励:
  虽然买硬件很贵,一不小心搞错会肉疼,但是不要怕装电脑这件事。
  其一,装机本身很简单,主板手册里都把如何装机写的明明白白,比装乐高难不了多少,还附带了大量的指南和分步操作视频,就算你是0经验小白也能学得会。
  其二,装机这件事,只要有第一次,后面就不难了,因为所有的计算机都是那几个硬件构成的。所以,只要装一次,就可以get一门终身技能,投资回报率非常高。
  所以,加油准备一台你自己的设备吧
投诉 评论 转载

3000元可以组装到什么配置的电脑呢?这套电。。。随着电子科技的不断进步发展,如今的电脑硬件价格已经平民化了,对于经常使用电脑的朋友来说应该算是一个福音,说到电脑硬件可能不是专业的人不是很懂,对于组装电脑来说更觉得非常陌生,在……还在用Windows7?看了这7点,保证想立即升。。。对于微软来说,Windows10的一个主要目标是弥补Windows8的一系列错误,因此,Windows8用户无疑需要升级,但Windows10的免费升级策略不仅限于Window……清华同方K41H拆机我们直入主题,拿掉电池之后,整个D面的螺丝位便一览无余螺丝不多,除去小盖板上的三颗以及电池仓内固定屏轴的4颗(左右各两颗)之外,整个D面只有5颗螺丝在支撑……电脑入门(十三)、任务栏属性设置打开任务栏属性如下图所示:任务栏上右键属性弹出右图对话框。左右一、如上图所示任务栏有7项设置1、锁定任务栏如下图箭头所指锁定前后区别,主要作用防止把任务栏拖动……一学就会的笔记本内存条加装方法,简单、快。。。内存条是计算机里重要的硬件之一,所有的程序、系统都需要有内存才能运行,随着应用程序的功能越来越强大,用户的需求也越来越高,对内存的要求也越高。除了换新电脑,加装内存条是最经济的……神奇!“光猫”竟然自带WIFI功能,不用路由。。。家里装宽带,安装师傅带来了这个东西,上面还有WIFI功能,可以直接作为路由器使用无线网,原来这不是简单的“光猫”,这是一个天翼网关。天翼网关是“光猫智能路由器”的集合体,是智慧……电脑任务栏消失了怎么办?电脑已经成为我们工作生活中离不开的工具,在使用电脑时会经常出现各种各样的电脑故障问题,今天我们就来说说任务栏,电脑最底下的任务栏,大家有时打开电脑后会不会发现,底下任务栏消失了……windows系统重装时怎么让c盘的文件全部删除。。。题主您好1。您这个问题是矛盾的,如果删除了全部C盘文件就等于系统不存在了2。如果只保留系统软件那么C盘是不可能全部删除的我想您的大概意思应该是只有纯净的系统,……深度学习装机指南:从GPU到显示器,全套硬件。。。硬件设备,是任何一名深度学习er不可或缺的核心装备。各位初级调参魔法师们,你们有没有感到缺少那一根命中注定的魔杖?可是,各种CPU、GPU、内存条、外设,那么多品牌种类型……Windows高效操作,这些快捷键您必须掌握(上)写在前面的话叫前言我曾经问过许多人为什么不用快捷键,他们表示会鼠标拖拖点点的就好了,干嘛非得费那个事去记快捷键,而且快捷键太多根本记不住。所以在此我要声明一点,我不……光猫、交换机、路由器三者之间的连接顺序是。。。“网络极客”,全新视角、全新思路,伴你遨游神奇的网络世界。光纤入户的快速发展,用户端对网络需求的不断提升:一方面导致宽带速度逐渐提升;一方面导致用户端组网设备……一键重装双系统图文教程自从win10推出来后,大家都喜欢用win10系统下载安装的电脑系统,但是大家又不想要下载原来的操作系统,这时就要使用一键重装双系统的方法了,但是一键重装双系统的方法步骤怎么样……
Excel通过身份证号码计算年龄六张表格管一天,班级常规精细化管理你也可。。。PPT怎么制作翻书效果?PPT制作翻书效果教程三款堪称神器的软件,让你的电脑技术高人一。。。不知道这8个实用技巧你都不敢大声说真的会。。。EXCEL计算考勤小时数公式技巧我已鉴别,这篇Word排版知识绝对不会让你失。。。“拒绝加班”出纳会计需要的Excel表格模板。。。这些不起眼的excel技巧,却让你半小时的工作。。。word图表美化技巧:图片填充制作不一样的条。。。excel函数应用:做一张函数控制的动态图excel筛选怎么用excel表格基础教程示例
据传PS5新型号测试中带可拆卸光驱明年推出二婚男人不能嫁的原因云时代,好用的数据迁移方案推荐长恨春归无觅处,不知转入此中来。交强险理赔应该怎么办理?春天全班皆蜂700字作文苹果发布会从来不谈参数,你认为原因有哪些呢?周生如故番外,周生辰爱得深沉浓烈,他才是真正腹黑隐忍的王伦纳德真的会超越詹姆斯吗?内在的改变是制胜的法宝减塑、减重、减标签。。。。。。食品包装如何“减”出非凡气质?

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找美丽时装彩妆资讯历史明星乐活安卓数码常识驾车健康苹果问答网络发型电视车载室内电影游戏科学音乐整形