机器之心报道 编辑:泽南、蛋酱 AI的iPhone时刻,要有一块好的芯片。 曾何几时,人工智能因为算力不足进入了长达数十年的瓶颈,GPU点燃了深度学习。在ChatGPT时代,AI因为大模型再次面临算力不足的问题,这一次英伟达还有办法吗? 3月22日,GTC大会正式召开,在刚刚进行的Keynote上,英伟达CEO黄仁勋搬出了为ChatGPT准备的芯片。 加速计算并非易事,2012年,计算机视觉模型AlexNet动用了GeForceGTX580,每秒可处理262PetaFLOPS。该模型引发了AI技术的爆炸,黄仁勋说道。十年之后,Transformer出现了,GPT3动用了323ZettaFLOPS的算力,是AlexNet的100万倍,创造了ChatGPT这个震惊全世界的AI。崭新的计算平台出现了,AI的iPhone时代已经来临。 AI的繁荣推动英伟达股价在今年上涨了77,目前,英伟达的市值为6400亿美元,已是英特尔的近五倍。不过今天的发布告诉我们,英伟达的脚步还没有停。 为AIGC设计专用算力 生成式AI(AIGC)的发展正在改变科技公司对于算力的需求,英伟达一次展示了四种针对AI任务的推理平台,它们都使用了统一的架构。 其中,NVIDIAL4提供比CPU高120倍的AI驱动视频性能,以及99的能源效率,可以用于视频流、编码和解码以及生成AI视频等工作;算力更强的NVIDIAL40则专门用于2D3D图像生成。 针对算力需求巨大的ChatGPT,英伟达发布了NVIDIAH100NVL,这是一种具有94GB内存和加速TransformerEngine的大语言模型(LLM)专用解决方案,配备了双GPUNVLINK的PCIEH100GPU。 当前唯一可以实际处理ChatGPT的GPU是英伟达HGXA100。与前者相比,现在一台搭载四对H100和双NVLINK的标准服务器速度能快10倍,可以将大语言模型的处理成本降低一个数量级,黄仁勋说道。 最后还有NVIDIAGraceHopperforRecommendationModels,除了为推荐任务优化之外,它还可以为图形神经网络和矢量数据库提供动力。 让芯片突破物理极限 当前,半导体的生产工艺已经逼近物理学所能达到的极限。2nm制程之后,突破点又是什么?英伟达决定从芯片制造的最原始阶段光刻入手。 从根本上说,这是一个物理极限下的成像问题。在先进制程下,芯片上的许多特征会小于打印过程中使用的光的波长,掩模的设计必须不断进行修改,这一步骤称为光学邻近校正。计算光刻模拟了光通过原件与光刻胶相互作用时的行为,这些行为是根据麦克斯韦方程描述的,这是芯片设计制造领域中需要算力最多的任务。 黄仁勋在GTC上宣布了一项名为CuLitho的新技术,用以加快半导体的设计和制造。该软件使用英伟达芯片来加速基于软件的芯片设计,并加速用于在芯片上打印该设计的光刻掩模的物理制造之间的步骤。 CuLitho在GPU上运行,其性能比目前的光刻技术提高了40倍,可以加速目前每年消耗数百亿个CPU小时的大规模计算工作负载。造H100需要89块掩膜版,在CPU上运算时一块就得算两个星期,但如果用H100在CuLitho上运行就只需要8个小时,黄仁勋说道。 这意味着500个英伟达DGXH100系统就能够替代4万个CPU系统的工作,并运行计算光刻工艺的所有部分,帮助减少电力需求和对环境的潜在影响。 这一进展将使芯片的晶体管和电路比现在尺寸更小,同时加快了芯片的上市时间,并提高为推动制造过程而全天候运行的大规模数据中心的能源效率。 英伟达表示,它正在与ASML、Synopsys和台积电合作,将该技术推向市场。据介绍,台积电将在6月开始准备该技术的试产。 芯片行业是世界上几乎所有其他行业的基础,黄仁勋表示。由于光刻技术已处于物理学的极限,通过CuLitho以及与我们的合作伙伴台积电、ASML和Synopsys的合作,晶圆厂能够提高产量,减少碳足迹,并为2nm及以后的发展奠定基础。 首个GPU加速的量子计算系统 在今天的活动中,英伟达还宣布了一个使用QuantumMachines构建的新系统,该系统为从事高性能和低延迟量子经典计算的研究人员提供了一种革命性的新架构。 作为全球首个GPU加速的量子计算系统,NVIDIADGXQuantum将全球最强大的加速计算平台(由NVIDIAGraceHopper超级芯片和CUDAQuantum开源编程模型实现)与全球最先进的量子控制平台OPX(由QuantumMachines提供)相结合。这种组合使研究人员能够建立空前强大的应用,将量子计算与最先进的经典计算相结合,实现校准、控制、量子纠错和混合算法。 DGXQuantum的核心是一个由PCIe连接到QuantumMachinesOPX的NVIDIAGraceHopper系统,实现了GPU和量子处理单元(QPU)之间的亚微秒级延迟。 英伟达公司HPC和量子主管TimCosta表示:量子加速的超级计算有可能重塑科学和工业,英伟达DGXQuantum将使研究人员能够突破量子经典计算的界限。 对此,英伟达将高性能的Hopper架构GPU与该公司的新GraceCPU整合为GraceHopper,为巨型AI和HPC应用提供了超强的动力。它为运行TB级数据的应用提供了高达10倍的性能,为量子经典研究人员解决世界上最复杂的问题提供了更多动力。 DGXQuantum还为开发者配备了英伟达CUDAQuantum,这是一个强大的统一软件栈,现在已经开放了源代码了。CUDAQuantum是一个混合型量子经典计算平台,能够在一个系统中整合和编程QPU、GPU和CPU。 每月3。7万美元,网页上训练自己的ChatGPT 微软斥资数亿美元购买了数万块A100构建了GPT专用超算,你现在可能会想要租用OpenAI和微软训练ChatGPT和必应搜索相同的GPU来训练自己的大模型。 英伟达提出的DGXCloud提供了专用的NVIDIADGXAI超级计算集群,搭配NVIDIAAI软件,该服务使每个企业都可以使用简单的网络浏览器访问AI超算,消除了获取、部署和管理本地基础设施的复杂性。 据介绍,每个DGXCloud实例都具有八个H100或A10080GBTensorCoreGPU,每个节点共有640GBGPU内存。使用NVIDIANetworking构建的高性能、低延迟结构确保工作负载可以跨互连系统集群扩展,允许多个实例充当一个巨大的GPU,以满足高级AI训练的性能要求。 现在,企业可以按月租用DGXCloud集群,快速轻松地扩展大型多节点训练工作负载的开发,而无需等待通常需求量很大的加速计算资源。 而月租的价格,据黄仁勋介绍,每个实例每月36999美元起。 我们正处于人工智能的iPhone时刻,黄仁勋表示:初创公司竞相打造出了颠覆性产品和商业模式,而现有企业也在寻求回应。DGXCloud让客户能够即时访问全球规模的云中的NVIDIAAI超级计算。 为了帮助企业迎接生成式AI的浪潮,英伟达同时宣布了一系列云服务,让企业能够构建、改进定制的大型语言模型和生成式AI模型。 现在,人们可以使用NVIDIANeMo语言服务和NVIDIAPicasso图像、视频和3D服务来构建专有的、特定领域的生成式AI应用程序,用于智能对话和客户支持、专业内容创建、数字模拟等。另外,英伟达还宣布了NVIDIABioNeMo生物学云服务的新模型。 生成式AI是一种新型计算机,可以用人类的自然语言进行编程。这种能力影响深远每个人都可以命令计算机来解决问题,而此前不久,这还是程序员们的专利,黄仁勋说道。 从今天的发布内容看来,英伟达不仅正在针对科技公司的AI负载不断改进硬件设计,也在提出新的商业模式。在一些人看来,英伟达是想做AI领域的台积电:像晶圆厂一样提供先进生产力代工服务,帮助其他公司在其之上训练各自特定场景的AI算法。 用英伟达的超算训练,直接省去中间商赚差价,会是未来AI发展的方向吗?