一、AI芯片的概念和性能比较1。广义概念 AI芯片是专门处理人工智能应用中大量计算任务的模块,是诞生于人工智能应用快速发展时代的处理计算任务硬件,广义来讲,凡是面向人工智能应用的芯片均被称为AI芯片。包含基础层、技术层、应用层三个层面: (1)基础层:AI芯片可以看成人工智能应用中完成大量计算所需的硬件 (2)技术层:人工智能应用常用的算法技术等,用来解决人工智能应用中的核心计算问题(如语音识别、语义分析、视觉处理、知识图谱、推理计算等) (3)应用层:通过场景应用实践,利用人工智能学科的技术解决实际问题(如智能硬件、智能机器人、智能汽车、智慧城市、智慧金融等)2。狭义概念 狭义的AI芯片指的是针对人工智能算法做了特殊加速的芯片。由于深度学习算法在人工智能领域的应用不断加强和提升,AI芯片一般会认为是对大量数据进行训练和推理设计的芯片。 3。芯片的三种商业模式 Fabless模式:专注芯片设计,代表企业华为海思。 Foundry模式:专注芯片制作,即代工厂,代表企业台积电。台积电主要的客户包括:苹果、英伟达、高通、海思、博通、AMD、联发科、美满电子、索尼、德州仪器。 4。AI芯片领域国内主要公司 浪潮信息(1998):全球领先的AI基础设施供应商,AI服务器市占率稳居榜首。 华为海思(2004):前身为华为集成电路设计中心,1991年启动集成电路设计及研发业务。 依图科技(2012):以人工智能芯片技术和算法技术为核心。 嘉楠科技(2013):ASIC区块链计算设备与RISCV架构边缘AI芯片。 云天励飞(2014):作为业内领先的人工智能企业,打造了一系列面向数字城市和人居生活的产品和解决方案。 地平线(2015):致力于成为边缘人工智能芯片的全球领导者。 寒武纪(2016):致力于打造人工智能领域的核心处理器芯片。 平头哥(2108):平头哥半导体有限公司是阿里巴巴全资的半导体芯片业务主体。5。芯片性能比较 衡量AI芯片性能主要指标是芯片制程,这一点国内外存在显著差距。国际上先进制程多为510nm,台积电最新制程水平可达3nm为国际最优。美国2022年禁止14nm以下芯片制造设备,荷兰2023年禁止7nm以下芯片制造设备对华供应。 国内方面,天津飞腾先进制程为16nm、天津海光为14nm,而当前中芯国际14nm、华为鲲鹏7nm面临制造方面的限制,产能不稳定。 以算力功耗密度为比较的参数,第一梯队是阿里,第二梯队是百度、寒武纪、遂愿,第三梯队是依图。以英伟达T4为标尺,百度、寒武纪、遂愿的云端推理芯片达到了英伟达T4性能水平。据了解,英伟达A100GPU在BERT训练和推理上的性能分别较前代V100提升了6倍和7倍,但英伟达T4推理能力只有V100的60。 市场调查机构TrendForce此前公布的报告指出,如果以英伟达A100显卡的处理能力计算,运行ChatGPT将需要使用到3万块英伟达GPU。GPT4将会达到100万亿参数,较ChatGPT所基于的GPT3。5有着600倍的提升,对高性能算力芯片的需求将进一步提升。二、代表性AI芯片及相关上市公司 仅列举可支撑AI计算的高性能算力芯片。1。CPU CPU又叫中央处理器,是计算机的大脑,主要执行分析,判断和运算功能。全球CPU行业被Inter和AMD两家垄断,国有芯片在PC中市占率约为1,在服务器中约占2。(1)龙芯中科龙芯2K1000 双核64位系统处理器,板载2GDDR3内存,主频1GHz。LoongArch龙架构,完全国内自主芯片,与鸿蒙适配。2023年1月上线了龙芯2K1000LA嵌入式开发平台龙芯派二代(LoongArch),峰值运算速度达8GFlops。使用龙芯2K1000配合松科智能国产神经网络加速棒,可以实现在嵌入式边缘计算领域的AI算力支撑。(2)海光信息、中科曙光海光CPU 海光CPU(300050007000系列):基于x86架构,应用于云计算、物联网、信息服务等。海光3000系列产品最多集成8个处理器核心,最大支持2个内存通道和32个PCIe接口,主要应用于工作站和边缘计算服务器,面向入门级计算领域;5000系列最多集成16个处理器核心,最大支持4个内存通道和64个PCIe接口,主要应用于中低端服务器,并发处理能力和单核心处理器性能较为均衡;7000系列最多可集成32个核,最大支持8个内存通道和128个PCIe接口,主要应用于高端服务器,主要面向数据中心、云计算等复杂应用领域。(3)华为海思鲲鹏系列 鲲鹏920:ARMbased处理器,采用7nm制造工艺,基于ARM架构(华为被制裁前已经获得了ARMv8指令集架构永久性授权),由华为公司自主设计完成。主频可达2。6GHz,单芯片可支持64核,业界首个内置直出100GE网络能力的通用处理器。深圳华强为供应商;长电科技、华天科技、通富微电等为其芯片封测公司。(4)中国长城(参股天津飞腾)飞腾腾云S2500 S2500处理器芯片集成64个自主研发的ARMv8指令集兼容处理器内核FTC663,采用片上并行系统(PSoC)体系结构。通过集成高效处理器核心、基于数据亲和的大规模一致性存储架构、层次式二维Mesh互连网络、多端口高速直连通路,优化存储访问延时,提供业界领先的计算性能、访存带宽和IO扩展能力。2。GPU GPU是图形处理器,也是显卡的计算核心,主要用来解决图形渲染问题,允许大量数据的并行计算,故而可广泛应用于AI训练。全球GPU市场由NVIDIA,AMD,Inter三家垄断,NVIDIA的GPU产品A100、H100在AI芯片市场一家独大。英伟达A100在bert等先进对话式AI模型上可将推理吞吐量提升到高达CPU的249倍。从2022年开始,美国已经限制英伟达向中国大陆销售A100H100显卡,但英伟达推出了A800,成为中国特供版A100平替。(1)海光信息、中科曙光海光DPU 海光DPU(兼容类CUDA环境,8000系列):基于GPGPU的产品,应用于大数据处理、人工智能、商业计算等。海光虽被制裁,但已获得了AMD第一代Ryzen和EPYC的Zen架构技术,预计今年下半年开始销售基于Zen的芯片,性能达到10倍。(2)龙芯中科龙芯7A2000 龙芯7A2000(搭载自主GPU):7A2000桥片首次集成龙芯自研统一渲染架构的GPU模块,GPU核心频率达到400500MHz,基于OpenGL2。1和OpenGLES2。0规范实现,集成DDR4显存控制器,显存频率达到2000Mhz2400Mhz,最大支持16GB。(3)景嘉微JM9 景嘉微是唯一实现大规模量产的国产GPU厂商,已成功研发JM5400、JM7200、JM9等系列图形处理芯片,并成功实现产业化。JM9系列两款图形处理芯片可满足地理信息系统、媒体处理、CAD辅助设计、游戏、虚拟化等高性能显示需求和人工智能计算需求,可广泛应用于台式机、笔记本、一体机、服务器、工控机、自助终端等设备。2022年12月JM9系列图形处理芯片已开展测试推广工作,但尚未涉及AI训练领域。3。ASIC寒武纪 ASIC,叫作专用集成电路,强调的是专用性,根据客户需求,把CPU,GPU,存储器,蓝牙,WIFI等多个集成电路组合到一块芯片上,使得整机电路优化。ASIC最重要的应用场景,就是智能手机,比如华为海思的麒麟芯片。寒武纪基于ASIC在AI训练领域进行研发,目前尚未公开发行的产品为思元590。 思元270(2019):采用台积电16nm制程工艺,架构代号从上一代的MLUv01升级到了MLUv02,理论峰值性能提升4倍,同时兼容INT4和INT16运算,理论峰值分别达到256TOPS和64TOPS。 思元290(2021):是寒武纪首颗训练芯片,和英伟达A100的上一代V100是同一级别训练产品。采用台积电7nm制程工艺,集成460亿个晶体管,支持MLUv02扩展架构,算力高达1024TOPS(INT4)。4。FPGA复旦微电 FPGA芯片也叫可编辑芯片,具有可编程,并行运算的特点,可广泛应用于5G通信、AI智能、数据中心、汽车等领域,可应用于数据中心中为人工智能提供算力。全球FPGA市场由四大巨头Xilinx,Intel,Lattice,Microsemi垄断,同时在硬件设计和高端的EDA软件设计上都形成了极强的技术封锁,四大厂商的市场占有率达到了96。 复旦微电为国内FPGA龙头,2016年推出65nm千万门级的产品,2018年推出28nm亿门级芯片,并在28nm制程不断丰富FPGA产品谱系,已形成多种容量和多种封装形式的产品系列;并FPGA技术基础上推出了多款嵌入式可编程器件PSoC,可广泛用于高速通信、信号处理、图像处理、工业控制等应用领域。5。NPU华为海思(昇腾系列) NPU(NeuralnetworkProcessingUnit)是神经网络处理器,在电路层模拟人类神经元和突触,并用深度学习指令集直接处理大规模电子神经元和突触数据。 昇腾910:华为昇腾有两款产品,分别为310、910。910是目前最强的AI处理器,基于自研华为达芬奇架构3DCube技术,7nm制程,实现业界最佳AI性能与能效,架构灵活伸缩,支持云边端全栈全场景应用。算力方面,昇腾910完全达到设计规格,半精度(FP16)算力达到320TFLOPS,整数精度(INT8)算力达到640TOPS,功耗310W。相关企业有拓维信息、常山北明、广电运通等。