游戏电视苹果数码历史美丽
投稿投诉
美丽时装
彩妆资讯
历史明星
乐活安卓
数码常识
驾车健康
苹果问答
网络发型
电视车载
室内电影
游戏科学
音乐整形

软件对边缘AI部署至关重要

  来源TheLinleyGroup
  文MikeDemler
  人工智能(AI)正在迅速从数据中心转移到边缘计算。开发人员通常使用通用CPU和GPU内核来开发和训练神经网络模型,但这些内核的效率远低于用于推理任务的专用加速器。尽管快速增长的市场导致众多企业家推出边缘AI初创公司,但很少有人能够开发出包括生产系统所需硬件和软件的完整解决方案。算法开发人员已经发布了许多在线免费提供的神经网络模型,亚马逊、谷歌和微软等科技巨头提供了在云端运行这些模型的平台,但边缘AI部署需要对每个细分市场进行更细粒度的优化。
  边缘AI市场包括许多不同的应用,从嵌入式设备到企业、工业、零售和智能城市管理系统的本地服务器。这些应用涵盖了广泛的性能范围,从嵌入式中每秒不到一万亿次操作(TOPS)开始,到在边缘服务器中达到数十万亿次或数百万亿次(TOPS)操作。为避免为每个细分市场使用不同的平台,设计人员应选择可扩展的加速器和软件堆栈,以满足其所针对的不同的细分市场需求。
  边缘服务器的趋势是通过在PCIe插卡上添加专用加速器来从CPU上卸载AI。基于FPGA的加速器具有可配置性支持各种应用的优势,而且比定制芯片的上市时间更短。同时还允许用户修改架构以在现场安装新模型以及优化加速器以处理不同的工作负载。另一方面,ASIC更适合具有固定要求的嵌入式系统和大批量的消费电子产品。
  许多IP供应商为ASIC或FPGA提供了可授权AI加速器,但很少有供应商能够提供两者均适用的AI加速器。AI初创公司EdgeCortix是一个例外。该公司开发了一个名为动态神经加速器(DNA)的高度可配置硬件平台,为FPGA提供1。2到15TOPS的算力,为ASIC提供高达54TOPS的算力。对于需要更高吞吐量的系统,设计人员可以安装多个PCIe卡或将多个ASIC内核连接到SoC的AXI总线。
  但除了这种高度可扩展的架构外,同时为ASIC和FPGA设计提供服务的关键是该公司的多模块高效可重配置加速器(Mera)软件。通过Mera和DNA内核的结合,针对可编程逻辑和定制芯片,设计人员可以使用相同的工具。同时还可以从Mera基于云的平台支持中受益;Xilinx应用商店就是一个例子,其进一步加快了部署速度,并支持对网联设备进行无线(OTA)更新。这家初创公司已经在Alveo和ZynqUltraScaleFPGA上证明了自己的技术,报告了MLPerf测试套件的结果,并且该公司正在开发一种测试芯片来展示DNA在ASIC中的性能。
  边缘AI对可扩展加速器的需求
  EdgeCortixDNAF系列非常适合边缘服务器,而DNAA系列可满足更广泛的ASIC功率预算和性能要求。然而,两种产品的底层架构特性是相同的,为客户提供了高度可配置和可扩展的推理引擎。
  如图1所示,DNA架构通过将多个内核连接至可配置互连总线进行扩展。在每个内核中,卷积引擎使用INT8数据执行大多数操作。矢量引擎处理激活函数,以及池化、采样和其他非卷积层。DNA设计中引擎的组成和数量是可配置的。
  图1:EdgeCortixDNA架构。每个DNA内核包括两个卷积引擎:一个用于逐点操作,另一个用于深度运算。向量单元处理最常见的激活函数,以及池化、采样和其他非卷积层。该架构允许配置各种引擎的数量和类型,以及连接多个内核以扩展性能。
  内部SRAM的大小和数量也是可配置的。DNA将数据和网络参数存储在三个不同的内存块中,但这些块共享相同的物理资源。AccMem是一个累加器,用于保存激活函数和卷积操作之间的中间结果。顾名思义,DataMem存储激活函数,WeightMem存储神经网络权重和偏差值。
  EdgeCortix提供了五种针对XilinxAlveo和ZynqUltraScaleFPGA进行优化的DNAF模型。DNAA内核更具可定制性,支持每层或每个推理的运行时配置能力,允许重新分配物理存储以调整三个内存块的容量。计算引擎和内存之间的互连也是运行时可配置的,因此DNA内核可以为通道、内核、模型和磁贴并行性动态分配资源。
  Mera编译器自动为每一层或模型确定计算块和存储器的最佳排列,DNA核心通过电路交换技术动态配置这些排列。这种运行时可配置性是Mera软件和DNA架构的独特功能,可确保所有神经网络模型都受益于最大的硬件利用率和最小的推理延迟。
  无缝流程将训练与推理联系起来
  神经网络开发人员通常在机器学习框架中训练模型,例如Pytorch和TensorFlow等,在CPU和GPU上运行全精度浮点(FP32)计算。所有DLAIP供应商都提供软件开发工具包(SDK),用于编译在其推理引擎上运行的预训练模型,但为了保持准确性,许多供应商需要额外的优化或重新训练,从而延迟部署。
  相比之下,Mera软件堆栈直接编译和运行在Pytorch或TensorFlowLite中构建的模型,无需额外的训练后优化。EdgeCortix通过扩展Apache软件基金会的TVM深度学习编译器(一种流行的开源软件堆栈)创建了Mera。受益于主要人工智能技术公司的贡献,包括亚马逊、Facebook、谷歌和微软,开发人员使用TVM进行开发工作。
  图2显示了Mera软件流程及其与机器学习框架集成的高级视图。开发人员使用C或Python脚本运行Mera。Pytorch和TensorFlowLite中内置的函数可以将网络参数量化为INT8格式以进行推理。开源ONNX交换格式允许将在其他框架中训练的神经网络模型转换到TensorFlowLite中。
  量化后,TVM前端处理初始的高级图分区,独立于目标推理引擎。使用EdgeCortix开发的Mera扩展,编译器将支持的运算符从开源中继中间表示(IR)转换为DNA指令。它还检测不受支持的运算符,并将其转换为LLVMIR,以便在目标硬件的基于Arm或x86主机的CPU上执行。
  一旦图像分区完成,Mera的代码生成器让开发人员可以使用Mera解释器执行快速功能模拟。功能模拟器提供检查以确保编译模型与原始预训练版本匹配,而不会损失准确性。功能验证后,Mera会针对特定目标执行低级优化和分区。优化包括融合层和运算符以最大化吞吐量以及有效地平铺操作以匹配特征图维度。开发人员可以选择内置的性能模拟器作为目标,可以准确估计网络延迟。他们还可以使用Mera在Verilator或其他开源周期精确模拟器中生成的RTL代码。
  图2。Mera编译器流程。Mera支持在Pytorch或TensorFlowLite中训练的模型。这些平台中的量化工具将权重转换为用于推理的INT8格式。Mera针对目标硬件优化模型,包括一个验证准确性的功能模拟器和一个估计延迟的动态模拟器,可以与Ventilator以及其他开源周期精确模拟器一起使用。
  Mera的调度程序是DNA效率的关键。通过利用网络并行性,该软件根据硬件配置分配工作负载来最大限度地提高利用率。在batch1时,该软件能够最大限度地减少延迟,这在实时对象识别中很典型。根据目标,开发人员可以选择快速或慢速调度程序。前者缺乏后者的低级优化,但提供了网络编译正确的更快证明;对于某些客户,这足以进行部署。
  由于XilinxAlveo系列等FPGA配备了各种数量的DRAM,而且因为有些DRAM内置高带宽存储器(HBM),所以慢速调度器可以通过执行比快速调度器更细粒度的优化来利用这些细节。与仅针对加速器内核中内置的资源进行优化的编译器相比,此功能具有更大的灵活性。
  云平台缩短上市时间
  对于ASIC产品来说,EdgeCortix使用传统的IP许可模式,其中包括预付费用以及基于销售芯片数量的版税。然而,对于基于FPGA的客户,它提供了基于云的SaaS模型,可加速部署。不过,无论目标硬件如何,Mera软件堆栈都是相同的。
  表1。EdgeCortixDNAF系列。DNAF050面向ZynqUltraScaleFPGA,其中包括可用作主机处理器的ArmCortexACPU。设计人员可以编译F100、F200和F400以在AlveoU50FPGA上运行;F600面向Alveo250。Alveo卡具有PCIe接口,用于连接到x86或Arm主机。
  客户可以从针对XilinxPCIe卡优化的五种DNAF产品中进行选择,如表1所示。F050与集成ArmCPU的ZynqUltraScaleSoC配合使用。设计人员既可以使用Zynq的可编程逻辑将视频直接流式传输到DNA内核,也可以使用芯片的CortexA53CPU作为主机处理器。F100、F200和F400针对XilinxU50PCIe卡进行了优化,可提供2。2至7。5INT8TOPS的AI吞吐量。F600针对AlveoU250进行了优化;运行在300MHz,达到15TOPS。
  使用FPGA设计一个系统历来需要RTL编程技能,但EdgeCortix通过将DNAF位流和相应的Mera软件打包在即用型Docker容器中,使这项任务变得更加容易,如图3所示。SaaS模式为客户提供锁定到每个设备的可更新订阅。F100和F200可通过Xilinx应用商店进行云或本地部署,也可用于Nimbix平台上的云部署。到2021年底,EdgeCortix计划在其他云平台上提供DNAF产品,例如AWS和MicrosoftAzure
  图3。DNA计算机视觉系统。在此示例配置中,主机处理器以高清分辨率将图像流式传输到AlveoPCIe卡。设计人员可以通过下载Docker容器,轻松地在FPGA中安装DNA加速器,该容器包含特定硬件位流以及在主机处理器上运行的Mera编译器。
  标准基准验证性能
  边缘AI加速器供应商通常仅将推理吞吐量指定为乘积累加运算(MAC)操作或TOPS的总数,因为这些操作可以代表90或更多计算机视觉网络计算。但大多数加速器中的硬件利用率通常低于50,并且因型号而异,产生的吞吐量比数据表显示的要少得多。因此,我们建议客户评估此类设备以测试他们自己的模型,或者至少要求供应商使用标准的公开可用基准提供结果。
  EdgeCortix通过在各种流行的神经网络(包括来自行业标准MLPerf测试套件的样本)上对DNAF200设计进行基准测试,展示了其边缘人工智能平台的功能。由于DNA内核针对执行实时对象识别的计算机视觉系统,因此它采用了此类应用中典型的batch1进行处理。该公司还优化了模型来最大限度地减少延迟,这是汽车和工业系统中的一个关键因素。
  如图4所示,已发布的EdgeCortix基准测试结果包括各种MobileNet和ResNet配置,以及更复杂的Yolov3模型。MobileNetv2和ResNet50是MLPerfInferencev1。0的两个组件,要求供应商展示在ImageNet验证数据库中50,000张图像的准确率为99。在300MHz和batch1下运行ResNet50,DNAF200满足该标准,仅以6。6ms的延迟提供152fps的吞吐量。
  图4。DNAF200batch1基准。EdgeCortix已在计算机视觉网络上测试了其DNA加速器,从仅包含3亿次MAC操作的MobileNetv2到执行100倍操作数的其他网络。它发布了符合MLPerf要求的MobileNetv2和ResNet50的结果,证明了从ImageNet数据库中提取的样本的对象分类准确率至少为99。(来源:EdgeCortix)
  MobileNet只需要ResNet50大约10的参数,使加速器能够将性能提升至390fps,延迟仅为2。6ms。客户应该记住,这些MLPerf结果来自Mera的早期v0。2版本;生产版本可能会表现得更好。在提交MLPerf之后,该公司使用其编译器的更高版本再次运行了ResNet50。如图4所示,延迟提高到4。4ms,吞吐量增加了近50,从152fps增加到225fps。
  Yolov3不是MLPerf的一部分,但它是一个比ResNet50更具挑战性的网络,在106层中包含330亿次MAC操作,以及6200万个参数。它的原始输入图像分辨率为416x416像素,但EdgeCortix展示了DNAF200通过缩小全高清(1,920x1,080)视频流来准确分类图像的能力,以40ms的延迟提供25fps吞吐量。将输入分辨率降低到Yolov3的原生帧大小可将吞吐量提高到43fps,将延迟降低到23ms。
  这些基准测试结果证明了Mera在编译跨越10:1模型大小范围的神经网络方面的多功能性,以及DNAIP有效提高性能的能力。例如,虽然Yolov3包含的MAC操作数是ResNet50的8倍以上,但DNAF200执行更大的网络时延迟仅为7倍,这表明Mera能够最大限度地提高硬件利用率。
  总结
  由于边缘AI设备具有广泛的性能和功率要求,因此加速器的选择将面临挑战。该加速器必须能够支持不同的工作负载,并在主流计算机视觉模型上提供所需吞吐量。但边缘AI软件堆栈可能更加棘手,因为若要在不同目标设备中实现硬件最大利用率,就必须包含一个能够优化各种预训练模型的编译器。
  对于标准训练框架的无缝接口来说,其需求是给定的。软件堆栈还必须包括满足对延迟敏感应用要求的调度程序和运行时引擎。由于算法开发人员不断发布新模型,软件平台应该有一个云组件,用于向已安装的系统提供模型更新。
  EdgeCortixDNAIP和Mera软件堆栈组合满足所有这些要求。DNAA系列非常适合具有固定要求的ASIC设计,但与FPGA相比,定制芯片推向市场的时间要长得多。通过将Mera与XilinxAlveo和ZynqPCIe卡一起使用,客户可以立即将神经网络模型部署到边缘服务器。
  从MobileNet到ResNet再到Yolov3,EdgeCortix在众多标准模型上发布基准测试的初创公司中很少见。许多供应商不愿透露他们的结果,而是发布用户从未意识到的理论TOPS数字。相比之下,DNAF200测试结果表明,在高达HD分辨率的情况下,其处理视频具有出色的延迟和吞吐量,使该设计成为实时计算机视觉的有力候选者。EdgeCortix的硬件软件平台是一个完整的边缘AI解决方案,适用于工业、零售和智慧城市基础设施系统。

变天了,一个时代的过去和另一个时代的开启文云舒今年下半年的资本市场,果真一开始就不太平。7月就来了一波下跌,幅度堪比上半年2月的急杀。快速下跌,市场比较恐慌,看不清背后的逻辑。等了一个礼拜,目前市场初步企稳,这……性能强悍,超高屏幕刷新率,很适合游戏爱好者哈喽大家好,我是你们的老朋友小生,每天都会给大家更新我的原创内容,新一代ROG手机比以前来得早一点,但这根本掩盖不了腾讯ROG游戏手机5的顶级参数:骁龙888LPDR5UFS3……小米又良心了!手机更换电池仅需49元,你参加了吗?智能手机已经成为了日常生活之中的消耗品,随着厂商更新步伐的加快,消费者更换手机的速度也是加快了许多。但是经常更换手机似乎并不适合绝大部分消费者,尤其是在花费大价格购买高端旗舰之……三星GaxalyS21系迎来OneUI系统更新今日消息,三星GaxalyS21系列迎来了最新的OneUI系统更新。S21Ultra版本更新包量约为993。33MB。官方更新内容显示,三星跟随国内厂商取消了快捷栏的5G……三旗舰影像对比荣耀Magic3Pro能否与神仙打架大概两周前,荣耀Magic3系列正式发布。作为荣耀2021年首款旗舰产品,该系列不仅将高通骁龙888888Plus与MagicUI5。0、GPUTurboX相结合,带来了出色的……现在的手机时尚到底是怎么了?如今手机,千篇一律已经基本是普遍了。但为什么会如此呢?从刘海到水滴,再到最后的挖孔屏。如今清一色全身挖孔。从几百千元机到旗舰,屏幕外貌几乎没啥差别。虽然无限追求屏占……互联网大厂纷纷裁员,这背后的真相,你知道吗?最近确实各个互联网大厂都在大面积裁员,那到底这是怎么回事呢?我感觉两个字就可以概括:红利。对于互联网的时代红利已经走到了尽头。我这里的时代红利有两层含义:政策红利和人口红……芯片制造核心领域取得突破!中国芯大放异彩指日可待!近日,据外媒报道中芯国际预计上半年进行14nm量产的计划延迟至下半年,但不管怎样,量产计划并未有太长时间的跳票。而此前,在2018年三季度中芯国际就曾表示在14nmFinFET……看不懂电子黑板,就看不懂教育新基建的未来近日,教育部联合中央网信办、国家发展改革委、工业和信息化部、财政部、中国人民银行发布了《关于推进教育新型基础设施建设构建高质量教育支撑体系的指导意见》(以下简称《意见》),要求……闭眼买不踩雷美国Nuria,颜控不容错过说在前面作为爱美的女生,我在护肤品上花费真的不少买过好多品牌的护肤品,便宜的、贵的,种的草慢慢拔,在不断尝试的过程中当然有踩过雷所幸,也遇到过意外的惊喜和收获!比如……CCTV4中文国际壮丽70年,思必驰代言苏州新时代苏州古城东侧,曾经是一片洼田密布、阡陌纵横的白地,如今已蝶变成一座活力无限的现代化国际化新城,它的名字叫苏州工业园区。2008年,初生于英国的思必驰,选择来到这片沃土落地成长……2021年低预算高性价比笔记本电脑选购指南电脑有很多种使用价值,每个人对电脑使用价值的需求不一样,有的人把电脑当作游戏机,有的人把电脑当作生产资料,也有的人只是把电脑当作一个工具,这三类人对电脑的预算也是越来越低的。……
尼康D8002470怎样照月亮?尼康D8002470怎样照月亮?这样的组合基本上拍不成。当然可以拍摄到一个白点形式的月亮画面。尼康D800机身拍摄是没有问题的,关键是镜头,拍摄月亮一般得用长……在一个企业里,单位领导工资是普通员工工资的3倍,这样合理吗?当然算合理了。一是国资委有规定,国企的企业负责人薪酬包括基本年薪、绩效年薪和中长期激励收益,但以基本年薪和绩效年薪为主。其中,企业主要负责人的基本年薪以上年度省属国有企业……微软称已控制俄罗斯黑客的域名,帮助乌克兰免受网络攻击IT之家4月8日消息,据Neowin报道,微软透露,它已经控制了由与俄罗斯有关的黑客实体Strontium控制的七个互联网域名。微软称,这些域名被用于针对乌克兰机构(如媒……曼钦反对拜登电动汽车补贴计划美股锂电池板块全线收跌智通财经APP获悉,周二,美国民主党参议员曼钦在一次活动上表示,他不会签署积极推动电动汽车的计划,这导致了美股锂电池板块全线下挫。数据显示,截至周二美股收盘,Piedmo……关于小屏手机?从历史发布的手机中我们可以发现,国内手机厂商没有一家坚持做小屏幕手机。那么是没有人买小屏手机吗?从销量上看iPhone11、iPhone12、iPhone13销量分……云主机和虚拟主机有什么区别?云主机是云服务器吗?区别在于自由程度,云主机相当于一台服务器,可以任意安装你需要的系统、程序或是网站环境,虚拟主机是商家已经安装好了支持网站的环境,只给你一部分空间,你除了上传和访问数据,没别的权……瑞典还没反应?爱立信面试失败华为晋级,真要彻底失去中国市场?众所周知,5G技术已经逐步发展成熟,而在5G领域方面华为公司在被美国不断打压下逐渐失去领先优势,而爱立信借助这一时机,明显发展势头更为良好。但华为公司没有一蹶不振,在新一轮竞标……今年前两个月吉林省网络零售额达124。57亿元本报讯(记者王春宝)来自吉林省商务厅的消息,今年12月,全省网络零售额达124。57亿元,同比增长18。72,较全国增速高出13。23个百分点,同比增速居于全国第5位,增速在东……大家都说助听器和眼镜一样,会越戴越差,是这样吗?不戴助听器,听不到声音。现实阶段中工作、生活、学习、出现困难,就连出行或多或少会没有安全感,更谈上提升生活质量。即使不戴助听器,也无法保证自己听力损失情况不下降。为……为什么到营业厅充话费就会免费送一部手机?有什么猫腻?今天头一次听说有这好事,那里送?我不怕猫腻立刻去冲!运营商的套路,充话费送手机都是需要一定的月套餐,而且是一年或两年绑定送的手机的,中间手机坏了换新手机还不能返还话费,等……你手机里最舍不得删的照片是哪张?伟大领袖毛主席我每个手机里都有毛主席相片,一直舍不得删。一直留着到永远。舍不得删的照片是这些二人照,这是中国人民伟大的,最亲密的战友。人们喜欢评选历史上最伟大的二人组合。……Android12Beta1VSHarmony2。0两场测试5月18日凌晨谷歌举行了一年一度的IO开发者大会,会上宣布最新一代安卓系统Android12开启Beta测试。据谷歌介绍,Android12启用了全新的MaterialY……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网