游戏电视苹果数码历史美丽
投稿投诉
美丽时装
彩妆资讯
历史明星
乐活安卓
数码常识
驾车健康
苹果问答
网络发型
电视车载
室内电影
游戏科学
音乐整形

百度PaddleFluidv1。3版本官方正式发布

  前言:
  PaddleFluidv1。3版本于今日发布,在基础框架、预测引擎、模型建设、分布式训练各个方向上完成多项升级。
  高效先进的视频分类库
  新增视频模型库,提供5个视频分类经典模型以及适合视频分类任务的通用骨架代码,用户可一键式高效配置模型完成训练和评测。
  视频理解权威竞赛ActivityNetKinetics视频动作识别任务冠军方法stNet的resnet50版本开源实现。
  基于PaddlePaddle的NLP里程碑Bert模型
  新增支持NLP语义表示BERT模型,支持多机多卡训练,支持混合精度训练,训练速度对比主流实现提升50,提供完整部署示例。
  性能大幅提升的分布式训练
  大规模稀疏参数服务器Benchmark发布,CPU多机异步训练发布显著提升点击率预估任务IO吞吐的builtinreader,多机多卡训练性能多方面提升。
  下面将PaddleFluidv1。3版本所发布的内容,全面介绍给广大开发者:
  重要更新统一Executor和ParallelExecutor接口,用户只需通过CompiledProgram将单卡模型转化多卡模型,并利用Executor进行训练或者预测。正式发布AnalysisConfig预测接口,支持计算图分析、算子融合等优化,并支持利用IntelMKLDNN、NvidiaTensorRT子图引擎等第三方库的加速。模型库新增发布PaddlePaddle视频模型库,提供5个视频分类经典模型以及适合视频分类任务的通用骨架代码,用户可一键式高效配置模型完成训练和评测。新增支持NLP语义表示BERT模型,支持多机多卡训练,支持混合精度训练,训练速度对比主流实现提升50,提供完整部署示例。大规模稀疏参数服务器Benchmark发布,CPU多机异步训练发布显著提升点击率预估任务IO吞吐的builtinreader,多机多卡训练性能多方面提升。新增支持IntelDeepLearningBoost(VNNI指令集)。在新一代的IntelXeonScalableProcessor上,使用这个特性的一些模型,INT8预测性能可以达到FP32的2倍。
  基础框架安装新增Linux和MacOS下的中文版本辅助安装脚本,提供交互式安装方式,协助用户在复杂环境下快速完成PaddlePaddle安装。Windows支持优化:新增cuda8,cudnn7的GPU支持,新增AVX指令集、MKLDNN、mnist数据集支持。修复Windows加载LinuxMac下同版本paddle训练模型的问题。增加动态图基础功能动态图tracer、autograd、pythonLayerPyLayer,动态图支持MLP、GAN、ptbRNN、Resnet模型,动态图支持Optimizer、GPU训练。Executor和ParallelExecutor接口优化对Executor和ParallelExecutor接口进行统一,用户只需通过CompiledProgram将单卡模型转化多卡模型,并利用Executor进行训练或者预测。ParallelExecutor优化对MultiDevSSAGraphBuilder进行重构,使得MultiDevSSAGraphBuilder更易扩展。去除ParallelExecutor中的设备锁,提升ParallelExecutor多卡调度性能。中间表达IR和Pass方面的优化完善CIRgraph的python接口以及CIRpass的python接口。在framework。py中新增IRGraph类,为在Python层编写IRPass做准备。新增支持网络无锁更新的Pass。新增QuantizationTransformPass,此为QuantizationAwareTraining量化模式训练前的图修改操作部分。内存和显存方面的优化新增支持在编译时加入Jemalloc作为动态链接库,提升内存管理的性能,降低基础框架内存管理开销新增memoryoptimize,inplacepass,memorypoolearlydeletion等显存优化策略。新增支持网络无锁更新的Pass。新增QuantizationTransformPass,此为QuantizationAwareTraining量化模式训练前的图修改操作部分。Operator整体层面的优化每个op在执行前只做一次scope查询,减少读写锁操作(原来需要做15次scope查询)新增TemporaryAllocator,减少op中的同步操作新增pyfuncoperator,支持pythonop接入,用户可以借助pyfuncOperator快速实现所需要的特有操作重构DDim,VariableType等,降低基础框架调度开销。INTELFP32计算相关优化优化densitypriorboxoperator,单op四线程提速3倍。优化Stackoperator,单op提速16倍。开发Transpose,Concat和Conv3d三个基于MKLDNN的kernel。修复lrnoperator中MKLDNNkernel精度bug,同时单op提速1。3倍。修复MKLDNN初始化占用5G内存的问题,目前初始化占用500MB。减少从MKLDNNOPkernel到非MKLDNNOPkernel时不必要的reorder。完善CPUJitKernelsequencepooling的jitkernel,纯op提升2倍。softmax的jitkernel,纯op提升2倍,同时使得Bert模型CPU预测提升26。常见的基本逻辑:向量的每个元素求平方kVSquare、矩阵乘法kMatMul、向量的最大值kHMax、向量所有元素的和kHSum。
  预测引擎
  服务器预测正式发布AnalysisConfig预测接口,支持计算图分析、算子融合等优化,并支持利用IntelMKLDNN、NvidiaTensorRT子图引擎等第三方库的加速。预发布intelCPU上的预测INT8离线量化方案开发Conv2D,Pool2D,Quantize,Dequantize四个基于MKLDNN的INT8kernel。预发布Calibration的3个核心PythonAPI(paddle。fluid。contrib。Calibrator)。开发Calibration工具,保证FP32和INT8的精度在ResNet50和MobileNetV1在ImageNet验证数据集上相差在1内。支持IntelXeonCascadeLakeServer(VNNI指令)及IntelXeonSkyLakeServer,性能提升约为1。33倍。CPU预测速度提升fusesequencepoolingconcatop,支持N(lt;200)个sequencepoolingopconcat起来组成一个新op,整体使得seqpool模型CPU预测提升56。fuse连续重复的fcop为一个大op,使得seqpool模型CPU预测速度提升15。fuse逻辑为((XY)。2(X。2Y。2))。scalar的op组合,使得seqpool模型CPU预测速度提升8。2。针对输入tensor元素个数为1的情况,优化compareop的CPUKernel。新增PaddleTRT对CalibrationINT8的支持,GPU预测速度提升模型VGG,Resnet50上预测速度达到了PaddleTRTfloat32的两倍性能。模型VGG,Resnet50在imagenet数据集上测试,精度下降0。3以内。算子融合增加fc和con相关两个fuse,作用于convopCUDNNkernel。新增ConvAffineChannel的融合pass,FasterRCNN运行的性能提升26。8。新增TransposeFlattenConcat融合pass,MobilenetSSD模型性能提升15。实现beamsearchoperator的CUDAKernel,并且将相应的topk、elementwiseadd、reshape、log计算融合到beamsearchoperator中。功能完善及易用性提升新增CIRgraph的Python接口。新增预测库的Python接口。服务端预测支持从内存加载模型。其他删除legacyV2代码。从1。3版本起,不再支持V1amp;V2老版本功能。修复PaddleTRTelementwisemul模型运行出现问题的bug。修复PaddleTRTtrtenginestream多个连续输入情况下模型输出结果异常的bug。
  移动端预测效率优化,常见模型预测速度提升int8预测支持dequantize和其他op(batchnormalizationreluelementwiseadd)进行自动kernel融合。transpose2operator对于shufflechannel操作进行优化。gruoperator使用neon指令进行优化,并针对batchsize为1时进行优化。优化和实现pooling,支持任意的padding。优化和实现batchnormalization、softmax、elementwiseadd。新增支持多个输入和多个输出的模型预测。新增实现prelu6operator、castoperator、topkoperator。修复int8offline量化溢出结果不对的问题。修复winograd实现在输入featuremap的height和width不相等时结果可能为0的bug。
  模型建设PaddleCV智能视觉新增发布PaddlePaddle视频模型库,包括五个视频分类模型:AttentionCluster、NeXtVLAD、LSTM,、stNet、TSN。提供适合视频分类任务的通用骨架代码,包括数据读取和预处理、训练和预测、网络模型以及指标计算等多个模块。用户根据需要添加自己的网络模型,直接复用其他模块的代码,快速部署模型。新增支持目标检测MaskRCNN模型,效果与主流实现打平。语义分割DeepLabV3模型,depthwiseconvop融合,显存优化,显存占用对比上一版本减少40。PaddleNLP智能文本处理新增支持NLP语义表示BERT模型,支持多机多卡训练,支持混合精度训练,训练速度对比主流实现提升50,提供完整部署示例。机器翻译Transformer模型优化解码计算,decoder中加入对encoderoutput计算结果的cache,预测速度提升一倍。PaddleRec智能推荐SequenceSemanticRetrieval新增单机多线程、单机多卡运行示例,添加预测功能、数据预处理优化,完善部署示例。GRU4Rec新增负采样功能,使用bprloss和crossentropyloss的效果与原作打平。
  分布式训练大规模稀疏参数服务器Benchmark发布测试真实业务场景下,特征规模百亿、样本平均特征数1k的点击率预估任务,在batch512情况下,100worker加速比90。5,吞吐量1。36Ms。CPU多机异步训练发布面向点击率预估任务的builtinreader,Criteo数据集下IO总吞吐提升1300。GPU多机多卡水平扩展性能提升新增并行模式:PG(ParallelGraph)、MP(MultiProcess),独立GPU卡之间的计算,提升性能同时,不影响模型精度。在ResNet50模型,单机8卡V100下,PG,MP模式提升训练性能30以上;4机32卡,PG模式提速46,MP模式提速60。在BERT模型,8卡V100下,PG,MP模式提升训练性能26。MultiProcess模式相比ParallelGraph模式对Reader速度敏感度不高。GPU多机多卡垂直扩展性能提升新增功能:fp16和混合精度训练Fp16单机单卡加速情况:ResNet50提速约87,BERT提速约70。BERT同时开启PG和混合精度,单机8卡下单位时间吞吐提升120。ResNet50同时开启混合精度训练和MP模式,在V100单机8卡、4机32卡下,单位时间吞吐提升100。典型模型收敛速度优化新增功能:动态BatchSize,动态ImageResize方法。Resnet50onImagenet数据集:训练收敛轮数下降为标准训练方法的13左右。
  VisualDLVisualDLgraph支持Paddlefluid保存的模型可视化展示。

快讯四川宜宾市珙县再次发生4。6级地震IT之家6月23日消息据央视新闻消息,中国地震台网正式测定:今天08时28分,四川宜宾市珙县(北纬28。39度,东经104。82度)发生4。6级地震,震源深度14千米。昨……微信上装卖茶女帮外公卖茶,国家网信办这是骗子设计好的剧本IT之家8月27日消息今日,国家网信办举报中心就以帮外公卖茶叶等理由的诈骗作出提醒。其表示,所谓卖茶女、白富美都是骗子设计好的剧本,小心善心被利用。据悉,湖南长沙警方近日……乘法交换律和结合律教学反思本节课的主要内容是经历探索乘法交换律、乘法结合律的过程,理解并用字母表示乘法交换律、结合律,能运用乘法交换律、结合律进行简便运算。教学重点是经历探索乘法交换律、乘法结合律的过程……微信转账520返一万?男子轻信被骗6738元IT之家12月20日消息IT之家友情提示,在没有保障的微信群或者其他私下交易中,谨慎处之。不要轻易给陌生人转账、借钱;不要轻易相信陌生人说的话;有关个人财产的话题一定要慎重,个……Steam首位等级破4000玩家诞生中东土豪玩家St4ckIT之家1月20日消息根据外媒的报道,Steam首位等级破4000玩家已经诞生,是中东的Steam土豪玩家St4ck,目前他已经到达4035级,账号里共有4744款游戏。……一年级音乐春天在哪里教学设计《春天在哪里》教学设计课题:春天在哪里教材:一年级艺术第二册第二单元教材分析:《春天在哪里》是本单元第一课,通过引导学生多角度观察春天、表现春天、歌颂春天,引发学生对春天美好的……合肥地铁实现银联手机闪付过闸1分钱坐地铁IT之家12月12日消息12月12日,中国银联手机闪付过闸应用及1分钱乘车礼遇正式在合肥地铁1、2号线上线。市民只需持有开通银联手机闪付的智能手机,或者境内任一银行发行的62开……3。4实际问题与一元一次方程【本讲教育信息】一。教学内容:1。体会数学建模思想。2。进一步探究如何用一元一次方程解决实际问题。二。知识要点:1。数学建模这里所讲的数学建模是利用数学方法(一元一次方程……支付宝今日起,西安地铁所有闸机都支持扫码快速进站IT之家12月3日消息据支付宝官方微博消息,今日(12月3日)起,西安地铁的所有闸机都可以实现刷支付宝快速进出。随着西安地铁线网闸机改造工作全面完成,之前每站的扫码专用闸已经扩……支付宝今天起,上海杭州宁波三城市地铁实现扫码过闸互通IT之家12月1日消息此前官方宣布,今年内上海、杭州和宁波三城市的地铁有望实现扫码过闸互通,支付宝是背后的技术提供方,这也是长三角一体化的阶段性成果表现。今天,支付宝宣布,12……酷狗音乐年度听歌报告来了你最爱的歌是哪些IT之家1月4日消息新的一年来了,许多服务商也纷纷推出了用户上一年的年度总结。现在,酷狗音乐也在App的首页上线了总结的页面。酷狗音乐的年度报告和其他服务的大致相似,包括……李志跨年音乐会直播无法访问,网易云音乐表示会为付费用户退款IT之家12月31日消息今天晚上,网易云音乐官方微博发布致歉声明,公告称因平台技术原因,导致李志20182019洗心革面跨年音乐会直播中出现部分用户无法访问的问题,云音乐官方向……
一年级数学两位数减一位数的退位减法教学反思3篇篇一:两位数减一位数退位减法的口算,由于是一节计算课,是在学生已经掌握整十数加减整十数,两位数加减一位数和整十数的基础上教学的。让学生通过动手操作理解掌握两位数减一位数退……三年级数学乘与除教案设计教学目标:1。知识与技能。巩固两位数乘法、除法的计算方法。能用计算器对计算结果进行检验。2。能力目标:通过估算积的大小,使学生体验抓住重点解决问题的方法。通过观察、……大班健康勤劳的袋鼠宝宝优秀教案设计设计意图:蛇皮袋是我们农村里常见的物品,它用来装谷物、农肥、蔬菜等等。农村的孩子常常会坐在装满谷物的蛇皮袋上玩,有的孩子甚至会将蛇皮袋铺在地上打滚、睡觉。看到孩子们这么喜……大班体育快乐的蚕宝宝活动目标:1、模仿蚕宝宝的爬行动作,发展幼儿肢体的柔韧性、协调性,促进幼儿感知运动能力的发展。2、在蚕宝宝的自身运动中了解蚕一生的变化。3、在体育活动中感受、体验运动的快……长方形和正方形的周长解决问题精品教案一、教学目标(一)知识与技能1让学生通过自主探究,进一步巩固长方形、正方形特征的认识及周长的计算方法,提高学生综合运用知识的能力。2让学生进一步发展数学思考,……有关中班语言三只蝴蝶教案导语:喜欢三只蝴蝶对伙伴的不离不弃。幼儿之间学会团结友爱,互相帮助。以下小编为大家介绍有关中班语言三只蝴蝶教案文章,欢迎大家阅读参考!有关中班语言三只蝴蝶教案1活动目标:……仁者见仁智者见智的造句1、对此,仁者见仁,智者见智。2、有没有必要了解文化差异我认为因人而异。正所谓:仁者见仁,智者见智。3、历代学者从不同的角度提出了自己对这一问题的观点和看法,真可谓……质量守恒定律教学设计一、教材分析本节课主要通过实验来探讨化学反应过程中反应物总质量与生成物总质量之间的关系,开始了从生成何种物质向生成多少物质方面的过渡,引导学生从量的方面去研究化学反应的客……成语绰绰有余的对对子成语绰绰有余是形容房屋或钱财非常宽裕,用不完。那绰绰有余有什么对对子呢?下面是品学网小编给大家整理的成语绰绰有余的对对子,供大家阅读!成语绰绰有余的解释【典故】此令兄弟,……国民革命运动【教学目标】基础知识了解黄埔军校的建立、北伐战争胜利进军和失败的原因、国民革命运动的失败和南京国民政府的建立掌握北伐战争的对象、共产党在北伐战争中的重要作用能……关于钟表的教学设计评析一、教材简析:本单元主要是使学生结合自己的生活实际学会看整时和半时,初步认识钟面上的时针和分针,本节课是本单元的第一课时,主要是认识钟面上的整时数,先让学生认识时针和分针……聚精会神的近义词是什么呢聚精会神(jjnghushn)原谓心神聚合,集中大家的智慧。出自于《文选王褒〈圣主得贤臣颂〉》:故世平主圣,俊乂将自至,若尧、舜、禹、汤、文、武之君,获稷、契、皐陶、伊尹、吕望……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网