纠纷奇闻社交美文家庭
投稿投诉
家庭城市
爱好生活
创业男女
能力餐饮
美文职业
心理周易
母婴奇趣
两性技能
社交传统
新闻范文
工作个人
思考社会
作文职场
家居中考
兴趣安全
解密魅力
奇闻笑话
写作笔记
阅读企业
饮食时事
纠纷案例
初中历史
说说童话
乐趣治疗

如何加速大模型开发?技术方案拆解来了昇思MindSpore技

2月18日 相见欢投稿
  随着ChatGPT爆火出圈,狂飙之势从22年底持续到23年初,与以往的技术突破不同的是,此次的大模型不仅被技术界关注,而且备受投资界、产业界和大众消费者的追捧,使它成为历史上最快月活过亿的现象级应用,继而引发全球科技巨头的AI竞赛。
  大模型的高智能化离不开对模型的大规模预训练,这背后需要强大的AI框架作底层支持。面对动辄千亿级参数的大模型,如何使能广大开发者和用户进行开发,在当前大模型研究分秒必争之时弯道超车?且让我们顺着大模型技术的方案拆解,一探昇思MindSporeAI框架的技术能力。预训练大模型的开发之路
  大规模预训练GPT3与鹏程。盘古
  2020年,OpenAI祭出了远超同期所有预训练模型的大杀器GPT3。凭借着1750亿参数量,300BToken的预训练,GPT3展现出非常强悍的自然语言处理能力,包括:文本生成:根据Prompt来续写(补全)句子。上下文学习(IncontextLearning):遵循给定任务的几个示例,然后为新的测试用例生成解决方案。世界知识(WorldKnowledge):包括事实性知识和常识。
  此时与GPT3同量级的大规模预训练语言模型仍是国内外难以逾越的大山。2021年4月,基于昇思MindSporeAI框架的多维度自动混合并行能力,以鹏城实验室为首的联合科研团队在大规模AI算力平台鹏城云脑II上,训练出业界首个2000亿参数、以中文为核心的预训练生成语言模型鹏程。盘古。联合团队从开源开放数据集、commoncrawl网页数据、电子书等收集了近80TB原始数据,搭建了面向大型语料库预处理的分布式集群,通过数据清洗过滤、去重、质量评估等处理流程,构建了一个约1。1TB大小的高质量中文语料数据集,经统计Token数量约为250B规模。
  凭借着与GPT3相同量级的参数量,鹏程。盘古预训练模型拥有不逊于GPT3的上下文学习和世界知识能力。
  图1鹏程。盘古模型架构
  利用昇思MindSporeAI框架的自动并行能力,开发者只需一行代码就能实现模型自动切分、分布式并行计算,省却大量复杂设计,在大集群上高效训练千亿至万亿参数模型。关于昇思MindSpore的自动并行能力,这里先按下不表,让我们继续看下一个技术要素。
  思维链的必经之路Code预训练
  思维链(ChainofThoughs,即链式思维推理)是大模型能够拥有拟人化对话能力的关键。在GPT3之后,思维链能力开始被认为是通过fewshotlearning进行激发,后续有letsthinkstepbystep的zeroshotprompt进一步触发了该能力。但是此时的大模型仍旧仅限于在各类数据集上呈现弱思维链能力。
  直到代码数据的预训练模型出现并融入到自然语言预训练模型中,大模型的思维链接能力跃上新的台阶。下图是OpenAI从GPT3以来的演进路线图。左侧的分支是代码大模型的持续演进,一直到codedavinci002将LM和Code训练进行融合,再加入instructtuning,最终催生出耳熟能详的ChatGPT。
  图2ChatGPT演进路线
  2022年9月,清华大学团队基于昇思MindSpore1。7研发了CodeGeeX代码预训练大模型,并使用鹏城实验室的大规模AI算力平台(鹏城云脑II)进行训练。CodeGeeX的训练语料由两部分组成:第一部分是开源代码数据集,ThePile与CodeP第二部分是补充数据,直接从GitHub开源仓库中爬取Python、Java、C代码。整个代码语料含有23种编程语言、总计1587亿个标识符(不含填充符)。
  在开发与训练过程中,清华大学与昇思MindSpore团队深度合作,实现了一系列算子融合优化,包括单元素算子融合、层归一化算子融合、FastGelu与矩阵乘法融合、批量矩阵乘法与加法融合等,为训练速度带来了显著提升。
  撬动人类的智慧RLHF与PPO
  ChatGPT令人震惊的能力在于其能够真正拟人化地进行对话,生成内容更加符合人类的认知和价值观。在大模型已经具备充足的世界知识、上下文学习能力和思维链能力的情况下,虽然可以在各大NLP数据集持续刷榜,但是仍旧存在一个问题与人类的表达习惯差异巨大。而ChatGPT的前身InstructGPT,向我们展示了人类反馈加入模型训练的循环当中,所能呈现的巨大改变,那就是RLHF(ReinforcementLearningfromHumanFeedback,即使用人类反馈强化学习)。
  RLHF技术主要分为如下4个步骤:
  1)无监督预训练:预训练一个语言模型如GPT3。
  2)有监督的微调:生成一组Prompt,以及对每个Prompt的人类反馈。即一个由对组成的训练数据集。然后对预训练的模型进行微调。
  3)训练人类反馈的奖励模型:建立一个奖励模型,对预训练语言模型输出进行评分。首先给定一组Prompt,机器生成对这些指令的Answer,并由人类对其质量进行评分或排名。使用这个数据集来训练一个奖励模型,为任何对输出一个质量分数。
  4)训练一个基于奖励模型进行优化的强化学习策略。
  下图是RLHF的核心PPO算法的示意图:
  图3PPO算法逻辑
  针对RLHF所需的强化学习算法,昇思MindSpore进行了布局,发布MindSporeReinforcementLearning套件,为编写强化学习算法提供了简洁的API抽象,将算法与部署和调度解耦;将强化学习算法转换为一系列编译后的计算图,然后由昇思MindSporeAI框架在昇腾AI处理器、CPU、GPU上高效运行。目前MindSporeReinforcementLearning套件提供下述能力:
  1)提供丰富的强化学习算法:当前已支持15经典强化学习算法,涵盖ModelfreeModelbasedOfflineRLImitationLearning,单智能体多智能体,连续离散动作空间,EpisodicNonEpisodic等算法;接入Mujoco、MPE、StarCraft2、DeepMindControl等常用模拟环境。
  2)专注高性能训练:通过计算图和ReplayBuffer加速、异步环境并行和高性能领域组件,已支持算法的平均吞吐率相比主流框架提升120。
  3)支持大规模分式训练:通过将强化学习算法分割成多个数据流片段(FragmentedDataflowGraphs),并映射到异构设备上高效执行,对比业界主流框架实现了35倍的性能提升。昇思MindSpore使能大模型历程
  随着AI技术的发展,预训练大模型成为世界各科技强国竞争的焦点。预训练大模型率先在自然语言处理领域取得突破性的进展,并迅速拓展到涉及图像、视频、图形、语言等跨媒体推理的各类任务和大量的商业应用之中,展现了巨大的发展潜力。在过去的几年,产业界基于昇思MindSpore先后发布了一系列有影响力的大模型,下图为这些大模型的训练时间轴。
  图4昇思MindSpore大模型历程
  上图模型结构涉及TransformerEncoder、TransformerDecoder、MOE、乃至Clip与Diffusion,均基于昇思MindSporeAI框架训练。
  昇思MindSpore具备丰富的并行能力,能轻松完成4096卡集群、万亿参数规模的训练任务,因此支撑了国内多个领域首发大模型的训练,这些大模型涉及知识问答、知识检索、知识推理、阅读理解、文本视觉语音多模态、生物制药、遥感、代码生成等。大模型的底座昇思MindSpore的分布式并行能力
  在梳理完ChatGPT的技术方案和昇思MindSpore的大模型历程之后,我们再深入展开昇思MindSporeAI框架支撑一众大模型的核心分布式并行能力。
  分布式训练
  昇思MindSpore支持当前主流的分布式训练范式并开发了一套自动混合并行解决方案,提供以下关键技术:
  1)数据切片预处理:对训练数据进行任意维度切片后再导入到设备进行训练;
  2)算子级并行:对正向网络中的每个算子都独立建模,每个算子可以拥有不同的切分策略;
  3)优化器并行:将数据并行的参数副本切分到多个设备上,以节省内存占用;
  4)Pipeline并行:将神经网络中的计算图切分成多个阶段(Stage),再把阶段映射到不同的设备上,使得不同设备去计算神经网络的不同部分;
  5)MOE并行:为每个专家分配专门的计算任务,不同的专家可以托管在不同的设备上;
  6)多副本并行:在一个迭代步骤中,将一个训练batch拆分成多个microbatch,将模型并行通信与计算进行并发;
  7)异构并行:将算子分配到异构硬件上执行,充分利用硬件资源,提升整体训练吞吐量;
  8)正向重计算:在正向计算时,不保存占用大量内存的中间输出结果,而是保存占用少量内存的输入;而在反向计算时,根据输入重新计算正向输出,从而大大削减正向计算累积的内存峰值;
  9)全局内存复用:对计算图进行静态编译寻优得到最优内存复用策略;
  相较于业界的深度学习框架或分布式并行框架,昇思MindSpore在分布式关键技术上,支持能力范围广、自动化程度高、易用性好,具备如下优势:
  1)支持的模型类型更丰富(Transformer、超分图像、推荐等),通用性更强,而像业界Megatron框架则是面向Transformer定制的框架;
  2)相同算力和网络下,丰富的并行策略可实现更大的计算通信比,性能更优(相同硬件平台(V100、A100),性能超越Megatron15);
  3)并行策略丰富,无需手动切分,大模型开发和调优效率优于业界;
  分布式推理
  相较于训练,推理对计算性能的要求更高。如何在集群上实现高效快速的大模型推理,是目前各种框架研究的一个重点和难点。为了解决上述问题,昇思MindSpore提出了分布式推理增量推理的解决方案,使用数据并行、模型并行、流水并行等多维度混合并在大集群上面进行推理。此外,由于TransformerDecoder类自回归语言模型,在传统的推理模式下存在很多重复计算,昇思MindSpore提供的增量推理能力能够省掉这些重复计算,增强推理效率。
  图5增量推理流程图
  如上图所示,第一阶段将使用完整输入推理,保存当前字(词)对应的向量。在第二阶段,输入仅为上一步推理得到的字(词),然后将本步推理得到的向量与保存下来的前序向量拼接,作为本步推理的完整向量,得到本步的输出字(词)。重复以上两个阶段。极简易用的大模型训练大模型套件
  在现有的大模型开发过程中,用户经常会发现SOTA基础模型代码非模块化从而影响进一步的创新开发。不仅如此,用户在模型实现中,经常找不到对应的SOTA模型以及相应的下游任务,从而加长了开发周期,影响论文或项目的进度。为了解决这些痛点,基于昇思MindSpore的大模型套件MindSporeTransformers应声而出。
  MindSporeTransformers是基于昇思MindSpore的深度学习大模型开发套件,其目标是构建一个大模型训练、微调、评估、推理、部署的全流程开发套件。套件覆盖了CV、NLP等AIGC的热门领域,提供模型生命周期中的全流程快速开发能力,支持开箱即用,并具有四个特点:MindSporeTransformers中提供了非常丰富的预置模型,包含了当下典型的预训练大模型(Bert、T5、VIT等),涵盖当下CV、NLP等AIGC的热门领域。同时,套件也包含了丰富的下游微调任务,精度与SOTA基本持平。MindSporeTransformers中提供了统一的开发范式。套件开放了Trainer、pipeline等特性接口,实现模块化、配置化的开发,大大提高典型模型(尤其是基于transformer结构的网络)的开发效率。模型部署方面,套件支持昇腾AI基础软硬件平台,提供了一键云上部署接口。MindSporeTransformers提供了统一的对外接口。在现有版本中,套件和业界流行的Huggingface接口保持一致,用户可以一键切换,从而极大地降低代码迁移的成本。MindSporeTransformers套件天然包含昇思MindSporeAI框架自身优势,包含多维度并行(模型并行、流水线并行、优化器并行、多副本并行等)、图算融合等能力,可以在模型训练时有效地提升内存使用效率和速度,帮助用户快速训练百亿、千亿甚至是万亿级别的模型。
  图6MindSporeTransformers架构图
  通过以上技术拆解和案例可以看出,昇思MindSpore发展至今,已经具备了支持大模型开发所需的各项核心技术,同时提供了一整套高效、易用的大模型使能套件,形成了端到端的使能大模型开发能力。昇思MindSporeAI框架为助力大模型创新、繁荣AI产业生态铺就了一条信心之路。
  图7昇思MindSpore原生支持大模型的能力优势
  欢迎使用昇思MindSporeAI框架:
  https:mindspore。cn
  https:gitee。commindsporemindformers
  引用:
  〔1〕ZengW,RenX,SuT,etal。LargescaleAutoregressivePretrainedChineseLanguageModelswithAutoparallelComputation〔J〕。arXivpreprintarXiv:2104。12369
  〔2〕https:yaofu。notion。siteGPT35360081d91ec245f29029d37b54573756
  〔3〕https:huggingface。coblogrlhf
  〔4〕https:aijishu。coma1060000000222564
  〔5〕https:gitee。commindsporemindformerswikisE789B9E680A7E8AEBEE8AEA1E69687E6A1A3
投诉 评论

58岁男子血糖从12。7降到5。1,分享不吃药,做好3件事或糖尿病是生活中最常见的慢性疾病之一,对身体健康造成的危害非常巨大,严重时可能导致寿命大幅缩短,而且目前对于糖尿病没有理想治愈的手段。糖尿病患者每天最关心的一个问题就是血糖……胖虎受伤缺席!鹈鹕14分大胜公牛今天早上公牛对阵鹈鹕,鹈鹕主场大胜公牛。鹈鹕大将锡安因伤缺席,英格拉姆稳定输出,麦科勒姆和两位小将爆发了带领鹈鹕以14分的分差大胜公牛。CJ本场最佳,16投8中砍下……大蒜,是肺结节加速剂吗?医生夏季养肺,6果列入饮食清单而且通过肺部功能能够代谢出体内的二氧化碳以及废物,维持人体正常功能运转,对身体健康而言非常重要。爱乐养生而现在生活中也是由于环境污染比较严重,再加上支撑饮食和作息的不规律……秋易燥,少食辛,建议常吃2酸3碱,清热润燥不上火时光飞逝,转眼间十月将至,我们已进入到深秋时节。随着天气渐凉,人们的身体状态会有或多或少的变化,时常也会出现一些不适情况,这就是深秋常见的秋燥现象。针对于此,我们要对自身……诺基亚5G概念机,采用N9外观设计,足以吸引消费者作为手机行业中曾经的世界巨头,诺基亚手机的落败属实让人感到意外,并且时隔多年,依旧没有重回巅峰的状态,品牌影响力甚至不如一个小众品牌。但是不可否认的是,无论是功能机时代,还是智……罗齐尔31分黄蜂送马刺4连败!穆雷25910NBA常规赛3月6日继续进行,最终,黄蜂以123117战胜马刺,马刺遭遇4连败!首节开始,双方上来就你一球我一球连续互有得分,一路打到3030平手!随后双方都连续打铁,黄……恐龙灭亡时发生了什么?墨西哥深海岩石样本揭示地球上的一场毁灭一只龙、两只龙、三只龙。。。。。。从人类发现第一块恐龙化石以后,就对这个体型巨大的生物充满了好奇。恐龙化石随之对它展开了一系列研究,其中,研究的重点就是恐龙是为何灭……化妆师不允许你不知道这几个宝藏化妆品合集DW粉底液这款粉底液适合油皮,当时DW的风很大,就跟风买了试试,果然超好用!服帖不容易脱妆,遮瑕也很不错油皮的姐妹可以试试傲丽粉霜Coverm……你好BOE完美收官屏之物联肇启智慧美好未来新篇章12月28日,BOE(京东方)你好BOEOSPACE美好生活研究所重磅亮相北京三里屯太古里这一顶级时尚潮流地标,伴随着浓浓的跨年气氛,为这个极不平凡的2022年划上了精彩的句号……如何加速大模型开发?技术方案拆解来了昇思MindSpore技随着ChatGPT爆火出圈,狂飙之势从22年底持续到23年初,与以往的技术突破不同的是,此次的大模型不仅被技术界关注,而且备受投资界、产业界和大众消费者的追捧,使它成为历史上最……CES展看点放送8K显示时代的正选,海信用激光显示书写彩电未2022年美国CES展会,在美国一天新冠感染病例破百万的记录下,依然在线举行。但是,新冠疫情的持续,却也带火了大屏的热情。这届展会,依然是视听大屏站主角的一场宅经济盛会。……如何洗深色衣服不褪色我们每个人都有一件我们离不开的衣服衬托身材的黑色裤子、令人难忘的音乐会上的深色T恤或带有团队标志的黑色帽子,而这也恰好是一个自我宣称幸运符。无论你的迷信多么强烈,你最珍爱……
新的一年,感恩所有温暖的相遇亚冠仅剩1名额,泰山队和广州队成中超罪人,而临阵退缩的却无责诗不会心怀希望,处处是阳光大力实施城市更新行动!广州这份通知释放重磅信号越混越差的4位明星,看你喜欢的有几位?师宗五龙壮乡守住金山银山以生态旅游带动乡村振兴经常大便不成形,频繁放屁,或许与4个原因有关,需重视霍思燕与闺蜜逛珠宝店,额头肿胀不自然,网友质疑医美过度限制俄罗斯油价!G7怎么限?俄罗斯怎么反?或许哥俩说了都不算泰久旅游服务项目大连熊洞街如何占领人流量高地?徐州房价跌落神坛,徐州房价四连跌,徐州楼市分析第45期双旦购机,内行人只推荐这三款,价格合适配置强悍路怒症产生的原因和对策羊水破了准妈妈需要尽快去医院吗?社会精神小伙硬气语录摘抄如何提升笔记本电脑生产力?进击的新势力95后短视频冲浪与消费图鉴我真的很棒感恩中秋节学校领导讲话2020年海底两万里读书笔记800字如果查电脑的微信聊天记录(微信聊天记录去哪里查)宝宝说话晚?5个引导技巧,宝宝学说话快一倍,迎头赶上并不难!年味是要寻的高中优秀作文圣诞节圣诞节,在何方?

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找美丽时装彩妆资讯历史明星乐活安卓数码常识驾车健康苹果问答网络发型电视车载室内电影游戏科学音乐整形