GPT3的工作原理可视化和动画

美丽时装
彩妆资讯
历史明星
乐活安卓
数码常识
驾车健康
苹果问答
网络发型
电视车载
室内电影
游戏科学
音乐整形

　　HowGPT3WorksVisualizationsandAnimationsGPT3的工作原理可视化和动画
　　JayAlammar发表的一篇blog，我用机器翻译转给大家看看，关于最火热的GPT3的工作原理。
　　原文地址：
　　https：jalammar。github。iohowgpt3worksvisualizationsanimations
　　ThetechworldisabuzzwithGPT3hype。Massivelanguagemodels（likeGPT3）arestartingtosurpriseuswiththeirabilities。Whilenotyetcompletelyreliableformostbusinessestoputinfrontoftheircustomers，thesemodelsareshowingsparksofclevernessthataresuretoacceleratethemarchofautomationandthepossibilitiesofintelligentcomputersystems。Let’sremovetheauraofmysteryaroundGPT3andlearnhowit’strainedandhowitworks。
　　科技界充斥着GPT3炒作。大规模语言模型（如GPT3）的能力开始让我们大吃一惊。虽然对于大多数企业来说，展示在客户面前的这些模型还不是完全可靠，但这些模型正在显示出聪明的火花，这些火花肯定会加速自动化的进程和智能计算机系统的可能性。让我们揭开GPT3的神秘面纱，了解它的训练方式和工作原理。
　　Atrainedlanguagemodelgeneratestext。
　　经过训练的语言模型生成文本。
　　Wecanoptionallypassitsometextasinput，whichinfluencesitsoutput。
　　我们可以选择将一些文本作为输入传递给它，这会影响它的输出。
　　Theoutputisgeneratedfromwhatthemodellearnedduringitstrainingperiodwhereitscannedvastamountsoftext。
　　输出是根据模型在扫描大量文本的训练期间学习的内容生成的。
　　Trainingistheprocessofexposingthemodeltolotsoftext。Thatprocesshasbeencompleted。Alltheexperimentsyouseenowarefromthatonetrainedmodel。Itwasestimatedtocost355GPUyearsandcost4。6m。
　　训练是将模型暴露于大量文本的过程。该过程已经完成。你现在看到的所有实验都来自那个训练有素的模型。估计耗资355GPU年，耗资460万美元。
　　Thedatasetof300billiontokensoftextisusedtogeneratetrainingexamplesforthemodel。Forexample，thesearethreetrainingexamplesgeneratedfromtheonesentenceatthetop。
　　3000亿个文本标记的数据集用于生成模型的训练示例。例如，这些是从顶部的一个句子生成的三个训练示例。
　　Youcanseehowyoucanslideawindowacrossallthetextandmakelotsofexamples。
　　您可以看到如何在所有文本上滑动一个窗口并提供大量示例。
　　Themodelispresentedwithanexample。Weonlyshowitthefeaturesandaskittopredictthenextword。
　　该模型提供了一个示例。我们只向它展示特征并要求它预测下一个单词。
　　Themodel’spredictionwillbewrong。Wecalculatetheerrorinitspredictionandupdatethemodelsonexttimeitmakesabetterprediction。
　　模型的预测将是错误的。我们计算其预测中的误差并更新模型，以便下次做出更好的预测。
　　Repeatmillionsoftimes重复数百万次
　　Nowlet’slookatthesesamestepswithabitmoredetail。
　　现在让我们更详细地看一下这些相同的步骤。
　　GPT3actuallygeneratesoutputonetokenatatime（let’sassumeatokenisawordfornow）。
　　GPT3实际上一次生成一个输出标记（让我们假设一个标记现在是一个词）。
　　Pleasenote：ThisisadescriptionofhowGPT3worksandnotadiscussionofwhatisnovelaboutit（whichismainlytheridiculouslylargescale）。Thearchitectureisatransformerdecodermodelbasedonthispaperhttps：arxiv。orgpdf1801。10198。pdf
　　请注意：这是对GPT3工作原理的描述，而不是讨论它的新颖之处（主要是荒谬的大规模）。该架构是基于本文https：arxiv。orgpdf1801。10198。pdf的transformer解码器模型
　　GPT3isMASSIVE。Itencodeswhatitlearnsfromtrainingin175billionnumbers（calledparameters）。Thesenumbersareusedtocalculatewhichtokentogenerateateachrun。
　　GPT3是巨大的。它用1750亿个数字（称为参数）对从训练中学到的内容进行编码。这些数字用于计算每次运行时要生成的令牌。
　　Theuntrainedmodelstartswithrandomparameters。Trainingfindsvaluesthatleadtobetterpredictions。
　　未经训练的模型以随机参数开始。训练会找到导致更好预测的值。
　　Thesenumbersarepartofhundredsofmatricesinsidethemodel。Predictionismostlyalotofmatrixmultiplication。
　　这些数字是模型中数百个矩阵的一部分。预测主要是很多矩阵乘法。
　　InmyIntrotoAIonYouTube，IshowedasimpleMLmodelwithoneparameter。Agoodstarttounpackthis175Bmonstrosity。
　　在我在YouTube上的人工智能介绍中，我展示了一个带有一个参数的简单ML模型。打开这个175B怪物的包装是一个好的开始。
　　Toshedlightonhowtheseparametersaredistributedandused，we’llneedtoopenthemodelandlookinside。
　　为了阐明这些参数的分布和使用方式，我们需要打开模型并查看内部。
　　GPT3is2048tokenswide。Thatisitscontextwindow。Thatmeansithas2048tracksalongwhichtokensareprocessed。
　　GPT3是2048个令牌宽。那就是它的上下文窗口。这意味着它有2048个处理令牌的轨道。
　　Let’sfollowthepurpletrack。HowdoesasystemprocessthewordroboticsandproduceA？
　　让我们跟随紫色轨道。系统如何处理robotics这个词并产生A？
　　Highlevelsteps：高级步骤：Convertthewordtoavector（listofnumbers）representingtheword
　　将单词转换为表示单词的向量（数字列表）Computeprediction计算预测Convertresultingvectortoword将生成的向量转换为单词
　　TheimportantcalculationsoftheGPT3occurinsideitsstackof96transformerdecoderlayers。
　　GPT3的重要计算发生在其96个转换器解码器层的堆栈中。
　　Seealltheselayers？Thisisthedepthindeeplearning。
　　看到所有这些图层了吗？这就是深度学习中的深度。
　　Eachoftheselayershasitsown1。8Bparametertomakeitscalculations。Thatiswherethemagichappens。Thisisahighlevelviewofthatprocess：
　　这些层中的每一层都有自己的1。8B参数来进行计算。这就是魔法发生的地方。这是该过程的高级视图：
　　YoucanseeadetailedexplanationofeverythinginsidethedecoderinmyblogpostTheIllustratedGPT2。
　　您可以在我的博文TheIllustratedGPT2中看到解码器内部所有内容的详细解释。
　　ThedifferencewithGPT3isthealternatingdenseandsparseselfattentionlayers。
　　与GPT3的不同之处在于密集和稀疏自注意力层的交替。
　　ThisisanXrayofaninputandresponse（Okayhuman）withinGPT3。Noticehoweverytokenflowsthroughtheentirelayerstack。Wedon’tcareabouttheoutputofthefirstwords。Whentheinputisdone，westartcaringabouttheoutput。Wefeedeverywordbackintothemodel。
　　这是GPT3中输入和响应（Okayhuman）的X射线图。注意每个令牌如何流经整个层堆栈。我们不关心第一个单词的输出。输入完成后，我们开始关心输出。我们将每个词反馈回模型。
　　IntheReactcodegenerationexample，thedescriptionwouldbetheinputprompt（ingreen），inadditiontoacoupleofexamplesofdescriptioncode，Ibelieve。Andthereactcodewouldbegeneratedlikethepinktokensheretokenaftertoken。
　　在Reactcodegenerationexample中，描述将是输入提示（绿色），此外还有几个descriptioncode示例，我相信。反应代码将像这里的粉红色令牌一样生成一个又一个令牌。
　　Myassumptionisthattheprimingexamplesandthedescriptionareappendedasinput，withspecifictokensseparatingexamplesandtheresults。Thenfedintothemodel。
　　我的假设是启动示例和描述作为输入附加，并使用特定标记分隔示例和结果。然后输入到模型中。
　　It’simpressivethatthisworkslikethis。BecauseyoujustwaituntilfinetuningisrolledoutfortheGPT3。Thepossibilitieswillbeevenmoreamazing。
　　令人印象深刻的是，它是这样工作的。因为您只需等到GPT3推出微调。可能性将更加惊人。
　　Finetuningactuallyupdatesthemodel’sweightstomakethemodelbetteratacertaintask。
　　微调实际上是更新模型的权重，使模型在某个任务上表现更好。
　　WrittenonJuly27，2020写于2020年7月27日

刘国梁该警惕了！日乒13岁天才横扫中国女单冠军，是张本智和妹在国乒多名主力参加WTT新加坡大满贯赛事的情况下，相对级别要第一级的WTT多哈支线赛就少了不少的关注度。国乒在这项赛事上派出的基本上都是一些国家队的二线队员，和一些潜力新星，意……百病多为痰作祟治痰必治气，痰除怪病愈人人都知道俗语人活一口气。但是，这个看不见、摸不着的气到底是什么呢？中医认为，气是人体生命活动中必不可少的原动力。养生要养气，治病要治气，健康长寿都离不开对气的保养。曾经……米国漫游录（7）漫步在丹麦风情小镇索尔万加州文图老理行沿着一号公路南下，旅途风景如画，美不胜收。有人形容说，一号公路如同一串珍珠项链，将沿路的美景串联在一起，逐一展现在游人面前。这话不假。我们刚刚感受了……河南辉县营商环境看基层市供电公司翘首以盼电亮花海随着关山景区连翘花海节的开幕，大批游客纷至沓来。为更好的服务景区，保障景区可靠供电，3月22日，国网辉县市供电公司提前介入，组织焦裕禄共产党员服务队走进关山景区，对景区内的电力……每天排便一次是必须的吗？原创二哥2014a收录于合集养生家话养生114个每天排便一次是必须的吗？当今有一种很流行的说法：面色的好坏与宿便有关系，所以每天必须排便一次，否则就可能影响到美丽的……教练出走！王楚钦和孙颖莎陷入麻烦，球迷刘国梁是罪魁祸首北京时间的8月8日，马龙保送北体大研究生的消息引起了很多球迷的关注，作为当前男乒不可缺少的一员，马龙接下来的选择将会影响到男乒的成绩。不少球迷表示，如今的国乒发展轨迹真的非常荒……火箭跟后卫小凯文波特均有意提前续约北京时间7月26日，雅虎体育消息，火箭队跟球队的先发控卫小凯文波特均有意在休赛期完成续约。22岁的小波特即将进入新秀合同的最后一年，他有资格在今年休赛期提前续约。如果不在……心态好，格局就大了作者：洞见Allergy在最低的境遇里，也能活出最高的境界。白岩松在中山大学演讲时，曾提到一个学生。学生说自己正在遭遇人生中最黑暗的时刻，简直不想活了。……我市全力以赴确保桂马圆满举办3月15日，我市召开2023桂林马拉松工作推进会。会议强调，2023桂林马拉松是桂林今年举办的第一个大型赛事活动，是一项事关全市大局的经济工程、民生工程、信心工程，是市委、市政……虎牙首个虚拟偶像亮相，模型技术得到认可，首秀热度突破百万随着科学技术的不断发展，近些年虚拟偶像不断地融入人们的日常生活当中，从早年比较火热的虚拟偶像歌手洛天依，再到近些年清华大学所推出的首个虚拟学生华智冰，虚拟歌手，虚拟主播慢慢融入……肾癌要吃哪些水果？肾癌属于常见的恶性肿瘤之一，它对肾脏的损伤是极大的，严重的还会危害到患者的生命安全。出现此病后，要及时接受治疗。在治疗的同时，饮食方面也要重视起来。正确的饮食可以促进身体的恢复……教练背大锅，CBA处理结果太荒唐，两细节暗示篮协不敢动背后大上海男篮与江苏男篮处罚的结果最终是已经公之于众，但是在这份处罚结果当中，我们可以明显地感觉到，教练员是在替俱乐部背锅。在这份处罚结果里边两大漏洞。首先通过处罚结果来看，我篮协是……

<<<<<<－>>>>>>

丰都县千年鬼国幽都如今美成重庆主城屋顶花园传说中的鬼城京都丰都县，旧称酆都城。传说中的阴曹地府，是人死后灵魂要去的地方。鬼城顾名思义，必有鬼神出没，恐怖之极。这座由重庆市辖的县城，位于重庆市下游丰都县……总有美好如期而至，天平杯随手拍第二季度榜单来了！2022年，已悄然过去一半在春生夏长的日子里我们携手并肩看春雪、踏夏浪记录工作、生活中的点点滴滴美好总是在不经然间如期而至而我们选择用镜头定……视频看病图文就医配药到家大同4家医院开设互联网医院视频看病、图文就医、配药到家，常见疾病足不出户即可解决问题，互联网医疗在大同有了新的探索。记者从市卫健委了解到，随着互联网技术的发展，互联网与医疗健康深度融合，我市大力发展互联……郎平时隔9个月再度公开亮相，容光焕发，状态甚好时隔9个月，前中国女排主教练郎平今天在杭州公开亮相。在卸下教练重任后，62岁的郎平经过一段时间调整，看起来状态不错。在杭州举行的2022全球电竞运动领袖峰会上，郎平……中国最后的枕水人家，鱼米之乡，丝绸之府乌镇乌镇镇，隶属于浙江省嘉兴市桐乡市，地处江浙沪金三角之地、杭嘉湖平原腹地。乌镇境内水系属太湖流域，河流纵横交织，京杭大运河依镇而过。乌镇原以市河为界，分为乌青二镇，河西为乌镇，属……学习强国机会永远给有准备的人12月4日，四人赛又在陡峭的悬崖边转悠了一圈！今天的四人赛于上午8时19分进行，小编依采取开局就干的模式，一分钟之内拿下两个积分局，夺得5分，但今天拿下两个积分局并不轻松……刘亦菲近照显富态，天仙称号被质疑？来看看她以前的图近日神仙姐姐刘亦菲出席活动，穿着一件深V黑西装，简洁干练。但无论是从采访视频还是路人拍摄的生图来看，身材比以前丰腴了些，脸部轮廓也圆润了许多。熟悉刘亦菲的网友们纷纷……延迟退休的赞同声越来越大，这3点利好不可忽略，你都知道多少？守护银龄世界我国的养老保险制度存在已久，按照相关的规定来看，只要个人在达到退休年龄之前，缴纳了至少15年的养老保险，不管是男是女、是企业职工还是城镇居民，从岗位上退下来之……1427亿的成果！堆叠芯片突破，曲线实现5nm后华为将吹响反华为作为全球顶级的科技企业，华为在研发投入上常年高居前列，不但在十年间累计投入研发8450亿元，在遭遇困境的2021年更是选择加大投入，以1427亿的研发投入高居全球第二……男人早上起床，做好这5件事，或有助于养生，远离疾病养生可以说是老生常谈的一个话题，有些人一辈子都在坚持养生生活，而养生是没有一个明确界限的，只要有利于健康就可以归为养生范畴。都说一日之计在于晨，养生也是如此，早晨起床后的……ETF渐成红海行业两极分化加剧，热点赛道越来越拥挤经济观察网记者周一帆近日，备受市场关注的4只中证1000ETF发行火爆，但与此同时，ETF行业整体分化亦在不断加剧。7月25日，易方达和广发基金分别宣告旗下中证1000E……人间尘缘随缘，惜缘，不攀缘文：子芊上上有人问隐士：缘分是什么？隐士答：缘是命。生命是一场浩大的缘。千百轮回中，一方一净土，一笑一尘缘。缘起缘灭，缘聚缘散，一切都是定数……

友情链接：易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网