纠纷奇闻作文社交美文家庭
家庭城市
爱好生活
创业男女
能力餐饮
美文职业
心理周易
母婴奇趣
两性技能
社交传统
新闻范文
工作个人
思考社会
作文职场
家居中考
兴趣安全
解密魅力
奇闻笑话
写作笔记
阅读企业
饮食时事
纠纷案例
初中历史
说说童话
乐趣治疗

什么是基于代码的机器学习

10月2日 霸鲸观投稿
  
  鸣叫
  分享5
  什么是基于代码的机器学习
  代码机器学习(MLonCode)不仅可以帮助公司简化其代码库和软件交付流程,而且还可以帮助组织更好地理解和管理其工程人才。
  随着IT组织的发展,其代码库的大小以及开发人员工具链的复杂性也在不断增长。工程负责人对其代码库,软件开发过程和团队状态了解的非常有限。通过将现代数据科学和机器学习技术应用于软件开发,大型企业有机会显著提高其软件交付性能和工程效率。
  在过去的几年中,许多大型公司,例如Google,Microsoft,Facebook以及类似Jetbrains等较小的公司已经与学术研究人员合作,为基于代码的机器学习奠定了基础。
  VadimMarkovtsev,机器学习工程师
  什么是基于代码的机器学习?
  代码机器学习(MLonCode)是一个新的跨学科研究领域,涉及自然语言处理,编程语言结构以及社会和历史分析,例如贡献图形和提交时间序列。MLonCode旨在从大规模的源
  16
  代码数据集中学习,从而能自动执行软件工程任务,例如辅助代码审查,代码重复数据删除,软件专业知识评估等。
  为什么MLonCode很难?
  某些MLonCode问题要求零错误率,例如与代码生成有关的错误率。自动程序修复是一个特定的示例。一个微小的单一错误预测可能会导致整个程序的编译失败。
  在其他一些情况下,错误率必须足够低。理想的模型应犯的错误应尽可能少,所以用户(软件开发人员)的信噪比仍是可承受且值得信赖的。因此,可以使用与传统静态代码分析工具相同的方式来使用该模型。最佳实践挖掘就是一个很好的例子。
  最后,绝大多数MLonCode问题是无监督的,或至多是弱监督的。手动标记数据集可能会非常昂贵,因此研究人员通常必须开发相关的启发式方法。例如,有许多相似性分组任务,
  26
  例如向相似的开发人员展示或根据专业领域帮助团队。我们在本主题中的经验在于挖掘代码格式化规则,并将其应用于修复错误,这与短绒一样,但完全不受监督。有一个相关的学术竞赛来预测格式问题,称为CodRep。
  MLonCode问题包括各种数据挖掘任务,这些任务从理论上讲可能是微不足道的,但由于规模或对细节的关注,在技术上仍然具有挑战性。示例包括代码克隆检测和类似的开发人员聚类。此类问题的解决方案在年度学术会议“采矿软件存储库”中进行了介绍。
  采矿软件存储库会议徽标。
  解决MLonCode问题时,通常用以下方式之一表示源代码:
  频率字典(加权词袋,BOW)。示例:函数内的标识符;文件中的存储库的依赖性;可以通过TFIDF加权频率等。这些表示是最简单,可伸缩性最高的。
  36
  顺序令牌流(TS),对应于源代码解析序列。该流通常通过指向相应抽象语法树节点的链接来增强。此表示形式对常规自然语言处理算法(包括序列到序列深度学习模型)很友好。
  一棵树,它自然地来自抽象语法树。在进行不可逆的简化或标识符后,我们执行各种转换。这是最强大的表示形式,也是最难使用的表示形式。以下是相关的ML模型包括各种图嵌入和门控图神经网络。
  46
  解决MLonCode问题的许多方法都基于所谓的自然假说(Hindle等):
  “从理论上讲,编程语言是复杂,灵活且功能强大的,但很多人实际上编写的程序大多是简单且相当重复的,因此它们具有有用的可预测统计属性,可以在统计语言模型中捕获并用于软件工程、任务。”
  该声明证明了大代码的有用性:分析的源代码越多,强调的统计属性越强,并且训练有素的机器学习模型所获得的指标越好。底层关系与当前最新的自然语言处理模型相同:如XLNet,ULMFiT等。类似地,通用MLonCode模型可以在下游任务中进行训练和利用。
  有这么大的代码数据集。当前的最终资源是GitHub上的开源资源库。如果克隆成千上万个Git存储库可能存在技术问题,因此需要存在下游数据集,例如
  PublicGitArchive,GHTorrent和SoftwareHeritageGraph。
  结论
  随着软件继续吞噬世界,我们正在积累数十亿行代码,由多种编程语言,框架和基础架构构建的数百万个应用程序。MLonCode不仅可以帮助公司简化其代码库和软件交付流程,
  56
搜索 投诉 评论 转载

中小型企业组织对网络安全的常见误区拥有足够资源和知识来保护您的组织免受网络威胁的员工,是您可以拥有的最佳防御手段之一。员工在线安全教育的重点之一应该包括揭穿通常引用的网络安全误区。这份名单由美国国家网络安……第260期,操作虚拟网课创业项目实操教程项目导读在项目开始之前,先来看一下这个项目的逻辑:你或许在电商平台能看到一些打包售卖网课的产品或者服务,比如某些音视频平台的付费课程,动辄几百甚至是几千的课程,而在这里只……FANUC什么是公共线COM指令FANUC什么是公共线COM指令COM功能指令在FANUCPMC中有许多功能指令,每个功能指令都有其特殊的作用及使用方法,所以多了解功能指令的原理有助于我们查看梯形……【SublimeText】SublimeText简介讲解对象:【SublimeText】SublimeText简介作者:融水公子rsgz对象:SublimeText实质:1是一个文本编辑器2同时也是……做好谷歌SEO排名获取流量的关键要素(六)内。。。“网站内链建设对谷歌自然排名有很大的帮助,最合理的内链链接建设,,,,,,,,,,能提升网站排名速度。”内链,顾名思义就是在同一网站域名下的内容页面之间的互相链……什么是基于代码的机器学习鸣叫分享5什么是基于代码的机器学习代码机器学习(MLonCode)不仅可以帮助公司简化其代码库和软件交付流程,而且还可以帮助组织更好地理解和管……下载免费的等高线地形图教程怎么下载免费的等高线地形图呢?地形数据其实很多地方都有下载,但是很多渠道都要自己去找,甚至还要去国外网站上去扒下来,既费事,又费时。在这里介绍个比较简单直接的下载免……图形化编程娱乐于教,Kittenblock实例,提问。。。跟很多学生聊过,很多学生不是不努力,只是找不到感觉。有一点不可否认,同样在一个教室上课,同样是一个老师讲授,学习效果迥然不同。关键的问题在于,带入感,我能给出的建议,就是咬咬牙……图形化编程娱乐于教,Kittenblock实例,数数。。。跟很多学生聊过,很多学生不是不努力,只是找不到感觉。有一点不可否认,同样在一个教室上课,同样是一个老师讲授,学习效果迥然不同。关键的问题在于,带入感,我能给出的建议,就是咬咬牙……C中显示实现接口的意义同学们好,之前咱们讲过C中接口的使用今天深入一下,讲讲接口的显示实现。如果一个类,实现某个接口。在VS给的提示中可以看到,有两种实现方式。如下图一……文章原创度检测工具哪个最好用?怎么操作是。。。原创度检测其实不仅是自媒体人所关注的工具,还有很多写毕业论文的大学生也会用到这个工具,现在这个工具其实已经普及了,有些读者问我文章原创度检测工具哪个最好用?怎么操作是最好的?我……钉钉APP如何办理企业健康码?这一段期间全国都受到了疫情的较大影响,于是复工的时候,都需要我们提供健康码,此外还有部分企业会要求员工办理钉钉APP内的企业健康码,那么如何办理呢?小编来给大家详细介绍一下。。……
视频压缩软件有哪些?win10如何删除本地账户qq电脑管家无法安装?如何查看到自己电脑中的所有图片?如何在电脑开始菜单添加运行电脑历史记录怎么删除如何将酷狗音乐的歌词投影到桌面上全屏播放任务栏不显示任务怎么办微星笔记本无法开启摄像头解决方法pdf不能打印,PDF文件打印不了怎么办Excel常用函数大全excel里多余的表格怎样删除?
事故与故事性感吊带裙搭配6款吊带裙优雅气质并存(图)肖战演员请就位决赛,助阵选手,挑战电音,开嗓就惊艳全场唯品会的金融生态圈特斯拉官方128GBU盘上新!完美匹配所有特斯拉车型父爱如山战国策甘茂约秦魏而攻楚文言文翻译哪些情况可引起食物中毒?如何选择为你的着装搭配好看的鞋子儿童亚健康有什么危害友盟产品总监:如何利用统计工具来做产品运营?刚从你妈那里回来

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找美丽时装彩妆资讯历史明星乐活安卓数码常识驾车健康苹果问答网络发型电视车载室内电影游戏科学音乐整形