纠纷奇闻社交美文家庭
投稿投诉
家庭城市
爱好生活
创业男女
能力餐饮
美文职业
心理周易
母婴奇趣
两性技能
社交传统
新闻范文
工作个人
思考社会
作文职场
家居中考
兴趣安全
解密魅力
奇闻笑话
写作笔记
阅读企业
饮食时事
纠纷案例
初中历史
说说童话
乐趣治疗

算法落地探究真的能让运维更智能吗?

5月17日 皇极城投稿
  本文根据王鹏老师在2022Gdevops全球敏捷运维峰会广州站现场演讲内容整理而成。王鹏教授也是擎创科技的运维专家团队成员之一。
  分享概要
  一、智能运维现状
  二、问题分析
  三、探索工作
  四、总结
  一、智能运维现状
  大家对智能问答系统都很熟悉,目前许多APP都有智能问答系统后台是一个机器人,而不是真正的人回答问题。当前众多研究者在对智能问答系统进行研究,提出了许多算法和技术,GoogleScholar上关于智能问答系统的文章有30多万不到35万篇。但实际上,智能问答系统远没有达到真正的智能,回答的结果时常是答非所问,那么就会造成海量的算法和技术与差强人意的效果之间的偏差。
  智能运维到现在大概有六七年的发展历程,在此期间智能运维算法一直在快速地发展,包括对性能指标的时间序列的数据、对日志告警的数据以及近两年对CMDB、调用链等图的数据。算法的类型和效果也在不断提升,包括指标异常检测、容量预测、日志聚类、日志日常检测、告警中的场景挖掘、根因定位等。接下来的内容主要涉及指标异常检测、日志智能分析、告警数据分析三个类别。
  指标异常检测
  指标异常检测是一个落地最多的智能运维场景,因为它数据容易准备,效果容易验证,准确率、召回率的指标容易量化。目前许多公司对大规模指标进行异常检测,比如1万个指标、10万个指标。
  针对指标的异常检测,研究者提出了大量的异常检测算法,比如单指标、多指标检测,基于统计、基于深度学习的模型,无监督、有监督的算法,以及近两年许多公司和机构开源了异常检测数据集和算法。但是,往往在落地的场景中应用的效果不尽如人意,主要问题如下:
  1)误报太多
  设置阈值严,为了消除漏报,往往造成大量的误报
  异常数量多,运维人员难以处理,不得不忽略所有的指标异常告警
  2)模型参数难以设置
  不同类型的指标,往往适合不同类型的模型和参数
  无法单独设置模型和参数,进行分类则效果不佳
  3)缺乏有效的反馈和修正机制缺乏问题发现能力,难以对指标异常进行类型、主机、时间段、业务等方面的展示和分析,难以对异常进行交互式探索,因此无法判断异常是否应该报缺乏基于反馈的模型调整能力,难以应对这个不是我们认为的异常,后续检测中不要再报了的个性化需求
  2、日志智能分析
  目前,大量企业上线了日志实时聚类和基于日志的异常检测,主要解决了人工难以处理海量日志数据、基于规则的方法维护性差的问题。典型场景对海量日志做实时聚类,再做基于日志的异常检测,比如变量取值异常、模板数量异常、语义异常等,但日志智能分析实践同样存在若干问题。
  1)模板质量难以有效评估日志聚类完之后,在将其聚到若干模板中时,模板质量难以有效评估,尤其是在实施过程或上线过程中,模板数量大,逐个人工判断耗时太长,可能运维人员没有充足的时间逐个人工判断不同的应用目标对模板的要求不同,可能做某类型的日志异常检测时该模板不应该被泛化,但做另外一件事情可能就需要泛化,模板是否需要被泛化是一件非常主观的事情
  2)缺乏有效的反馈和修正机制缺乏基于反馈的模板调整能力,难以应对这种模板应该根据这个变量拆分、这个变量应该被泛化之类的个性化需求运维专家和算法人员的沟通难,运维专家与算法团队之间隔着实施团队,反馈链条长,且不是直接反馈
  3、告警数据分析
  近年来告警相关项目快速增长,每天有成千上万的告警,由于告警数量太多,运维人员难以有效处理和派单,因此通过算法进行告警压缩、场景挖掘、根因定位越来越受重视。在告警智能处理中存在两个典型问题:
  1)告警模板提取效果不佳告警数据更为灵活多变,不同运维人员的告警描述方式存在差异包含大量中文,告警模板提取效果不尽如人意
  2)根因定位效果欠佳CMDB质量有待提高,可能存在系统变更但CMDB没有及时变更到最新场景的情况可能真正的故障原因不存在于告警数据中,无法进行根因定位标签数据缺失,一方面故障数量少,另一方面企业由于涉及隐私等原因不愿意给予标签
  二、问题分析
  我们在前面对于智能运维的现状和具体的类别及相关问题进行了梳理,那么接下来是我个人的一些思考。我认为算法落地效果不尽如人意有两个深层次原因:
  1、算法需要不断迭代优化
  我们时常认为智能运维的算法是开箱即用,但其实效果远不是如此,算法需要不断迭代优化。算法最开始的时候一般是一个通用算法,到具体在企业部署之后,它一定会成为一个定制化的算法。因为对于每一个具体的项目,算法需要和运维数据、业务特点、运维目标等深度融合,需要不断进行打磨和适配。
  1)算法本身:普遍缺乏反馈修正能力
  对于这个异常我不需要,后续检测中不要再报了、这两个模板应该合并掉,变量不能被泛化之类的反馈,当前的模型尤其是深度学习模型很难有效吸收,其中主要是两种能力的缺失:发现问题的能力。比如说我们一天报2000个异常,能否有半小时或一小时的时间将这2000个异常过一遍,判断其中哪些异常应该报,哪些不应该报,目前很少有人能够在短时间内做到这点。模型自动修正能力。比如给了很多这个要报,那个不要报之类的很多反馈,模型是否能够很好地适应,因为这个适应其实是个百分百的适应,有的可能一个都不要报,有些是一定要报出来,这种对于模型也是比较难的。
  2)实施过程:运维专家和算法人员的脱离
  对于算法而言,最重要的是标签数据和对算法结果的快速反馈,但是相关领域的专家可能熟悉机理却不熟悉算法,由于沟通链条长、沟通成本高,运维专家和算法人员在一定程度上是脱离的。
  2、系统故障本身是超低频事件
  系统故障本身是一个超低频的事件,严重的故障基本可能只出现一次,并且会被快速解决,不可能再出现。而算法需要基于历史数据学规律进行优化提升,如果之前发现的故障后来很可能不再出现了,那么这其实是一个悖论。
  我们前面也有提到完全依靠算法来实现自动化运维,至少在目前阶段我觉得其实是不现实的,我们仅仅做异常检测、日期类都没有做得非常的好,那么我们相信现在算法能达到自动化运维吗?我觉得更现实的目标是将算法作为一种让运维更高效的辅助手段。
  1)数据量太大,用算法来提高效率。
  对每天几百TB的日志自动提取模板和变量
  对上万的指标自动进行异常检测
  2)在某些场景下,用算法来提高精度。
  因为在因果推断里有些链条比较长,需要考虑的方面比较多,人的思考其实并没有那么发达,所以算法在这些方面是可以帮助提高精度的。
  3)作为一种定位故障过程的辅助手段,帮助运维人员灵活快速地查询和探索数据。
  这是一种非常重要的能力,因为在很多项目里,算法结果的分析工作非常劳累辛苦。
  4)算法作为一种积累知识的方式,构建知识图谱。
  三、探索工作
  1、如何高效地支持反馈
  如果只让运维专家给10个异常10个模板打标签,应该怎么做?
  1)快速发现问题的能力
  首先可以通过异常置信度、日志模板置信度从2000个异常中选择10个异常,然后通过异常立方体更加系统的能力对异常进行交互式探索,使异常可视化。
  2)模型自动修正的能力
  当我们希望将一个Excel或CSV的记录人的电话、传真信息的表格变成结构化数据进行处理时,我们可以通过算法进行自动转化。通过我们给的少量样本,算法能够自动识别我们的目标,从而达成这个目标,这就是基于样例的算法。基于样例的算法在智能运维领域中同样大有可为,另外还有一种方法是小样本算法,通过给定少量标签或案例快速达成目标是我们正在进行的尝试。
  2、作为辅助手段的数据探索技术
  1)基于自然语言的问答系统
  人可以问类似以下自然语言的问题,能够自动转成SQL并出结果,具有高易用性,便于运维人员进行个性化数据探索。在2019112811:25发生突增异常的指标有哪些?A应用发生异常次数最多的主机是哪台?B应用告警次数最多的告警种类是什么?最近一周内存使用率最高的十台主机是哪些?最近十天发生异常次数最多的应用是什么?最近一周内失败率最高的应用是哪个?
  2)基于时间关联的复杂查询
  用于事件关联的快速发现,如下图所示的HDFS日志,我们想查询其中三个模板是否经常一起出现,PLQ查询能够更加简洁高效,SQL查询则会更加复杂。
  3)基于拖拽式的分析流程实现
  便于领域专家结合不同分析算法搭建分析流程
  融合了异常检测、聚类、场景挖掘等多种算法
  支持不同语言开发的算法
  支持输入数据格式的智能学习
  四、总结
  需要有持续优化的能力。不妨将算法作为一种运维的辅助手段,使运维人员也能灵活地分析数据,在运维过程中使其变得更高效。

算法落地探究真的能让运维更智能吗?本文根据王鹏老师在2022Gdevops全球敏捷运维峰会广州站现场演讲内容整理而成。王鹏教授也是擎创科技的运维专家团队成员之一。分享概要一、智能运维现状二、问……在这里,靠镜子一年发电3。9亿度!创造经济效益4亿元!怎么做今天,央视财经大型融媒体活动《百年百城》来到了丝路重镇甘肃敦煌。作为河西走廊上一颗耀眼的明珠,敦煌除了有莫高窟、鸣沙山月牙泉、阳关玉门关等历史遗迹和自然景观外,还因地制宜,发展……春光梅景醉游人连片梅花盛开如海,与绿树相映成趣。一名游客伴梅起舞。梅景引得众多市民前来观赏、拍照。寒风中,朵朵粉梅带来春意。梅花树下,游客谈笑风生。枝头梅花盛开……打卡潍坊十笏园,免票政策吸引大批游客纷至沓来周末的十笏园博物馆,游客比肩,自实行免票政策以来,十笏园一时成为游客打卡热门景区。十笏园,号称鲁东明珠,虽处闹市区,但不少市民却因为一张门票敬而远之。免票政策给市民带来了……衬衫阔腿裤好看在哪?看完这些搭配示范,我又学到了!四季都很好穿的阔腿裤,到了春天怎么穿好看?相信衬衫阔腿裤这个组合最受欢迎,不仅能打造不同的风格造型,而且松弛自在,还能秒变瘦子和大长腿,简单又好看。这一期,我们一起来看看时髦精……子宫内膜薄的你需要知道的!怎么吃才好?除药物治疗外,食疗也是不可忽视的。豆类:黄豆、豆制品、核桃、腰果、栗子、杏仁、松子等。谷类:全麦面粉、大麦、小麦胚芽、糙米等。薯类:红薯、土豆、山药、芋头等。……DALI千年古刹佛图寺天空如梦境般飘渺深远,山脉如波涛般连绵起伏,这里是一个神话开始的地方,这片佛光普照的圣迹,有着传奇动人的故事,缤纷的洱海水是蛟龙变换的脸颊,蜿蜒的山峰,是英雄刚毅的脊梁,这里有……低端局上分很困难?拿到下面的打野,成为王者都不是问题低端局上分很困难?拿到下面的打野,成为王者都不是问题现在有很多玩家在游戏的时候都喜欢去打小号,因为在他们的眼里觉得大号已经到了一种想要上非常难的情况,所以就只能够利用小号……国庆假期前3天接待游客近6万人,安徽黄山为何仍是热门打卡地?近日,黄山风景区万里晴空,秋意正浓,青翠的黄山松和五彩的阔叶林交织相间。绚烂多彩的美景,吸引了各地游客纷至沓来。今年十一假期,安徽省旅游市场最火热的地方,依然是黄山。用心……趁着内存条大降价,直接一步到位,金百达6400MHz内存条来显卡和CPU处理器都在疯狂涨价,准备向奢侈品方向发展,让普通的DIY用户很受伤。2019年也曾出现过类似的涨价风波,当时我还很有信心,认为硬件不会永远涨下去,它们迟早都会降价的……带1000元人民币去缅甸,能享受什么服务?了解后,原来是这样可能是因为疫情的影响,也有可能是其他因素的促使,现如今越来越多的小伙伴想要出去走走,带着自己的亲人或者是恋人一同来到异国他乡,欣赏国内欣赏不到的风景,了解到异国风情。只是……春天给人美好印象的男孩儿名字集锦2022年生男宝宝叫啥名字好?或许这是许多父母所思考的问题,因为很多父母都希望赋予孩子一个好名,那么给孩子取名字的时候,都会偏向于给名字赋予独特含义,让名字显得很有寓意。下面就……
湖南省智能家居产业协会与尚视照明共讨智慧照明新方向3月30日,湖南省智能家居产业协会副秘书长李文韬,携团队赴尚视照明设计有限公司走访交流,尚视照明SSL创始人王锋和设计师马超帅接待。座谈会上,王锋对协会的到来表示欢迎,并……人类8大世界超级工程玛雅人建天文台观测金星【人类8大世界超级工程】野心勃勃的人类曾为了达到自己各种各样的目的,秘密实施过许多耸人听闻的超级工程,这些超级工程无一不拥有毁灭世界的巨大力量,但最终,这些惊人项目因各种原因而……沙棘的功效与作用沙棘是什么简介沙棘的功效与作用:沙棘是什么简介沙棘是什么?沙棘,也叫酸棘。在秋冬季节,胡颓子科植物沙棘的果实成熟或冻硬时采收,除去杂质,干燥,或蒸后干燥,即可入药。它含有多种生理活性物……法国女游客泰国森林迷路泰国警方火速救援当晚平安脱困据泰媒消息,当地时间3月30日12:44,一名29岁法国女游客Ms。Claire通过拨打泰国报警电话191向警方求助,称她在沙敦府KohAdang岛的树林中迷路,位置靠近达鲁国……古代春宫图竟有三个用途不知道的来了解(图)古代春宫图三个用途盘点:不知道了吧,古代春宫图竟然还有这三个用途!说起春宫图,多数人羞羞的特别是女人,脸不红说明你不正常,哈哈哈哈。春宫图在古代起源很早……这村庄村民竟在地下住了4000年(图文)这村庄村民竟在地下住了4000年。在中国,有个令国内外游人叹为观止的民间建筑奇迹,那就是见树不见村,见村不见房,闻声不见人的地坑院。它,就位于河南省陕县……全国赛艇冠军赛收官陕西队斩获3金3银2铜2月18日,全国赛艇秋季冠军赛在湖北鄂州举行。陕西赛艇队表现抢眼,在本次比赛中斩获3金3银2铜。全国赛艇秋季冠军赛共有国家赛艇队以及来自天津、河北、吉林、浙江、河南、湖北……萌娃因名字难写大哭后续来了一时间一一成为了最火热的名字相信每年到开学的时候,都会出现孩子觉得自己名字难写的情况,刚上学就被自己的名字给难哭了。近段时间,一位萌娃因为自己的名字难写忍不住的大哭起来,就在刚刚孩子的妈妈再次上传了视频,……北京90后见义勇为救落水儿童不幸遇难中青报中青网记者张敏尹希宁2019年7月14日,北京门头沟永定河门城湖景区。视觉中国供图6月19日是父亲节,但在这天,32岁的周宏勃为救别人的孩子,永远离开了自己的……东体申花俱乐部未回应久事集团入主传闻巴索戈回归需协商直播吧12月8日讯据《东方体育日报》报道,申花俱乐部尚未对久事集团入主申花的消息进行回应,而外援巴索戈能否在本赛季回归球队,当前还要进一步地协商。昨天(6日)下午不断发酵……孩子名中有这个字会一辈子受穷(不喜误入)孩子名中有这个字会一辈子受穷,众所周知,好名字给人带来一生好运。好名字可以帮助人发达致富,同样的,也有的名字能够损人一生运势,其中包括了财运。给孩子起名是一件大事,因为名字关系……小米众筹黑科技上线!精致人士拒绝做鼻涕虫,可随身携带小米有品众筹向来都是推出一出一些新鲜玩意,我没想到他这次关注到了一些特殊人群。那就是恨不得没有鼻子的敏感人士!一直以来,我的鼻子都会特别敏感,就连扫地机器人在运行的时候也……
友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找美丽时装彩妆资讯历史明星乐活安卓数码常识驾车健康苹果问答网络发型电视车载室内电影游戏科学音乐整形