纠纷奇闻作文社交美文家庭
聚热点
家庭城市
爱好生活
创业男女
能力餐饮
美文职业
心理周易
母婴奇趣
两性技能
社交传统
新闻范文
工作个人
思考社会
作文职场
家居中考
兴趣安全
解密魅力
奇闻笑话
写作笔记
阅读企业
饮食时事
纠纷案例
初中历史
说说童话
乐趣治疗

揭秘大数据时代秒级查询响应引擎的架构设计

1月17日 夜如影投稿
  文章目录
  基于IOTA架构的秒算引擎如何设计?
  数据处理性能提升200秒算引擎2。0如何优化?
  开放技术,拥抱开源
  近年来,大数据技术发展迅速,从过去的Hive、Spark,到现在的Flink、ClickHouse、Iceberg等,各种大数据技术推陈出新,不断演进大数据存储和引擎系统的架构,来适应大数据时代的海量数据处理需求。
  而随着技术的更迭,每次架构演进都需开发人员重构一次业务代码,既耗费了开发人员的精力,又会影响数据处理的效率。另外,在PB级数据体量下,开发人员还面临数据秒级处理与数据准确兼顾的挑战。
  为此,易观基于IOTA架构思想设计出秒算引擎架构,以解决开发人员在数据处理上遇到的难题,并提升数据处理效率与质量。那可以秒级查询响应的秒算引擎是如何设计的呢?易观CTO郭炜与易观架构师高俊,给出了详细的分析和解读。
  基于IOTA架构的秒算引擎如何设计?
  秒算引擎是一个用户行为分析的数据解决方案,包含数据接收、数据实时处理、数据冷热存储和OLAP分布式SQL查询引擎,基于下一代IOTA架构设计,可针对各种业务场景进行快速分析查询。
  基于IOTA架构,支持引擎快速升级
  整体架构上,通过SDK在设备端将采集的数据转化成统一的数据模型,然后传送到秒算引擎中。秒算引擎分为临时存储、历史存储和查询引擎,由查询引擎将临时数据和历史数据合并,并提供统一的查询接口供用户查询。
  架构以统一的数据模型贯穿始终,秒算引擎内部模块支持热插拔,可以保持前端查询引擎不变的情况下,将存储引擎个性化更换。
  数据模型采用高度抽象的主谓宾数据模型,既能规范各端数据格式,又具有通用性和扩展性,解决了传统非结构化数据在结构化存储时带来的数据质量问题。秒算引擎还可实时处理用户上报的数据并入库,并立即和历史数据一起被分析计算。
  除此之外,秒算引擎中数据表的表结构是由收到的真实数据动态生成,用户可以随时上报自己感兴趣的数据和字段,解决了过去分析系统Schema维护难的问题。还具有热数据自动Dump到磁盘、磁盘上的小文件自动Merge、支持多种数据源的数据统一查询分析等特点。
  数据处理性能提升200秒算引擎2。0如何优化?
  一、实时数据缓冲层架构升级
  秒算引擎中,历史数据都保存在Hive中,不过HDFS文件对追加写的支持不友好,需要将最近一段时间内上报的数据暂时存储在支持高吞吐、低延迟写入更新的数据库中。当数据量达到一定的阀值时,由秒算的后台线程将数据Dump到Hive中。整个过程,通过Presto的视图来保证Hive中的数据和实时缓冲层的数据同时参与分析计算。
  Kudu引擎“透明”替换,数据处理性能数倍提升
  由于单一的技术方案无法应对越来越差异化的需求场景,在秒算引擎2。0中抽象了Buffer层,以实现快速的切换新的缓冲层数据库,同时也让秒算引擎拥有更好的扩展性。秒算2。0通过采用Kudu替换Hbase,数据处理的消费性能和持久化性能分别分别提升200和300。
  二、智能虚拟分桶
  秒算引擎1。0中用户上报的事件在Hive中是以用户id和事件发生时间排序后保存的,保证同一个用户的行为数据在磁盘上是连续的,可以减小查询时的磁盘寻址时间。同一个用户的行为数据按事件发生的时间做好排序,这样在漏斗等分析场景下可以优化排序的时间,提升查询性能。
  不过,大部分产品在版本的迭代中会产生很多的事件,有些事件是核心事件,经常需要参与分析查询。还有些事件日常的分析场景使用不多,但会产生大量的事件数据,比如热图事件,如果把这类事件的数据和核心事件的数据放到一起,会影响到核心事件的查询性能。
  核心数据和行为数据隔离,提升数据分析查询性能
  因此,秒算引擎2。0中新增了智能虚拟分桶这一特性,通过智能虚拟分桶,可以将核心数据和行为数据隔离。借助这一特性,可以将核心事件放到同一个桶中,非核心的事件放到其它桶中,这样便可以提升数据分析查询的性能。
  智能虚拟分桶主要分为以下一个步骤:首先是智能生成分桶策略。其次根据分桶策略,在数据从Buffer层Dump到HDFS时,将对应的事件数据放到该事件的分桶文件中。最后是查询引擎根据查询涉及的事件读取该事件对应的HDFS文件。
  三、优化查询计划
  秒算引擎的一部分最新数据保存在Buffer中,历史数据保存在Hive中,通过使用了Presto的视图功能来同时查询Buffer和Hive中的数据,在视图里Unionall不同存储库里的表,来提供统一的查询能力。
  但在使用过程中,Unionall的两个子查询可能有不同的过滤条件,会导致Presto在处理Unionall时的执行计划和查询单表的执行计划不一样。所以Presto查询引擎针对Unionall的场景需要先将Unionall两边的数据都读出来,之后再在上层做Where条件的过滤。
  修改Presto执行计划,提升秒算查询性能
  不过,如果Unionall两边子查询的过滤条件本身一样,或者没有过滤条件,那就可以将这个视图的查询当成查询单表来处理的,即直接将Where条件下推到执行计划的Source阶段。
  基于此认知,秒算引擎2。0修改了Presto的执行计划,专门针对这一点做了优化,提升了秒算的查询性能。同时针对Presto的优化,也已经反馈给Presto社区,通过社区为更多的人提供支持和帮助。
  基于通用性、可二次开发的底层架构,秒算2。0引入了分池(Pool)查询。分池查询支持复杂长查询和短查询分开运行,保证在高并发访问与查询数据量大时,普通查询不会被一个复杂长查询阻塞。
  引入分池(Pool)查询,解决大查询困扰
  开放技术,拥抱开源
  在易观多年的技术开发过程中,开源是基本的技术价值观。在2019年8月,易观自主研发的分布式任务调度引擎DolphinScheduler通过了Apache软件基金会的投票决议,正式成为Apache孵化器项目。
  DolphinScheduler是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统,致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。易观希望通过开源的方式,让更多的人参与到大数据的生态建设中来。
  目前,秒算引擎也计划逐步开源,通过开源将秒算的能力开放给更多需要的人,为更多的企业和开发者提供简单易用的服务。同时,也为技术社区的发展添砖加瓦,履行易观数据能力平民化的使命。
投诉 评论 转载

微信没有退路微信这段时间,在内容上的改版挺频繁的,几乎每个月都有更新。作为一个内容写作者来说,又爱又恨。而这样的改版,应该还会继续。01:频繁改版能挽回作者吗……试水一年后,敖厂长为何离开西瓜独家签约B站?播放量不仅是数字,弹幕不仅是打卡,是真实的交流与互通。失踪人口回归了、爷的青春回来了。在敖厂长于7月2日更新的一期《囧的呼唤》里,B站观众带着久别重逢的心情,刷着如……鲶鱼特斯拉,搅动造车新势力自产潮文章目录造车新势力跨越自产命运线鲶鱼特斯拉,搅动供应链融入软实力,比拼智能化“赶红眼航班,办公室里支起行军床,凌晨四点在瓯江口看日出”,2018年9月2……电视购物全面式微:有主播曾月入20万,如今转战直播难糊口80的人都开始转做直播或者短视频。电视购物主播杨帆,已经在这一行干了9年。大学一毕业,他就进了某国家级购物频道。现在,他感觉到这一行观众在明显流失。“这种流失不是意……长视频进入“成年期”,腾讯视频如何做好“建设者”文章目录从学习到建设头部平台的内容布局出海方法论长视频领域似乎从来都不平静。虽然腾爱优三大头部玩家的地位稳固,行业格局很久未发生变化,但从另一视角来看,……中年新东方,困境不止漏题文章目录当新东方步入中年老学员转移阵地,新学员难迈进下半程,潜心做服务才是护城河6月26日,俞敏洪在微博上发布视频表示了对“山东陈春秀被冒名顶替上大学事……直播带货的黄金组合策略:这份新报告答的都是好问题见实昨天将企业入局直播时要留意的13个关键问题(做好直播无外乎13个问题,你看头部主播们都这样给建议),做了梳理和发布,但在今天直播带货如火如荼的情况下,大家的疑虑也在不断增加……那些打着“爱国”旗号,却给中国招黑的人,你们够了!最近,书单君被一些营销号的文章雷到了。随手在微信内搜索关键词“渴望回归中国”,满屏都是这种文章:哈萨克斯坦、印度、“浩罕国”、越南、果敢、蒙古国。。。。。。真是让人……揭秘大数据时代秒级查询响应引擎的架构设计文章目录基于IOTA架构的秒算引擎如何设计?数据处理性能提升200秒算引擎2。0如何优化?开放技术,拥抱开源近年来,大数据技术发展迅速,从过去的Hive……小米金融发公告澄清小米金融公告全文小米金融发公告澄清,小米金融在微博发布声明,称近日山东小米金融服务外包有限公司因涉嫌非法吸收公众存款被山东省淄博市警方立案侦查,小米金融与该公司没有任何关系,且2018年曾通过……iPhone12不标配充电器网友发现雷军5年前就有过设想7月6日消息,分析师郭明錤爆料称iPhone12不再赠送充电器。郭明錤在一份报告中透露,苹果将在今年晚些时候推出20W电源适配器,并停止生产5W和18W电源适配器,iPh……国外越卖越贵!Redmi8系列售价在印度四连涨:涨幅超20在过去的几个月里,小米公司提高了印度部分手机的价格。而早在5月份,该公司就已经提高了Redmi8ADual、Redmi8和RedmiNote8的价格。并且这三款手机自推出以来,……
淘宝改版,逛逛出街粉丝最低2块?快手小店通要投吗?怎么投?我们采访了两位一线玩你不一定要做微商,但你要有微商思维什么牌子的面膜好用?最实用面膜最热门面膜分享小盒马,大永辉,“大润发们”的未来怎么“大发”?莆田鞋,是炒鞋经济的噩梦吗?内容电商时代如何突出重围?抖音年终嗨购节给出了答案交个朋友主播朱萧木:直播带货为何能让新品牌爆发增长?阿里巴巴等联合投资十荟团,融资金额达1。96亿美元社区团购抢人大战:数倍薪资挖人,月薪7万招程序员你在买菜APP上薅的每一根羊毛,都将加倍奉还!淘宝产品升级!逛逛上线,微淘变“订阅”,生意新机会来了
约七成旅行消费决策由女性做主,超四成选择高星级酒店为自己而感动优秀作文欣赏黄瓜鸡蛋减肥法推荐3道减肥食谱阳朔如意峰索道运营部开展淡季培训垒高自己小学作文Artsy藏家问答有关收藏方式的11个问题无根的女人生是别人的人,死是别人的鬼二年级读后感哈利波特与魔法石李国旺:中国第一急务:破解资源魔咒检察长造句用检察长造句大全沐之荷让普通的家庭环境清洁也跟得上现代化脚步广州全市中小学暂停线下教学幼儿园停止幼儿入园热博聚热点网

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找美丽时装彩妆资讯历史明星乐活安卓数码常识驾车健康苹果问答网络发型电视车载室内电影游戏科学音乐整形