游戏电视苹果数码历史美丽
投稿投诉
美丽时装
彩妆资讯
历史明星
乐活安卓
数码常识
驾车健康
苹果问答
网络发型
电视车载
室内电影
游戏科学
音乐整形

一文看懂大数据生态圈完整知识体系

  随着大数据行业的发展,大数据生态圈中相关的技术也在一直迭代进步,作者有幸亲身经历了国内大数据行业从零到一的发展历程,通过本文希望能够帮助大家快速构建大数据生态圈完整知识体系。
  目前大数据生态圈中的核心技术总结下来如图1所示,分为以下9类,下面分别介绍。
  图1
  1hr数据采集技术框架
  数据采集也被称为数据同步。
  随着互联网、移动互联网、物联网等技术的兴起,产生了海量数据。这些数据散落在各个地方,我们需要将这些数据融合到一起,然后从这些海量数据中计算出一些有价值的内容。此时第一步需要做的是把数据采集过来。数据采集是大数据的基础,没有数据采集,何谈大数据!
  数据采集技术框架包括以几种。Flume、Logstash和FileBeat常用于日志数据实时监控采集,它们之间的细节区别见表1;Sqoop和Datax常用于关系型数据库离线数据采集,它们之间的细节区别见表2;Cannal和Maxwell常用于关系型数据库实时数据采集,它们之间的细节区别见表3。
  表1
  表2
  表3
  Flume、Logstash和FileBeat的技术选型如图2所示。
  图2
  Sqoop和Datax之间的技术选型如图3所示。
  图3
  Cannal和Maxwell之间的技术选型如图4所示。
  图4
  2hr数据存储技术框架数据的快速增长推动了技术的发展,涌现出了一批优秀的、支持分布式的存储系统。
  数据存储技术框架包括HDFS、HBase、Kudu、Kafka等。HDFS它可以解决海量数据存储的问题,但是其最大的缺点是不支持单条数据的修改操作,因为它毕竟不是数据库。HBase是一个基于HDFS的分布式NoSQL数据库。这意味着,HBase可以利用HDFS的海量数据存储能力,并支持修改操作。但HBase并不是关系型数据库,所以它无法支持传统的SQL语法。Kudu是介于HDFS和HBase之间的技术组件,既支持数据修改,也支持基于SQL的数据分析功能;目前Kudu的定位比较尴尬,属于一个折中的方案,在实际工作中应用有限。Kafka常用于海量数据的临时缓冲存储,对外提供高吞吐量的读写能力。
  3hr分布式资源管理框架
  在传统的IT领域中,企业的服务器资源(内存、CPU等)是有限的,也是固定的。但是,服务器的应用场景却是灵活多变的。例如,今天临时上线了一个系统,需要占用几台服务器;过了几天,需要把这个系统下线,把这几台服务器清理出来。
  在大数据时代到来之前,服务器资源的变更对应的是系统的上线和下线,这些变动是有限的。
  随着大数据时代的到来,临时任务的需求量大增,这些任务往往需要大量的服务器资源。
  如果此时还依赖运维人员人工对接服务器资源的变更,显然是不现实的。
  因此,分布式资源管理系统应运而生,常见的包括YARN、Kubernetes和Mesos,它们的典型应用领域如图5所示。
  图5
  4hr数据计算技术框架数据计算分为离线数据计算和实时数据计算。
  (1)离线数据计算
  大数据中的离线数据计算引擎经过十几年的发展,到目前为止主要发生了3次大的变更。MapReduce可以称得上是大数据行业的第一代离线数据计算引擎,主要用于解决大规模数据集的分布式并行计算。MapReduce计算引擎的核心思想是,将计算逻辑抽象成Map和Reduce两个阶段进行处理。Tez计算引擎在大数据技术生态圈中的存在感较弱,实际工作中很少会单独使用Tez去开发计算程序。Spark最大的特点就是内存计算:任务执行阶段的中间结果全部被放在内存中,不需要读写磁盘,极大地提高了数据的计算性能。Spark提供了大量高阶函数(也可以称之为算子),可以实现各种复杂逻辑的迭代计算,非常适合应用在海量数据的快速且复杂计算需求中。
  (2)实时数据计算
  业内最典型的实时数据计算场景是天猫双十一的数据大屏。
  数据大屏中展现的成交总金额、订单总量等数据指标,都是实时计算出来的。
  用户购买商品后,商品的金额就会被实时增加到数据大屏中的成交总金额中。
  用于实时数据计算的工具主要有以下3种。Storm主要用于实现实时数据分布式计算。Flink属于新一代实时数据分布式计算引擎,其计算性能和生态圈都优于Storm。Spark中的SparkStreaming组件也可以提供基于秒级别的实时数据分布式计算功能。
  SparkStreaming和Storm、Flink之间的区别见表4。
  表4
  Storm、Spark、Flink之间的技术选型如图6所示。
  图6
  目前企业中离线计算主要使用Spark,实时计算主要使用Flink。
  5hr数据分析技术框架
  数据分析技术框架包括Hive、Impala、Kylin、Clickhouse、Druid、Drois等,它们的典型应用场景如图7所示。
  图7
  Hive、Impala和Kylin属于典型的离线OLAP数据分析引擎,主要应用在离线数据分析领域,它们之间的区别见表5。Hive的执行效率一般,但是稳定性极高;Impala基于内存可以提供优秀的执行效率,但是稳定性一般;Kylin通过预计算可以提供PB级别数据毫秒级响应。
  表5
  Clickhouse、Druid和Drois属于典型的实时OLAP数据分析引擎,主要应用在实时数据分析领域,它们之间的区别见表6。Druid和Doris是可以支持高并发的,ClickHouse的并发能力有限;Druid中的SQL支持是有限的,ClickHouse支持非标准SQL,Doris支持标准SQL,对SQL支持比较好。Druid和ClickHouse的成熟程度目前相对比较高,Doris处于快速发展阶段。
  表6
  6hr任务调度技术框架任务调度技术框架包括Azkaban、Ooize、DolphinScheduler等。它们适用于普通定时执行的例行化任务,以及包含复杂依赖关系的多级任务进行调度,支持分布式,保证调度系统的性能和稳定性,它们之间的区别见表7。
  表7
  它们之前的技术选型如图8所示。
  图8
  7hr大数据底层基础技术框架大数据底层基础技术框架主要是指Zookeeper。Zookeepe主要提供常用的基础功能(例如:命名空间、配置服务等),大数据生态圈中的Hadoop(HA)、HBase、Kafka等技术组件的运行都会用到Zookeeper。
  8hr数据检索技术框架随着企业中数据的逐步积累,针对海量数据的统计分析需求会变得越来越多样化:不仅要进行分析,还要实现多条件快速复杂查询。例如,电商网站中的商品搜索功能,以及各种搜索引擎中的信息检索功能,这些功能都属于多条件快速复杂查询的范畴。
  在选择全文检索引擎工具时,可以从易用性、扩展性、稳定性、集群运维难度、项目集成程度、社区活跃度这几个方面进行对比。Lucene、Solr和Elasticsearch的对比见表8。
  表8
  9hr大数据集群安装管理框架企业如果想从传统的数据处理转型到大数据处理,首先要做就是搭建一个稳定可靠的大数据平台。
  一个完整的大数据平台需要包含数据采集、数据存储、数据计算、数据分析、集群监控等功能,这就意味着其中需要包含Flume、Kafka、Haodop、Hive、HBase、Spark、Flink等组件,这些组件需要部署到上百台甚至上千台机器中。
  如果依靠运维人员单独安装每一个组件,则工作量比较大,而且需要考虑版本之间的匹配问题及各种冲突问题,并且后期集群维护工作也会给运维人员造成很大的压力。
  于是,国外一些厂商就对大数据中的组件进行了封装,提供了一体化的大数据平台,利用它可以快速安装大数据组件。目前业内最常见的是包括CDH、HDP、CDP等。HDP:全称是HortonworksDataPlatform。它由Hortonworks公司基于ApacheHadoop进行了封装,借助于Ambari工具提供界面化安装和管理,并且集成了大数据中的常见组件,可以提供一站式集群管理。HDP属于开源版免费大数据平台,没有提供商业化服务;CDH:全称是ClouderaDistributionIncludingApacheHadoop。它由Cloudera公司基于ApacheHadoop进行了商业化,借助于ClouderaManager工具提供界面化安装和管理,并且集成了大数据中的常见组件,可以提供一站式集群管理。CDH属于商业化收费大数据平台,默认可以试用30天。之后,如果想继续使用高级功能及商业化服务,则需要付费购买授权,如果只使用基础功能,则可以继续免费使用;CDP:Cloudera公司在2018年10月份收购了Hortonworks,之后推出了新一代的大数据平台产品CDP(ClouderaDataCenter)。CDP的版本号延续了之前CDH的版本号。从7。0版本开始,CDP支持PrivateCloud(私有云)和HybridCloud(混合云)。CDP将HDP和CDH中比较优秀的组件进行了整合,并且增加了一些新的组件。
  三者的关系如图9所示。

曾国藩不缺钱,为何总爱问邻居借钱?细品之后发现其高明之处在中国近代历史上,曾国藩定然算得上是比较经典的存在,此人是清朝末年的大臣,也是清朝晚期对国家有着重要影响的存在,甚至因此有了千古第一完人的评价。而在晚清著名的四大臣曾国藩、左宗……分到千万身家的马蓉,离婚继续碰瓷王宝强,嘲笑他拿金扫帚奖离婚后的王宝强,事业似乎更上一层楼,回老家担任形象大使,接着又被拍到和村民载歌载舞。对比之下,他的前妻马蓉,最引人注目的露脸,还是去年6月试图在短视频平台开直播。奈……特效全开玩原神也是满帧?ROG7散热有多狠,顶级硬件值得一说为了给玩家带来更高阶的体验感,各大游戏厂商都在努力提升画质和玩法的趣味性,这也让不少玩家们在面对高画质和高帧率游戏时,面临着设备硬件不足等问题。尤其是在《王者荣耀》、《和平精英……今日霜降!秋尽冬来给小朋友一份防寒指南,尿床宝宝的秋冬养护今天是霜降这是秋天的最后一站冬天离我们越来越近了在秋天的最后一个节气里在即将滚滚而来的冷空气中为孩子们手绘一份防寒指南跟孩子说一说霜降……给皇帝洗龙沟危险重重,为何宫女抢着干?其中究竟有什么内幕?伺候人洗漱的工作为何那么多人抢着去做?众所周知,古代的皇帝每天早上也得洗漱,这个工作可相当危险,稍有不慎,那可就是掉脑袋的事,可是为什么还是有那么多人抢着去坐呢?关系一下了解秘……清朝第一位秀女,14岁生下千古一帝,死后获三代皇帝尊封康熙元年(1662年)十月,两个年轻女子被清朝皇室尊封为皇太后,一个是年仅21岁的博尔济吉特氏,她是顺治原中宫皇后,被尊封为仁宪皇太后,另一个是年仅22岁的佟氏,她原是顺治后宫……大疆OsmoMobile6快速点评和购买建议Hi,我是溢图科技。9月22日,大疆正式推出第6代手机稳定器OsmoMobile6。官方定价999元,包含本体、磁吸手机夹、手持三脚架、充电线和软布袋。在一周多的使……古代皇帝平均寿命不到40岁,为何乾隆活到89?只因戒掉帝王一自秦王嬴政始称皇帝,到清朝末帝溥仪退位,中国封建王朝历时2132年,共产生了494位皇帝(含73位未在位、死后被追尊帝者)。作为一国之中享受待遇最好的人,这494位皇帝的平均寿……还嫌赚钱少?苹果第一财季营收下滑,库克iPhone14销量差苹果是业界利润率最高的企业之一,每年都能从全球赚取巨额收益,且近些年一直处于稳步增长状态。苹果公布2023第一财季业绩显示,营收数据意外出现四年来首次下滑,收益下滑达数十亿美元……可触及的真实感MBLNobleLineN21立体声后级功放你用过交换式放大(switchingamplifier)的功放吗?一般,我们称这类放大工作为D类放大。它们将晶体管当作开关,以全开或全关的方式产生方波,借脉冲宽度调变(PWM,……全军大比武,毛主席在格斗场上跃跃欲试,向蒋介石打了三拳老覃在今年二月份写了《1973年,毛主席对北京军区司令员李德生说:你就是个陪绑的》一文。文中提到,李德生在担任第12军军长的任上做了好几件让世人瞩目的大事。因此,在党的八届十二……1937年,蒋介石想将八路军主官更名改姓,却一个都没给自己好抗日战争是近代以来中华民族首次取得完全胜利的反抗帝国主义势力侵略的战争,在这片东方主战场上,英勇无畏的中国军民奏响了爱国主义的最强音和主旋律,极大提升了中国的国际地位和国际影响……
林彪初到东北连吃败仗,司机和参谋叛逃,他抓国民党一个失误翻盘抗日战争时期,东北曾经被日本人占领,成了伪满洲国。日本人为了方便自己的部队在中国作战,将东北当成了备用物资生产基地,使得当时的东北工业生产飞速发展,大小工厂林立,特别是兵……毛主席牵挂的兵王张英才,9次获特等功,四百万解放军中仅此一人四百万解放军仅此一人1950年9月25日,国务院举办了一个全国战斗英雄代表大会,参加会议的都是在战场上,出生入死的战斗英雄们,这些人不论是谁,单拎出来都是战功赫赫的英雄,……抗战时期种田的农民,生活相对要好?原来前3年和后5年有天壤之我是棠棣,一枚历史爱好者。欢迎大家【关注】我,一起谈古论今,纵论天下大势。君子一世,为学、交友而已!长期以来,人们一直认为农民在抗日战争时期的经济状况相对要好一些。由于在……除恶不尽,和卓后裔张格尔作乱,新疆数十年不得安宁历经康雍乾三代帝王努力,准噶尔汗国不复存在,天山南北再次纳入中央政府管辖。但是,这块土地并没有就此安宁。在肃清两和卓余孽的过程中,清廷却漏掉了大和卓之子萨木萨克。乾隆得知……永远不要向任何人诉苦点击上方蓝字关注,晴风每天和你一起剖析情感知识。文:晴风图:网络(若有侵权,请联系删除)有没有一些时刻,你觉得很痛苦,你觉得很难受,这种时候,你不知道自己应该……野菊花山东新融媒体中心:三天静默疫情来得让人猝不及防儿子在房间里自习妻子在厨房里做饭我上完网课,坐在院子里沐浴着秋天的阳光天上的白云像……詹姆斯20分10篮板8助攻2盖帽,湖人两连胜,老詹411工程今天洛杉矶湖人主场迎新奥尔良鹈鹕队,詹姆斯全场出战40分钟23投9中,砍下20分10篮板8助攻2盖帽,只出现了3次失误,投篮手感有点糟糕,三分球7投0中,命中率0,今天威少继续……党史百年天天读8月16日重要论述1940年8月16日中共中央政治局召开会议,讨论国际国内政治形势及其对策。周恩来针对目前国内存在中日妥协可能的情况,发言指出:我们同国民党谈判时可在小问题上……太惨了!B站主播队德杯小组赛被职业队乱杀,场均被击杀25次以提起《英雄联盟》德玛西亚杯,相信很多老观众都会想起遥远的上古时代,大家除了观看LPL职业联赛之外,最大的乐趣就是看看哪支职业战队,又在德玛西亚杯的比赛中,被网吧队给虐了!其中最……23!中国国少女排被日本队逆转,无缘U18女排亚锦赛冠军北京时间6月13日,2022年U18女排亚锦赛进入尾声。在已经结束的三、四名决赛中,韩国国少女排以32逆转战胜东道主泰国国少女排,获得U18亚锦赛季军。五局比分是17:25、2……炸了!官媒评李宇春代言引起热议!近日,又一国际大品牌官宣国内一艺人为全球品牌代言人!而这个艺人就是超女李宇春!而该品牌邀请李宇春的代言时,李宇春向该品牌表达公开一个祖国的立场!就是这个爱国举动受到了文娱……1976年,宋庆龄参加周总理的追悼会,为什么中途怒气冲冲地离1976年1月9日的清晨,宋庆龄听到一则消息:周恩来同志因病医治无效,于1976年1月8日9时57分于北京逝世,终年78岁。宋庆龄悲痛万分,她感叹道:国家少了一个好帮手,……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网