游戏电视苹果数码历史美丽
投稿投诉
美丽时装
彩妆资讯
历史明星
乐活安卓
数码常识
驾车健康
苹果问答
网络发型
电视车载
室内电影
游戏科学
音乐整形

数据仓库的一些概念

  数据仓库的一些概念前言
  由于工作原因,接触到了数据仓库,在平时工作交流的时候可能涉及到一些概念需要补课。因此这里准备补补课。啥是数据仓库
  数据仓库,英文名称为DataWarehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
  数据仓库我个人理解(划重点哈,我个人理解。我不是做数仓的,就目前的理解应该是一个片面的)。
  是一套数据存储和应用的体系,提供了数据集成、加工、处理等功能,并且数据量是很大的一套数据存储处理体系。
  数据仓库有以下特征:数据仓库是面向主题的;操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据仓库;数据仓库是不可更新的,数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询;数据仓库是随时间而变化的,传统的关系数据库系统比较适合处理格式化的数据,能够较好的满足商业商务处理的需求。稳定的数据以只读格式保存,且不随时间改变。汇总的。操作性数据映射成决策可用的格式。大容量。时间序列数据集合通常都非常大。非规范化的。Dw数据可以是而且经常是冗余的。元数据。将描述数据的数据保存起来。数据源。数据来自内部的和外部的非集成操作系统。
  数据仓库往往有以下特性效率高:数据仓库的分析数据一般分为日、周、月、季、年等,可以看出,日为周期的数据要求的效率最高,要求24小时甚至12小时内数据质量:数据仓库所提供的各种信息,肯定要准确的数据,但由于数据仓库流程通常分为多个步骤,包括数据清洗,装载,查询,展现等等,复杂的架构会更多层次扩展性:之所以有的大型数据仓库系统架构设计复杂,是因为考虑到了未来35年的扩展性,这样的话,未来不用太快花钱去重建数据仓库系统,就能很稳定运行。主要体现在数据建模的合理性,数据仓库方案中多出一些中间层,使海量数据流有足够的缓冲,不至于数据量大很多,就运行不起来了。数据仓库的分层为什么要分层?分层有什么好处?
  我举一个例子其实就可以理解了。
  现在假设我们生产上出现了一批数据异常,需要进行修复。但是涉及业务范围很广且数据量比较大,表之间的关联复杂。
  我们一般在处理的时候要明确的简单思路就是:定位错误数据因为逻辑复杂且表关系复杂,往往会根据某一张或几张表的数据为基准进行错误数据的筛选并且要进行逻辑验证。对于复杂问题往往会创建临时表来将错误数据临时存储。处理错误数据在修复数据的时候往往也是要根据错误临时表数据进行汇总分析进行处理,有的时候也会建立一个正确数据临时表,然后进行验证数据是否准确,如果没问题在根据这个正确临时表数据修正数据
  前面我们了解到数据仓库的数据数据量很大,且数据来源多样化。数据结构也存在多种情况,同一个含义的字段,在不同的来源中字段名称可能不一样,所以数据仓库的原始数据有可能是杂乱无章的。但是这些都是真实的原始数据,数据仓库的特性就是不进行修改只提供查询。因此这里就需要对数进行加工处理,处理后的数据放入临时表。因此也就需要数据分层。
  这样做的好处自然就是我们可以按照主题需要将数据进行清洗,放入不同的下一次数仓这样对于主题而言只需要处理对对应层级数据进行分析即可。另外也可以减少我们直接从原始层中获取数据的难度降低开发难度提高效率。数仓的分层思想
  数据分层每个企业根据自己的业务需求可以分成不同的层次,但是最基础的分层思想,理论上数据分为三个层,数据运营层、数据仓库层和数据服务层。基于这个基础分层之上添加新的层次,来满足不同的业务需求。数据运营层(ODS)
  这一层也叫做数据准备层(operationaldatastore操作存储数据层)原汁原味的数据集。这一层更多的是将数据从数据源拉取过来。这一层也是最接近源数据的一层。
  ODS层数据的来源方式业务库:经常会使用sqoop来抽取,比如我们每天定时抽取一次。在实时方面,可以考虑用canal监听mysql的binlog,实时接入即可。埋点日志:线上系统会打入各种日志,这些日志一般以文件的形式保存,我们可以选择用flume定时抽取,也可以用用sparkstreaming或者Flink来实时接入,当然,kafka也会是一个关键的角色。消息队列:来自ActiveMQ、RabbitMQ、Kafka的数据等数据仓库层(DWDatawarehouse)
  从ODS层中获得的数据按照主题建立各种数据模型,这里面有四个概念:维(dimension)、事实(Fact)、指标(Index)和粒度(Granularity)
  这一层往往也是分为3个层次DWD(DataWarehouseDetail)数据明细层数据模型往往和ODS层一致。不做清晰转换处理、为支持数据重跑可额外增加数据业务日期字段、可按年月日进行分表、用增量ODS层数据和前一天DWD相关表进行merge处理。这一层的数据往往是经过处理之后得了的数据(地主家也没余粮,不符合要求的数据地址也没地方放)例如:去重、去噪、提脏等操作DWM(DataWareHouseMiddle)数据中间层对DWD层的生产数据进行轻度综合和汇总统计(可以把复杂的清洗,处理包含,如根据PV日志生成的会话数据)。DWS(DataWareHouseServce)数据服务层也成为数据集市DM(datamarket)或宽表。是根据DWB层数据按各个维度ID进行粗粒度汇总聚合数据服务层应用层(ADS)
  ApplicationDataService(应用数据服务)也成为ST。这一层是提供为数据产品使用的结果数据,面向用户应用和分析需求例如:前端报表、分析图表、KPI、仪表盘、OLAP、专题等分析。一般会存放在ES、MySQL等系统中供线上系统使用,也可能会存在Hive或者Druid中供数据分析和数据挖掘使用。
  示意图
  Tip:
  dws和dwd是并行而不是先后顺序。dws会做汇总,dwd和ods的粒度相同
  参考博客:
  https:zhuanlan。zhihu。comp341591615
  https:blog。csdn。netczq850114000articledetails103583660
  https:blog。csdn。netpmdreamarticledetails113601956

高刷新率已成主流60Hz安卓手机跌至4成,你用上高刷手机没?手机刷新率绝对是这两年讨论的热点,自从2019年一加7Pro开创90Hz的新潮流之后,近两年,市面上发布的新机基本都配备了高刷新率屏幕,部分千元机甚至百元机,也紧跟时代节奏,用……有没有人知道怎么投诉网贷平台的第三方催款?当在网络平台上借款,按期还不上的时候,你就会面临他们授权的第三方无休止的催款电话和各种手段。现在经过整顿之后,这些第三方平台的手段已经温和很多了,他们只能通过不停地骚扰你和你的……有没有适合女生用的,小一点的手机,两三千就好了,平时不怎么打市面上小尺寸的手机已经越来越少了,这对于喜欢小屏手机的朋友无疑是个遗憾,尤其是女性朋友,下面小编就给大家推荐两款非常精致的小尺寸机型供参考。一、华为P30,8128G版本339……百度集团继续确保遵守中美相关法律法规,保持港美两地上市36氪获悉,百度集团港交所公告称,获知美国证券交易监督委员会于2022年3月30日将百度列入基于《外国公司问责法案》的认定名单。根据HFCAA规定,只有连续三年被SEC认定使用……手机价格2022年03月31日新消息手机价格手机价格2022年03月31日新消息iPhone13价格再跌标准版降至新低果粉:没白等。二手折叠屏手机选购指南6000的三星Fold……蛰伏的王者腾讯(一)国内的上市公司中,无论如何都绕不开的两大科技巨头,一个是腾讯,另一个是茅台。腾讯上周刚刚发布了2021年财报,茅台月底也将公布。我们正好先花几天时间学习一下腾讯这家港股之王的风……假如1万个现代人啥都不带,回到100万年前,多久能造出手机?一百万年以后能活着就不错了,要啥自行车啊〔捂脸〕这1万人,只需有500个光学家,500个化学家,500个机械学家,500个电子学家,500个冶金学家,500个算命的……Redmi新机外观首度公开,独特3D立体纹理,卢伟冰手感太好千元机一直以来都给人一种低端的感觉,不仅仅是因为千元机的价格低,也因为千元机受限于成本低,往往在外观上很难有较大的突破,所以颜值看起来就很低,不过这种情况在2021年有所好转了……应如何在互联网中寻找流量首先需要理解的是:无论在线上还是线下,获取信息都是只有主动与被动这两种情况线下的被动获取信息一般是听到、主动获取信息一般是咨询那么线上也就是互联网中被动获取信息一般……什么品牌的空调值得买?随着时代的发展变化,生活质量的提高,空调已经成为日常必备的家电产品之一,但在空调选购上,确实是很多人头疼的问题,怕质量不好、售后不行等,之前我家里装空调时也遇到类似的问题,后面……电子商务这个专业怎么样?虽然话很老套,但网商君还是不得不说:行行出状元,专业没有绝对的好与不好。跟你分享义乌一所骑自行车进来,开宝马、大奔出去的学校义乌商学院。这个学校在电商圈可出名了!2009……有没有兼职推荐?不要钱的兼职有很多,但是能赚多少要看自己的能力。1。西瓜视频。手机横屏16:9时长一分钟以上,点击原创,只要有人看视频就有收益,至于赚多少要看你发布的内容能不能吸引人,越……
北斗导航系统早已全面建成,为什么有些人还在用GPS?哪些手机中国最开始建设北斗是为了军事用途,防止美国在战争时期关闭GPS系统让中国军队都变成瞎子。因此在军事用途上,北斗系统一定会替换GPS系统,虽然现在究竟到了哪一步,我们并不清楚,但……去年换的新号码,原主可能欠网贷,不停的有人打电话过来催款,一我也买了一张卡,同样有催收的打电话过来。前机主欠了很多外债吧,前机主是女的,我是男的。说了不认识还一直打,遇到这种情况是很烦人的。后来我在手机里直接设置了拦截功能,在设置……苹果tvOS15。1发布新增支持智能控制音量等功能感谢网友美滋滋的线索投递,苹果在今日凌晨为AppleTV设备推送了tvOS15。1正式版,新增支持SharePlay等,这是2021年9月推出的tvOS系统的首次重大更新。……从京东副总裁到渐冻症患者人生中场他开始生命的抗争从京东副总裁到渐冻症患者(上)一次肉跳改变了生命的方向从京东副总裁到渐冻症患者(下)人生中场他开始生命的抗争本报记者黄小星陈馨懿发自北京43岁的蔡磊的人生,以……10万不到的小车竟有L2级自动驾驶!当你手持10万预算想买人生一辆车的时候,你会想要强劲的动力、想要智能的语音控制,再来一套完善的自动驾驶。不过,有经验的老司机会告诉你要啥自行车啊,10万对于一辆车来说并不算多,……电视的白菜价时代结束了对待电子产品不少消费者都将晚买享折扣奉为圭臬,并由此诞生了一批自称为等等党的消费群体。但从最新消息来看,等等党又在智能电视领域遭遇了滑铁卢。今日,小米电视官微正式宣布,受……百度ApacheDoris1。0版本发布在即致力打造全球顶级e公司讯,记者获悉,ApacheDoris1。0已经进入发版前最后的筹备阶段,同时在全面推进Doris从Apache孵化器毕业工作。百度集团副总裁侯震宇对e公司记者表示,百度将……外包开发APP费用详解平时我们做过各行各业的APP,针对APP开发的过程中涉及的各种费用也是比较了解的,常见的APP主要有这些,比如商城APP、教育APP、社交APP、协同APP、办公APP、医疗A……如何避免iOS应用卡顿iOS应用除了闪退问题外,卡顿问题也会对APP带来差评,甚至流失更多的用户。卡顿是什么呢?卡顿就是应用运行不流畅的现象,给用户的直观感受就是点击屏幕操作有停顿、响应缓慢、界面卡……基于Springbootredis实现延时队列什么是延迟队列?首先,队列这种数据结构相信大家都不陌生,它是一种先进先出的数据结构。普通队列中的元素是有序的,先进入队列中的元素会被优先取出进行消费;延时队列相比于……存在感不是很高的OPPO手机,90Hz65W6400万三摄降最近网络上有很多关于OPPO裁员的消息,OPPO这件发展还是不错的,不过发布的机型存在感都不是很高,就拿今天要说的这款手机OPPOK9,这款手机在5月上旬发布,现在顶配版825……曝苹果将砍掉mini机型iPhone14起售价更低iPhone12mini因为续航等问题,最终刚刚发售不久就面临停产,成为iPhone12系列中最失败的手机。而iPhone13mini的到来,官方宣称已经解决了续航的问题……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网