SparkSQL电商用户画像(四)之电商用户画像数据仓库建立
六、电商用户画像数据仓库建立6。1数据仓库准备工作
为什么要对数据仓库分层?星型模型雪花模型
Userweb界面展示指标表
l用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;
l如果不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大
l通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易理解,这样我们比较容易保证每一个步骤的正确性,当数据发生错误的时候,往往我们只需要局部调整某个步骤即可。
数据仓库标准上可以分为四层:ODS(临时存储层)、PDW(数据仓库层)、MID(数据集市层)、APP(应用层)
ODS层:
为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备。一般来说ODS层的数据和源系统的数据是同构的,主要目的是简化后续数据加工处理的工作。从数据粒度上来说ODS层的数据粒度是最细的。ODS层的表通常包括两类,一个用于存储当前需要加载的数据,一个用于存储处理完后的历史数据。历史数据一般保存36个月后需要清除,以节省空间。但不同的项目要区别对待,如果源系统的数据量不大,可以保留更长的时间,甚至全量保存;
PDW层:
为数据仓库层,PDW层的数据应该是一致的、准确的、干净的数据,即对源系统数据进行了清洗(去除了杂质)后的数据。这一层的数据一般是遵循数据库第三范式的,其数据粒度通常和ODS的粒度相同。在PDW层会保存BI系统中所有的历史数据,例如保存10年的数据
MID层:
为数据集市层,这层数据是面向主题来组织数据的,通常是星形或雪花结构的数据。从数据粒度来说,这层的数据是轻度汇总级的数据,已经不存在明细数据了。从数据的时间跨度来说,通常是PDW层的一部分,主要的目的是为了满足用户分析的需求,而从分析的角度来说,用户通常只需要分析近几年(如近三年的数据)的即可。从数据的广度来说,仍然覆盖了所有业务数据。
APP层:
为应用层,这层数据是完全为了满足具体的分析需求而构建的数据,也是星形或雪花结构的数据。从数据粒度来说是高度汇总的数据。从数据的广度来说,则并不一定会覆盖所有业务数据,而是MID层数据的一个真子集,从某种意义上来说是MID层数据的一个重复。从极端情况来说,可以为每一张报表在APP层构建一个模型来支持,达到以空间换时间的目的数据仓库的标准分层只是一个建议性质的标准,实际实施时需要根据实际情况确定数据仓库的分层,不同类型的数据也可能采取不同的分层方法。
这里我们采用的是京东的数据仓库分层模式,是根据标准的模型演化而来。
数据仓库分层:
BDM:缓冲数据,源数据的直接映像
FDM:基础数据层,数据拉链处理、分区处理
GDM:通用聚合
ADM:高度聚合
先把数据从源数据库中抽取加载到BDM层中,
然后FDM层根据BDM层的数据按天分区6。2数据仓库基本表介绍BDM层数据表
(贴源缓存层)
订单表
itcastbdmorder
订单明细表
itcastbdmorderdesc
订单商品表
itcastbdmordergoods
用户表
itcastbdmuser
购物车表
itcastbdmordercart
用户上网记录表itcastbdmuserpcclicklog
itcastbdmuserappclicklogFDM层数据表
(拉链表、分区表)
用户宽表
itcastfdmuserwide
购物车表
itcastfdmordercart
订单表
itcastfdmorder
订单表明细表
itcastfdmorderdesc
用户app端view表
itcastfdmuserapppageview
用户pc端view表
itcastfdmuserpcpageviewGDM层数据表
(通用数据模型层)
客户基本属性表
itcastgdmuserbasic
客户消费订单表
itcastgdmuserconsumeorder
订单模型表
itcastgdmorder
客户购买类目表
itcastgdmuserbuycategory
客户访问信息表
itcastgdmuservisit
罗永浩推荐的石头扫地机器人T7,这2500Pa的吸力简直太爽前言随着社会生活水平的提高,大家都越来越喜欢购买一些智能家用电器,像智能洗衣机、洗碗机等。扫地机器人也是近几年才在国内火起来,我本人也是第一次使用。本来家里装修好打算挑选……
数据湖北小龙虾养殖企业占全国总量40,10万吨成品虾滞销清明将至,疫情终于稳定了,两个月的封城也给湖北经济造成了一定压力,封城近三月的湖北也正式开启复产复工之路,积极的追回被疫情耽误的时间。然而,有着湖广熟,天下足别称的湖北,……
你的设备或许在为别人挖矿!JavaScript软件包管理器遭最近这段时间,开源项目库颇不宁静。前阵子Python官方储存库PyPl中刚发现恶意软件包,这一次NPM又遭到了黑客劫持,被感染挖矿病毒。NodePackageMan……
面向高速率传输的双频WiFi模块及无线解决方案数据传输作为物联网应用中的信息支撑,其应用范围已遍布各个领域,无论是在人们日常生活中使用的白色家电等家用电器,还是无人飞行器等消费电子产品,以及各类机器人等工业控制产品等方面,……
618销冠华硕B560重炮手主板火力全开激烈的2020欧洲杯已经结束了,意大利国家男子足球队夺得冠军,该球队的球迷可谓是彻夜狂欢。但几家欢喜几家愁,其他惜败的球队球迷表示非常的不甘心,如果你也抱着这种心态,那不如在即……
双十一轻薄拍照手机盘点这五款值得考虑一年一度的双十一又快来了,这种国民级的大促活动一般是换机好时机。如今的手机市场细分比较多,各种机型功能不一。有些手机性能强悍,但拍照方面却缩水,有些续航强悍,但严重影响手感,那……
大卖!一机难求!华为Mate20系列手机引发抢购狂潮这段时间,华为Mate20系列手机真的是火得一塌糊涂。自10月16日首次亮相以来,一直受到高度的关注,而且受到海外媒体和用户的盛赞。而在10月26日国内发布会上公布售价之后,华……
企业内部加油站撬装加油站前图能源仓详解现在的道路四通八达,汽车的数量也越来越多,成品油贸易成为了投资的热点领域,于是很多人都会来咨询加油站怎么办?需要多少费用?手续有哪些,好不好审批?加油站不是每个人都可以运……
无限极直销I助力消费者从健康的身体到有趣的灵魂的提升一个人最好的状态是什么:兜里有点钱,手里有本书。阅读就像一座随身携带的小型避难所,温暖且有力量,人生中的很多时候,你都能在书中找到答案和慰藉。读书点亮生活,樊登读书相信读……
卖人设的生意经技术、玩法、故事,是此前腾讯高级副总裁马晓轶眼中驱动产品进化的三驾马车。技术的壁垒限制着开发团队极致的创意的落地,出于成本和实现效果的考量,题材、内容、玩法往往不得不进行……
大众汽车大战诺基亚魔咒出品:电动星球News作者:蟹老板上周末,大众汽车集团搞了一场2020年媒体发布会。这两天,陆续有报道出来。大众CEO迪斯也极其罕见地在微博发了长文,解释了大众的策……
多亏了这些软装陈设,让新家实现了整容级改变费尽周折新房终于装修完了,新一轮拷问直接心灵:有点丑怎么办?本以为熬过了找设计师,等装修工人装修,让新房通风散味,就可以直接拎包入住。但没想到,失去温度的陈设,过于单调的……