纠纷奇闻社交美文家庭
投稿投诉
家庭城市
爱好生活
创业男女
能力餐饮
美文职业
心理周易
母婴奇趣
两性技能
社交传统
新闻范文
工作个人
思考社会
作文职场
家居中考
兴趣安全
解密魅力
奇闻笑话
写作笔记
阅读企业
饮食时事
纠纷案例
初中历史
说说童话
乐趣治疗

京东业务指标数据体系建设实践

2月22日 程染筱投稿
  业界首个数据智能知识地图已发布!1月限时免费领取!
  〔比心〕公众号大话数智内回复知识地图,即可免费下载电子版。
  导读:本次分享题目为京东数据驱动业务发展业务指标数据体系建设及集市治理实践。
  文章会围绕下面三点展开:业务集市现状业务集市治理未来展望
  分享嘉宾张婉绮京东数据挖掘工程师
  编辑整理杨佳慧
  出品社区DataFun
  01hr业务集市现状
  首先介绍一下京东业务集市的现状。众所周知互联网轨道生命周期已经进入成熟阶段处于人口红利倒退的趋势中,各个公司都以精细化运营的方式来正面应对此情景,所以数据驱动成为业务决策的中坚力量。
  1。数据驱动力
  数据驱动力指的是通过数据体系系统化地获取及分析数据,为业务决策提供有效支撑,驱动业务发展。
  2。业务市集现状
  在业务数据增长越来越明显的趋势下,构建业务体系、获取数据能力就目前而言是非常重要的,但业务集市的历史构建主要由各个业务线的数据分析同学负责,他们的关注点更多在于数据的快速交付,一定程度上造成了数据集市无序建设的问题。业务集市的现存的问题主要有以下四点:烟囱式开发现象严重:每一个需求都对应一个模型,每一个模型都需要开发,模型的重复性较高且模型较为分散。此时就会造成冗余计算的情况,浪费了过多集群资源。烟囱式开发也是较为常见的情况。跨层依赖严重:跨层依赖严重,读取共享数据有明显问题,存在大量重复读取消耗IO资源,缺乏共享复用。业务团队的数据分析同学使用的数据源通常为贴源层数据,数据量较大、字段较多,会对资源造成一些不必要的消耗。业务数据共享度低:一个公司部门可能存在多条业务线,但这些业务之间并不是完全独立的,存在较强的数据的耦合性,但数据共享度较低。无统一的数据标准:各业务团队之间无统一数据标准,数据口径难以保持统一,导致数据质量参差不齐,进入恶性循环。业务同学无法感知已有数据维度与需求的关联匹配程度,从而无法深入挖掘数据价值,也无法得知数据统计的准确口径,导致数据信任度较低、数据失真的情况。
  这样的集市现状给数据的使用带来了很多问题,总结来讲就是:不可知、不可取、不可用、不可控。不可知:用户不知道集市平台中有哪些数据可以使用,是否能够帮助自己解决核心问题。不可取:用户难以做到数据与知识之间的快速转换,同时集群资源紧张导致取数困难。不可用:各业务的数据分类体系缺乏统一的原则规范,使得数据定位难、可信度降低。不可控:不关注集群状态导致的恶性循环。
  02hr业务集市治理
  对于存在上述问题业务集市治理来说,除了使用现有常见的即时治理工具之外,更还有着更为重要且比较根源性的做法:建立业务集市标准,以及对历史无序情况进行重构。
  由于业务数据分析同学与数据开发同学所在角色和思维角度的不同,业务同学关注点更多在于如何经营阶段内的数据目标、阶段性的OKR、KPI等数据指标如何向下拆解,但数据开发同学的焦点在于如何保证数据的可用性和集市的稳定性。对于一个良好的业务数据集市来说,自上而下通过基础数据来逐步逐层地、秩序稳定地实现业务数据支撑是极其重要的。
  在期望之下衍生出了新的数据框架:最底层为现有的常规数据仓库。中间第二层为基础建设,此部分主要是建设基于业务基础的通用层模型,通过此部可以为业务线或耦合性较强的业务群组创建一套标准化通用的基础层,不仅可以配合一些维表来实现业务数据的维度扩充和数据快速定位,还可以在此基础上利用一些中间表来减少在计算过程中的资源浪费。在基础层的建设之上,基于基础通用数据模型、结合业务需求将经营目标拆解成具体的数据指标,通过数据之间的交叉计算给出更深层次的分析,或者将部分数据建设成为数据看板进行数据可视化的展示。这些数据指标可以为业务同学的经营分析起到很好的辅助作用,涵盖从项目规划、到日常经营、再到效果复盘、最后到下一个新的决策如此循环的完整过程,与此同时也能够逐层保证产出的数据质量。
  在这样的框架下,越高层级的数据越精细化,数据统计的口径更加定制化。越底层的数据模型复用度越高,越标准。如此的层级会使数据集市更健康。业务基础模型规范
  用建设业务数仓的思路来建设标准化的通用模型,主要存储数据为公司内部标准通用的明细数据。重构建设的主要措施是封装标准口径、行列裁剪、维度扩展、跨主题拼接等。此部分的口径是广义的,不针对于具体某一个业务需求,而是更专注于一整条业务线或一个大的业务模块上的普适性。重构建设时,可以按照不同业务线业务模块组织数据,进行明细数据的整合,解藕数据源,简化数仓模型使用复杂度,减少读取。业务通用模型实践
  用户宽表的建设:其实是将一些订单主题的数据和用户主题的数据进行融合,在订单数据的基础上,将不同业务对于用户的一些不同身份的定义全部拼接至同一张表中,并扩展一些标准的、通用的数据维度信息,支持不同业务的数据调取。这样的处理方式可以保证数据口径的统一。
  数据指标体系
  数据指标体系,即数据应用层,此层级的主要目的是支持业务进行某些经营专题的分析。这里的数据指标会按照业务的具体需求进行设计并包装,一般会根据特定的数据统计口径进行不同交叉维度的计算,用于其他系统的底层数据支持、数据看板可视化展示,或直接提供给业务同学进行深层次的数据分析。总体来说此部分数据的口径更加精准化,更贴切于用户经营目标的分析和监控。
  指标纬度值统一
  数据指标总体来讲可以分为三类:基础指标、衍生指标和复合指标。
  基础指标可以理解为较为常见的、直接计算的数据指标,例如成交人数、成交金额等。
  衍生指标可以理解为在基础指标的基础上结合一些定义将指标之间进行组合或者通过运算得到的一些数据指标,比如复访率、转化率等。
  复合指标通常指数据的对比情况,比如同比、环比等。
  在计算衍生指标时,分子分母可能已经存在在不同的模型中,此时如果能快速定位到需要的分子分母数据,就可以避免计算衍生指标时对分子分母的重复计算。针对此情况,开发出了一个特有工具,此工具可以根据不同的维度组合生成全局唯一的场景指标编码,不论在什么时间、什么引擎下,同样的维度所生成的指标维度ID值都是一样的。这样在计算衍生指标时,通过维度ID一致维度枚举值一致,即可获取相对应的分子分母,快速计算衍生指标。
  ClickHouse字典刷岗
  由于SKU的归属是与人员身份进行相应绑定的,若人员身份产生变动时会影响到某类SKU的采销部署,所以需要进行刷岗操作,其本质是更新SKU和维度信息之间的对应关系。
  刷岗的整体难度较高,主要体现在三部分:第一是数据量级大,可能涉及到百亿数据量级的两张甚至多张大宽表进行关联刷新;第二是维度组合较多,导致计算量极大;第三是业务侧要求的刷新范围不断扩大,甚至个别主题希望全量进行刷新,时效要求较高。
  提出了ClickHouse字段刷岗的解决方案,在ClickHouse中将维表加载到字典,将明细表基于字典直接进行相应岗位的数据查询,这样查询逻辑更简单,查询效率更快。
  基于此解决方案,也有一些相应的优化措施:
  字典存储按照SKU分片存储,可以极大的减少占用内存空间的数量;
  缩减字段,将维表中无关刷岗的字段过滤掉,此部分可以减少50的字典存储空间;
  类型优化,比如部门ID等ID类的字段,在存储时可以将数据类型由string转化为int类型,使用时再转为string类型,在保证正确使用的情况下字典空间占用可减少60;
  考虑到字典的主键唯一性,将sku一对多的情况用Array类型进行存储。
  为保证刷岗准确性,增加校验机制,引入版本表,将刷岗的结果先写入版本表中,将版本表和原有数据进行对比验证,得到验证结果是正确的才会写入正式的明细表中。
  字典表的应用同样可以用于数据看板的服务查询中,与刷岗原理是一致的,通过加载sku对应的字典数据来获取维度信息。
  对于一整套的业务集市建设标准,以一个活动主题的数据举例说明治理效果。
  重构前,数据指标依赖复杂,大多指标直接依赖于贴源层级的数据,比如用户日志模型。这些模型的数据量极大,对于需求无用的字段很多,因此数据重复读取率极高,造成了数据资源的浪费。
  重构时,针对读仓成本居高不下问题及用户使用行为分析,对读取频率top的大模型(比如用户日志)进行列裁剪,仅存储近两年热数据。
  针对队列资源紧张,调度不合理的问题,通过对各业务模块常用的埋点信息进行统一收集,通过埋点过滤构建app层加速模型,通过减少数据量,降低任务执行资源消耗。
  对于一些与其他业务耦合性较强的应用层数据,封装标准口径沉淀至数仓,反哺业务其他指标其他业务。
  在计算数据指标时,不再直接依赖贴源层数据,而是依赖通用层模型,减少读仓成本。使用产出唯一维度ID的工具来减少重复计算。维表存储数据特性,提供维度信息,通过表关联拼接快速对数据进行特定维度的定位区分。合理设计中间表,降低加工过程计算难度,提高运行效率。可设置为临时表,仅帮助加速本次计算,不存储历史数据。也可设置长期中间层,包含历史数据。
  采取此方式进行重构后,可以降低43的读仓成本;应用层模型数量减少51,存储降低34;末端的的看板产品出数时间缩短3小时。
  03hr展望未来
  敏捷、智能、可用、驱动力。
  在数仓建设、数据体系建设、资产分级以及对数据智能化自动化的探索(智能标准的建设)等方面,京东数据团队会对其进行持续的探索,以期望打造一个敏捷、智能的业务数据集市,并能够以数据驱动业务发展。
  04hr问答环节
  Q1:根据岗位回溯数据代价大是否存在代替方案?
  A1:代价是相对的,相对于数据集市建设的意义来说代价是允许存在的。可以弱化回溯的概念,对于数据量可接受范围内且适用于业务场景的查询,可以在保留基础数据信息的前提下,将某些数据信息不进行落表物化数据的操作,通过查询进行数据的展示,例如用户在查询SKU数据时,用SKU去查关联字典数据并进行相应的数据展示。
  Q2:在数仓之上再建数仓的形式增加了数据跑数的周期,是否可以对原始数仓进行治理?
  A2:原始数仓治理和新建业务层级数仓是两个概念,不是冲突的,本次分享基于业务数仓的治理,新建业务层级数仓时有必要的。在现状中,业务侧的数据大多直接来自贴源层,若以极小数据量级的查询调取数据量较大的贴源层数据,也是得不偿失的。且基于京东这样的大平台来说,存在着许多条业务线,那优先考虑、兼顾的一定是全局的数据情况,而不是某一条具体的业务线。
  Q3:指标是按照主题域的方式来划分管理的吗?多链路漏斗指标追踪是如何实现的?
  A3:可以理解为按照主题域的方式来划分管理的,但实现过程中并不是以此单一条件进行实现的。数据溯源的最底层级是贴源层数据,是按照主题域划分的。但主题域的数据在使用时也不是单独使用的,也存在着主题域之间的交叉计算等。将数据指标进行主题划分后对上游数据源可以更好的追踪管理,对数据之间关系的管理也会相对简单,所以在计算时会先按照不同的主题进行划分,后在结果表中对不同主题的数据进行拼接。
  今天的分享就到这里,谢谢大家。
  分享嘉宾
  张婉绮京东数据挖掘工程师
  负责京东零售数据平台产品的离线数据开发及业务指标数据体系建设工作,专注于数据模型建设、数据治理、数据SLA保障等领域的应用和探索,用数据驱动业务有质量的发展。
  DataFun新媒体矩阵
  关于DataFun
  专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100线下和100线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号DataFunTalk累计生产原创文章800,百万阅读,15万精准粉丝。
投诉 评论 转载

让痛风不发作仅仅管住嘴就够了吗?医生辟谣,靠忌口降尿酸不容易刘医生,痛风不是吃出来的吗?我不吃肉这些嘌呤高的食物不就可以了吗?刘医生,降尿酸的药物有副作用,我平常管住嘴不就可以把尿酸降下来吗?不少人认为痛风是吃出来的,于是就……吴敏霞分享女儿和儿子的日常趣事自侃我家有个游泳队9月20日晚,跳水冠军吴敏霞在自己的社交平台分享了秋日随手拍视频,并写道:我家有个‘游泳队’!视频里,吴敏霞的女儿从床的靠背上往床上蹦,她配上了海水的配图,就像女儿是在跳……词三首一丛花。蝉嘶夏尽曲声殇词林正韵蝉嘶夏尽曲声殇。枝叶半枯黄。池塘月色鱼游乱,看蛙虫、心也惶惶。滴珠涟漪,轻风肆意,蜂蝶筑巢忙。蓦然回首近秋黄。露浸草生霜。……不登录服务器如何在线查看springboot后台服务日志当前,应用系统微服务架构、前后端分离(前端vue,后端springboot),已经成为大部分项目的标准技术架构,但在项目上线后,springboot后端服务部署在服务器上,大部……研究团队破解世界首例古代老虎基因之谜7月29日,科技日报记者从中国地质大学(武汉)获悉,该校赖旭龙教授领导的古DNA团队与吉林大学、丹麦哥本哈根大学合作完成的古基因组研究发现中国北方一支已灭绝且深度分化的老虎支系……江苏女排连胜不停!央五忽视!张常宁难说再见来关注一下中国女排的最新消息,近期全国女子排球冠军赛正在火热进行,今晚将迎来一场焦点对决,江苏对阵辽宁。前三场比赛打完,江苏女排三战全胜,已经提前锁定南京高淳赛区的冠军。辽宁女……春夏搭配想要舒适,衬衫T恤的造型少不了春夏造型的视觉感受很重要,特别到了闷热的天气,清新靓丽的造型眼睛看起来就非常的阳光吸晴,而衬衫和T恤的组合,就能刚好满足这点。衬衫在很多人的固有思维中很死板,如今它的款式……这5个养生误区,很多人都在犯如今人们越来越关注营养、保健、养生等方面的知识,朋友圈、公众号及各种自媒体平台也充斥着大量相关内容,也不乏有家里长辈代代相传下来的养生口诀,这种大家都这样说的口吻让人们对此深信……官方迪巴拉自由身加盟罗马身披21号球衣签约至2025年北京时间7月20日下午,意甲罗马俱乐部官方宣布,阿根廷前锋迪巴拉以自由身加盟球队,他选择了21号球衣。据报道,迪巴拉和罗马签下三年合同,合约期限到2025年6月,他的税后工资加……京东业务指标数据体系建设实践业界首个数据智能知识地图已发布!1月限时免费领取!〔比心〕公众号大话数智内回复知识地图,即可免费下载电子版。导读:本次分享题目为京东数据驱动业务发展业务指标数据体系……撒贝宁带妻女外出游玩,神情疲惫白发显眼,李白依旧肤白貌美撒贝宁是国内著名主持人,主持节目时有时台风稳健,有时诙谐幽默,深受大家的喜欢,早就收获了一大批粉丝。他的事业发展得一帆风顺,情感经历却不顺利,有过几段无疾而终的恋情,和著名女星……秋冬季节,电热水器用得巧,家里电费交得少头条创作挑战赛秋冬季节,回家洗个热水澡,身体顿时就暖和起来,家里洗澡热水器少不了,那么这期小翔哥和大家分享一下,秋冬季节家里的电热水器如何能够省电!保温时温度设低一些电热……
补钙食物有哪些告诉你什么食物最补钙大叔捡个17岁老婆美梦后却想哭(全文)可以自己设计关卡场景是一种什么游戏体验?森纳映画妻子出轨被发现丈夫儿子街头暴打小三(图)劝退小三成暴利生意收费数十万都算普遍令人惊医生绝不吃3种食物你还吃吗(图)傅恒和福伦居然是同一个人令妃跟福伦什么关系人体图片日本美女日本美女人体图片好看的图片欣赏漂亮的美女图达芬奇十大名画(达芬奇最有名的23张画)全球最任性的5个厕所一定被吓尿了(图)经营贷年息3。35,最长30年等额本息政策讲解冬天的北海道,童话的世界世界上最大的黄鳝重斤有人给出了万的高价我爱故乡初中作文袁伟时:近代中国转型之艰陈建斌这发型太幼稚了!摘掉帽子气质大变,小娇妻穿阔腿裤比他胖患上骨髓空洞症会瘫痪吗0分钟0分!220斤壮汉彻底沉沦,东部冠军下狠手弃用他6胜1学校饮水机价格怎么样学校饮水机价格及特点张朝阳精神危机:我什么都有但居然这么痛苦题大年阁路逢僧图dnf多少级一觉(dnf第一章有觉醒嘛)今日油价调整信息9月21日,全国加油站柴油9295号汽油价格

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找美丽时装彩妆资讯历史明星乐活安卓数码常识驾车健康苹果问答网络发型电视车载室内电影游戏科学音乐整形