前言 大数据里面有个专有名词:数据血缘,可能很多人很好奇,不知道这个词什么意思。 数据血缘指的是大数据体系里面,数据经过数据采集入湖入库分析数据清洗转换BI展示等等处理过程中形成的脉络。 简单来说其实就是源数据是同一个,但是衍生了很多数据血脉,用人类生物继承学的观点来说,这一整条数据链路也就形成了某个业务的数据血缘。数据血缘的特征 1。归属性。一般来说,特定的数据归属特定的组织或者个人,数据具有归属性。 2。多源性。同一个数据可以有多个来源(多个父亲)。一个数据可以是多个数据经过加工生成的,而且这种加工过程可以是多个。 3。可追溯性。数据的血缘关系体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性。 4。层次性。数据的血缘关系是有层次的。对数据进行分类、归纳、总结等描述信息又会形成新的数据,不同程度地描述信息形成了数据的层次。数据血缘实例 一个简单的数据流转图: 可以看出数据的来源可以是多个,数据处理的过程可以自定义扩展,但是同一个数据是可以依据数据血缘图进行溯源的。 数据血缘图 上图实际所体现的表: 数据流转表