导读茄子科技(海外SHAREitGroup)作为穿越周期的新一代全球化互联网科技公司,在全球市场一路高歌猛进,短短两年时间,茄子科技旗下产品SHAREit(国内茄子快传)全球用户超12亿,2019年,SHAREit全球用户超18亿。截至目前,茄子科技产品矩阵全球累计安装用户量近24亿。海量的数据规模、快速发展的公司业务对大数据平台提出了复杂、苛刻的需求。 本文将介绍茄子科技大数据团队自主研发的跨多云自助式大数据平台DataCake。主要包括以下三大部分: 1。大数据平台的背景挑战 2。DataCake解决方案 3。DataCake未来规划 分享嘉宾张韶全茄子科技大数据部门技术总监 编辑整理Leo长亮科技 出品社区DataFun 01hr背景挑战 1。背景 DataCake是为了解决企业的数据需求而诞生、发展的,数据对企业的重要性已经不言而喻。可以概括为以下三个方面: 数据量:数据已经是企业最为核心的资产,同时全球生产的数据量仍然呈现出指数级的增长; 应用场景:数据的应用场景也更加广阔、深入,数据驱动已经体现在产品全流程的流水线中,数据科学已经成为了科学研究的第四种范式; 数据潜力:数据分析市场的潜力同样巨大,数据仓库、数据科学领域依旧受到资本热捧,有研究报告指出,基于数据驱动的企业每年可以额外获得30的数据增长。 2。挑战 如何发挥出数据的价值,面临着很多挑战。在DataCake团队与公司内部需求方与外部客户的沟通中,将所面临的挑战从不同的角度可以分为三类: (1)业务负责人 业务数据化是容易事,但这仅仅完成了数据记录,实现数据业务化才是变废为宝的关键。大数据条线运营成本居高不下,需要维护大量历史任务、业务作业。 (2)数据分析师、数据科学家 在大多数公司中,大数据部门以一个中心化的中台部门的形式存在,数据需求与开发之间需要业务部门与开发部门进行跨团队沟通,流程复杂、开发排期周期漫长。大数据技术生态组件繁多,分析人员技术基础弱学习成本高。 (3)技术负责人 业务团队快速试错,库表ETL任务快速膨胀,任务归属、血缘依赖和数据权限混乱。大数据、云计算产品众多,技术体系架构复杂,对使用者不透明。 以上挑战又可以总结为两大问题: 数据无法发挥价值:投入了大量的成本但看不清数据在业务价值上的收益; 数据治理无从下手:业务需求复杂、历史作业众多、大数据技术组件零散,数据体系搭建困难。 有三组数据可以表明上述两大问题的危害: 66的数据是没有被利用的; 84的管理人员不相信数据的价值; 70的企业没有高效的数据架构。 02hr解决方案 1。DataMesh思想 为了解决上述问题,DataCake引入了数据驱动的组织架构DataMesh思想。该思想旨在通过软件架构来促进公司组织架构的变革。其中一个核心思想就是,将中心化(Centralized)的数据团队,转变为领域驱动(Domaindriven),让业务负责数据。 在传统的中心化数据团队组织中,企业内部的一个数据团队要服务于多个业务部门,而DataMesh则是一种分布式的数据合作方式,也就是领域驱动。主要的变化在于每个部门自己拥有相关的数据,对自己的数据负责。DataMesh通过三个方面来实现这一目的。 自助化平台SelfServePlatform:利用自助化数据平台,业务自己轻松实现相关数据需求的开发任务。 数据即产品DataasaProduct:数据产品化可以促进跨团队之间的数据合作,提高数据的利用效率。 联邦数据治理FederatedGovernance:在分布式数据开发与应用之外,也需要集中式的数据治理机制,这样才可以保证数据的安全与质量。 DataCake就是一个基于DataMesh思想构建的大数据平台,在该软件思想的践行中,也促进了组织架构的变革。相关部门负责人可以结合自己的实际需求和领域知识来实现敏捷试错和快速迭代。 2。DataCake实现四个大方向的功能 具体来说DataCake实现了四个大方向的功能: (1)自助式大数据应用平台 为业务人员提供了低技术成本利用数据的解决方案,以低代码的方式搭建任务流水线,完成数仓开发;统一的数据分析;数据可视化、自定义报表开发等功能。 (2)数据智能治理与安全管理 提供多维度的数据成本账单,利用智能引擎辅助数据治理与数据权限管理。 (3)统一数据管理平台 将元数据信息收口统一管理,构造数据资产目录,让数据可以被收录、被检索、被利用,打破不同部门间的数据孤岛。此外提供数据质量监控功能,以保障数据有效、可用。 (4)湖仓一体架构 业务产生的数据直接入湖,可以直接对明细化数据进行分析,减少流水线搭建带来的成本。同时,对时效性不强的数据也可以进一步搭建数仓。 3。DataCake技术架构速览 DataCake是一个跨多云的云原生的数仓一体平台。 (1)在基础设施层面(IaaS) DataCake构建在现有的云计算厂商提供的IaaS之上,为跨不同云商本地机房提供统一应用服务层。这样既充分利用不同云商的优势,也避免对单一厂商的过度依赖,出现vendorlockin。 (2)在平台层面(PaaS) DataCake提供了跨场景的无服务计算(Serverless)平台,支持包括Adhoc、批处理、实时流计算以及云厂商自有接口在内的众多计算引擎。也提供高效的集群管理功能,可以非常方便的进行水平与垂直方向的扩展。 (3)在服务层面(SaaS) DataCake支持包括HUE、Tableau在内的众多计算引擎和数据应用平台,这样就可以不同的应用场景和应用,同时可以根据应用场景智能选择最佳计算引擎。另一方面,对于系统的管理者,DataCake也提供了管理入口,以支持云资源管理、部署集群、资源优化,和跨云、跨源数据管理和权限管理。 4。方案实现 (1)极简数据分析 DataCake为数据用户提供一个可访问任何数据源的页面,促进数据的应用,协作与分享。从单一入口即可访问来自数据库、仓库、湖以及云端的数据。 此外,DataCake也会根据SQL脚本的特点和数据源类型适配最佳引擎,分析人员无需自己选择对应的计算引擎。也支持DataasProduct理念,可以以API的形式分享数据,同时也支持SQL代码、模板的分享。 (2)低门槛数据开发 DataCake将常用的开发流程模板化,DataCake几十余种常见模板封装,覆盖从数据接入到数仓转换,再到数据分发全部流程。通过模板式开发,无需开发人员介入,业务人员即可完成整个DataPipeline建设。另外,DataCake也支持以可视化的方式分析数据血缘、ETL链路。 (3)统一数据管理 DataCake将数据管理中的需求统一到一个平台。统一管理、发现、监控来自数据湖、数据仓库、数据库等不同源的数据,消除数据孤岛,促进数据合作,保证数据质量和安全。 一方面,DataCake支持多源的数据注册,可包含相关业务信息和数据血缘。也提供了数据检索、查询的入口,满足数据探索的需求。 另一方面,也提供了联邦式的数据管理功能,提供了细粒度权限管理,详细的审计信息和完备的数据质量监控。这样就可以在保证数据安全的前提下,满足不同业务团队对数据应用的需求。 (4)智能化数据治理 DataCake基于公有云进行数据治理的实践者。从可观测、可治理和可自动三个层面,为用户提供一目了然的数据资产和一键的治理体验,将项目式数据治理变为日常工作流程。 在可观测层面,DataCake可以做到在系统、数据、业务三个层面都提供细粒度的数据信息。 在治理层面,实现对计算任务和计算资源的评分与运行情况检测。 在自动化运营层面,DataCake将专业人员的治理流程产品化,同时借助AIML,将平台智能化。实现数据治理工作的例行化、自动化与智能化。 (5)跨多云Serverless 因为DataCake是一个构建于不同云平台的PaaS。因此提供了多云集群管理优化、计算部署平台,可以根据业务的特点选择虚拟环境类型,以及集群的规模。此外,根据业务场景与集群、应用负载,DataCake可以自适应地弹性扩缩资源,充分发挥云资源弹性的特点,带来客观的成本消减。最后,DataCake可以高效适配不同类型计算实例,例如Spot、ARM,来降低计算成本,提升计算性能。 03hrDataCake未来规划 1。产品层面 SaaS全托管模式即将在多个云商上线,敬请期待。 2。技术层面 将继续从高效、智能、开放三个层面打造开源、智能一站式的大数据平台,让业务数据发挥更大的价值。 今天的分享就到这里,谢谢大家。 2023数据智能创新与实践大会 第四届DataFunCon数据智能创新与实践大会将于7月2122日在北京召开,会议主题为新基建新征程,聚焦数据智能四大体系:数据架构、数据效能、算法创新、智能应用。在这里,你将领略到数据智能技术实践最前沿的景观。 欢迎大家点击下方链接获取大会门票 DataFunCon2023(北京站):数据智能创新与实践大会百格活动