游戏电视苹果数码历史美丽
投稿投诉
美丽时装
彩妆资讯
历史明星
乐活安卓
数码常识
驾车健康
苹果问答
网络发型
电视车载
室内电影
游戏科学
音乐整形

大数据常用同步工具

  一、离线数据同步
  DataX
  阿里的Datax是比较优秀的产品,基于python,提供各种数据村塾的读写插件,多线程执行,使用起来也很简单,操作简单通常只需要两步;
  创建作业的配置文件(json格式配置reader,writer);
  启动执行配置作业。
  非常适合离线数据,增量数据可以使用一些编码的方式实现,
  缺点:仅仅针对insert数据比较有效,update数据就不适合。缺乏对增量更新的内置支持,因为DataX的灵活架构,可以通过shell脚本等方式方便实现增量同步。
  参考资料:
  github地址:https:github。comalibabaDataX
  dataX3。0介绍:https:www。jianshu。comp65c440f9bce1
  datax初体验:https:www。imooc。comarticle15640
  文档:https:github。comalibabaDataXblobmasterhdfswriterdochdfswriter。md
  Sqoop
  Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql)间进行数据的传递,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
  地址:http:sqoop。apache。org
  Sqoop导入:导入工具从RDBMS到HDFS导入单个表。表中的每一行被视为HDFS的记录。所有记录被存储在文本文件的文本数据或者在Avro和序列文件的二进制数据。
  Sqoop导出:导出工具从HDFS导出一组文件到一个RDBMS。作为输入到Sqoop文件包含记录,这被称为在表中的行。那些被读取并解析成一组记录和分隔使用用户指定的分隔符。
  Sqoop支持全量数据导入和增量数据导入(增量数据导入分两种,一是基于递增列的增量数据导入(Append方式)。二是基于时间列的增量数据导入(LastModified方式)),同时可以指定数据是否以并发形式导入。
  Kettle
  Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。
  Kettle的Spoon有丰富的Steps可以组装开发出满足多种复杂应用场景的数据集成作业,方便实现全量、增量数据同步。缺点是通过定时运行,实时性相对较差。
  NiFi
  ApacheNiFi是一个易于使用、功能强大而且可靠的数据拉取、数据处理和分发系统,用于自动化管理系统间的数据流。它支持高度可配置的指示图的数据路由、转换和系统中介逻辑,支持从多种数据源动态拉取数据。
  NiFi基于Web方式工作,后台在服务器上进行调度。用户可以为数据处理定义为一个流程,然后进行处理,后台具有数据处理引擎、任务调度等组件。
  几个核心概念:
  Nifi的设计理念接近于基于流的编程FlowBasedProgramming。
  FlowFile:表示通过系统移动的每个对象,包含数据流的基本属性
  FlowFileProcessor(处理器):负责实际对数据流执行工作
  Connection(连接线):负责不同处理器之间的连接,是数据的有界缓冲区
  FlowController(流量控制器):管理进程使用的线程及其分配
  ProcessGroup(过程组):进程组是一组特定的进程及其连接,允许组合其他组件创建新组件
  参考资料
  Nifi简介及核心概念整理
  官方网站:http:nifi。apache。orgindex。html
  二、实时数据同步
  实时同步最灵活的还是用kafka做中间转发,当数据发生变化时,记录变化到kafka,需要同步数据的程序订阅消息即可,需要研发编码支持。这里说个mysql数据库的同步组件,阿里的canal和otter
  canal
  https:github。comalibabacanal
  数据抽取简单的来说,就是将一个表的数据提取到另一个表中。有很多的ETL工具可以帮助我们来进行数据的抽取和转换,ETL工具能进行一次性或者定时作业抽取数据,不过canal作为阿里巴巴提供的开源的数据抽取项目,能够做到实时抽取,原理就是伪装成mysql从节点,读取mysql的binlog,生成消息,客户端订阅这些数据变更消息,处理并存储。下面我们来一起搭建一下canal服务
  早期,阿里巴巴B2B公司因为存在杭州和美国双机房部署,存在跨机房同步的业务需求。不过早期的数据库同步业务,主要是基于trigger的方式获取增量变更,不过从2010年开始,阿里系公司开始逐步的尝试基于数据库的日志解析,获取增量变更进行同步,由此衍生出了增量订阅消费的业务,从此开启了一段新纪元。
  ps。目前内部版本已经支持mysql和oracle部分版本的日志解析,当前的canal开源版本支持5。7及以下的版本(阿里内部mysql5。7。13,5。6。10,mysql5。5。18和5。1。4048)
  基于日志增量订阅消费支持的业务:
  数据库镜像
  数据库实时备份
  多级索引(卖家和买家各自分库索引)
  searchbuild
  业务cache刷新
  价格变化等重要业务消息
  otter
  https:github。comalibabaotter
  otter是在canal基础上又重新实现了可配置的消费者,使用otter的话,刚才说过的消费者就不需要写了,而otter提供了一个web界面,可以自定义同步任务及map表。非常适合mysql库之间的同步。
  另外:otter已在阿里云推出商业化版本数据传输服务DTS,开通即用,免去部署维护的昂贵使用成本。DTS针对阿里云RDS、DRDS等产品进行了适配,解决了Binlog日志回收,主备切换、VPC网络切换等场景下的同步高可用问题。同时,针对RDS进行了针对性的性能优化。出于稳定性、性能及成本的考虑,强烈推荐阿里云用户使用DTS产品。

华为的magic系统是独立的系统吗?感谢您的阅读!首先现在已经不叫华为的Magic系统!它应该叫荣耀Magic系统,实际上它的本质还是脱胎于华为之前的EMUI。因为本身华为和荣耀是两个品牌,而当……家谱内容提纲该如何写?模板来了家谱该如何修?修谱第一步家谱内容提纲该写些什么?为了方便更多的人了解家谱,今天特意整理了某姓氏六修族谱做案例,便于修谱的人作为范例。传统家谱《霞湾某氏六修族谱》内容……滴滴裁员来袭!两轮车网约车货运中台总部区域滴滴裁员来袭!两轮车、网约车、货运、中台、总部区域!新年伊始,滴滴出行裁员还是来了。经多方面与内部人士获取信息,相关情况如下:裁员指标(优化指标)已开始分部门陆续下……常用的消息队列一、redis消息队列和kafka消息队列的比较1、Redis作为消息队列Redis的pubsub模式非常像西式快餐一样,快产快消,全都是因为Redis是使用内存来……如何在微信小程序开店?小程序店铺怎么做?如今随着微信小程序的成熟发展,小程序的功能也是越来越多了,不仅可以直播、玩游戏、看书,还能开店,商家可以开通自己的小程序店铺,而用户则可以快速进入小程序店铺购物,简单又便捷。那……阿里事件,到底是谁的错更大?我作为阿里的新人,看到这样的新闻,我非常的难受,但看到所有的矛头居然都指向hr我顿时觉得避重就轻了,但想想我几年前没经历过被人敲诈勒索15。7万的刑事案件,我或许也和大家一样。……1天卖56万瓶,这款百元的红地球粉底液,虫草保湿,好用不输Y每次看日剧时,都real羡慕剧里女生的日系妆容,像是没有涂粉底液一样,皮肤状态特别好,清透自然,奶油肌般洁白无瑕,简直就是初恋的妆容啊。身边有很多小姐妹化妆前,贴保湿面膜……大厂Android开发高频面试问题说说你对Zygote的理解前言Zygote可以说是Android开发面试很高频的一道问题,但总有小伙伴在回答这道问题总不能让面试满意,在这你就要搞清楚面试问你对Zygote的理解时,他最想听到的和……相芯科技品牌全面升级创造更真实的数字世界10月19日,相芯科技带着全新品牌主张:创造更真实的数字世界,并以全新视觉形象、定位和愿景正式宣布品牌全面升级!五年蜕变,相芯科技迈入全新阶段相芯科技自2016年成……向Annie老师学习做个高度自律的人今日有幸与Annie老师来个合影向老师学习做个高度自律的人。AnnieTang唐安丽社会活动家深圳市海外留学归国人员协会秘书长深圳青年讲师团特聘讲……快上大学了,还不知道换什么手机?暑假转瞬即逝,随着各地区高考志愿填报完成,相信各位同学最兴奋的事情应该是换手机了,告别陪伴自己三年的旧手机,那么新手机应该怎么选择呢,今天我就为大家推荐几款可以度过大学四年时光……小米急了!Vidda单品狂卖万台倒逼小米电视大降价近日,京东双11爆出大黑马,对很多网友来说名不见经传的Vidda电视入围京东鲸潮计划,推出999元43英寸智能智能高清纤薄电视EA43S,在上架后短短20小时即实现销量破万的惊……
柳树醒了教学设计及课后反思设计理念:教的本质在于引导。引导的特点是含而不露,指而不明,开而不达,引而不发。引导的内容不仅包括方法和思维,同时也包括做人。引导可以表现为一种启迪,当学生迷路的时候,老……小学六年级语文开学第一课教案小学语文的开学第一课应该如何设计教案呢?以下是小编收集的相关教案,仅供大家阅读参考!教学目标:1。说说自己在寒假中的收获。2。回顾上学期的语文成绩,明确取得成……四年级上册生长教学设计【教学要求】1、正确认读本课8个生字,学会书写12个生字。2、理解课文内容,通过小约翰在优越的生活环境中,仍然自食其力的事情,对西方国家的教育背景有所了解。3……浙教版小学语文称象教学设计设计理念:1、《称象》是一篇传统课文,记叙了曹操的儿子曹冲在七岁时就动脑筋想办法称出大象的体重。课文的重难点均应放在第3、4段的理解上。2、三年级学生形象思维占主导……廉洁教育主题班会活动目的:1、通过主题班会,让学生明确贪污受贿不仅给国家、社会、家庭带来严重的危害,而且已经渗入我们的校园,影响我们年轻一代的身心健康成长。2、通过主题班会,让我们……初三古诗词文言文复习教案水滴石穿法wycong初三古诗词、文言文复习(一)教学目标:1、达到互相交流经验的目的。2、帮助学生掌握识记必背古诗词的方法。3、引导学生学会运用……第一朵杏花优秀教案设计设计理念:这是对学生进行科学上的模糊与准确的教育,读这篇文章,你传感到这篇文章写得很美,也很直白,孩子读完自会豁然开朗。而我认为,第一课时应该在定位上下功夫,所以我就从自……中国边疆地区的新危机和中法战争教学设计(二)二、中法战争(18831885年)1中法战争的爆发师:早在中法战争爆发前一百年,法国的侵略触角,就伸到了越南。1787年,法国传教士百多禄就曾奏请法国国王,建议在越……名著梗概上尉的女儿(俄国)普希金著PP彼得安德列耶维奇格利鸟夫是俄国西姆比尔斯克一个有三百个农奴的贵族的儿子。父亲安德列彼得罗维奇曾任过陆军中校。彼得还在娘肚子里时,父亲就给他登记为近卫军……促膝谈心的对对子促膝谈心的意思是形容面对面靠近坐着;亲密地交谈心里话。你们对促膝谈心的对对子了解吗?下面是品学网小编给大家整理的促膝谈心的对对子,供大家阅读!促膝谈心的对对子促膝谈心拍手……大鲸鱼的大浴缸教案【活动目标】1、尝试运用大和小的概念,运用撕贴技能表现想象情境。2、愿意帮助别人,体验活动的快乐。【活动准备】1、自制大鲸鱼,娃娃家的小浴缸图片。……初中政治考试反思篇一学生政治考试失分原因有多种,我谈几点我学生考试时的现象和我个人的反思。一:学生现象:有学生发下试卷后,赶快看看题目,然后拼命找资料翻书,翻了近十分钟还是没……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网