纠纷奇闻社交美文家庭
投稿投诉
家庭城市
爱好生活
创业男女
能力餐饮
美文职业
心理周易
母婴奇趣
两性技能
社交传统
新闻范文
工作个人
思考社会
作文职场
家居中考
兴趣安全
解密魅力
奇闻笑话
写作笔记
阅读企业
饮食时事
纠纷案例
初中历史
说说童话
乐趣治疗

大数据开发Hive小文件合并

1月13日 碎骨族投稿
  Hadoop生态技术体系下,负责大数据存储管理的组件,涉及到HDFS、Hive、Hbase等。Hive作为数据仓库工具,最初的存储还是落地到HDFS上,这其中就有一个关键的环节,是小文件的处理。今天的大数据开发分享,我们就主要来讲讲,Hive小文件合并。
  本身来说,由于Hadoop的特性,对大文件的处理非常高效。大文件可以减少文件元数据信息,减轻NameNode的存储压力。相对于上层的数据表汇总程度高,底层就会面临小文件越来越多的问题。
  一、小文件带来的问题
  HDFS的文件包好数据块和元信息,其中元信息包括位置、大小、分块等信息,都保存在NameNode的内存中。每个对象大约占用150个字节,因此一千万文件及分块就会占用约3G的内存空间,一旦接近这个量级,NameNode的性能就会开始下降。
  HDFS读写小文件时也会更加耗时,因为每次都需要从NameNode获取元信息,并且对应的DataNode建立连接。对于MapReduce程序来说,小文件会增加Mapper的数量,每个Map任务只会处理很少的数据,浪费大量的调度时间。
  二、Hive小文件产生的原因
  一方面hive数据仓库中汇总表的数据量通常比源数据少的多,而且为了提升运算速度,我们会增加Reduce的数量,Hive本身也会做类似的优化Reducer数量等于源数据的量除以hive。exec。reducers。bytes。per。reduce所配置的量(默认1G)。Reduce数量的增加也即意味着结果文件的增加,从而产生小文件的问题。
  解决小文件的问题可以从两个方向入手:
  输入合并。即在map前合并小文件。
  输出合并。即在输出结果的时候合并小文件。
  三、配置Map输入合并
  每个Map最大输入大小,决定合并后的文件数
  setmapred。max。split。size256000000;
  一个节点上split的至少的大小,决定了多个datanode上的文件是否需要合并
  setmapred。min。split。size。per。node100000000;
  一个交换机下split的至少的大小,决定了多个交换机上的文件是否需要合并
  setmapred。min。split。size。per。rack100000000;
  执行Map前进行小文件合并
  sethive。input。formatorg。apache。hadoop。hive。ql。io。CombineHiveInputF
  四、配置hive结果合并
  通过设置hive的配置项在执行结束后对结果文件进行合并:
  sethive。merge。mapfilestrue在Maponly的任务结束时合并小文件
  sethive。merge。mapredfilestrue在MapReduce的任务结束时合并小文件
  sethive。merge。size。per。task25610001000合并文件的大小
  sethive。merge。smallfiles。avgsize16000000当输出文件的平均大小小于该值时,启动一个独立的mapreduce任务进行文件merge
  hive在对结果文件进行合并时会执行一个额外的maponly脚本,mapper的数量是文件总大小除以size。per。task参数所得的值,触发合并的条件是:根据查询类型不同,相应的mapfilesmapredfiles参数需要打开;结果文件的平均大小需要大于avgsize参数的值。
  关于大数据开发,Hive小文件合并,以上就为大家做了大致的介绍了。小文件合并的问题,这里提供了两种思路去解决,具体的实施就要结合到应用场景去选择了。
投诉 评论 转载

环境科学专业校外实习教学的研究与实践论文高校实践教学环节中,校外实习是强化专业知识、增加学生的感性认识和创新能力的重要综合性教学环节〔1〕。但是在落实和实施过程中往往会遇到一些障碍和困难,不能保证该环节的顺利进行,教……2020国内公司前端团队都在搞些什么?2020年是国内互联网公司发展最迅速的时代,前有技术公司华为独立开发了操作系统和国内芯片产业,后有疫情时代兴起的在线教育和直播产业,无意对前端团队带来了巨大的挑战和机遇。结合一……教师职前情感的培养与开发教育论文〔摘要〕教师情感的职前培养具有前瞻性和持久的教育效力。师范教育阶段对师范生进行教师职业情感培养开发可遵循三个贯彻始终的培养原则:职业情感的内驱力培养贯穿教育学课始终;爱心和良心……血管高通透性的原理及其对重要器官的作用论文正常的血管通透性是维持组织液生成与回流平衡的关键因素。烧伤、休克、脓毒症等严重致病因素及慢性炎症反应、糖尿病、高血压、代谢综合征等慢性致病因素,均可引起血管内皮细胞(VEC)的……无论你签什么合同,这句话一定要写上!否则吃大亏现在企业的很多财务人都不仅限于记账报税,越来越重视合同的签订。但记住,无论你签订什么合同,一定要加上这句话,否则要吃大亏!别怪小编没提醒你哦01hr签合同加上这句话,否则……拯救者Y9000K2021探索版预热联想拯救者官微预热拯救者Y9000K2021探索版,新品将采用miniLED屏幕背光技术。拯救者Y9000K2021探索版的屏幕拥有高达10000颗灯珠,可实现1152分……10万元家轿也能上赛道?吉利缤瑞带你体验速度与激情没有肉车,只有肉人8个字很精辟的描述了一位优秀驾驶者对于展现车辆性能的重要性。当然在文章开头提到这几个字并不是为了对比不同驾驶员开车的表现,而是告诉大家有些车经过深度发掘后会让……魅族Note9在巴展现场丢失,手机厂商们的撕逼从不按套路出牌WMC2019巴展上各家手机厂商争奇斗艳,尤其是国产手机纷纷出击,各自亮出绝活,而魅族以一种非常另类的方式引发了集体关注。一位疑似魅族工作人员在Facebook上发帖称,……大数据开发Hive小文件合并Hadoop生态技术体系下,负责大数据存储管理的组件,涉及到HDFS、Hive、Hbase等。Hive作为数据仓库工具,最初的存储还是落地到HDFS上,这其中就有一个关键的环节……日本老牌游戏大厂世嘉宣布与微软合作云服务制作超级大作日本知名游戏开发商世嘉宣布与微软就建立战略联盟达成原则性协议。世嘉将通过微软的Azure云平台的次世代开发环境探索制作全球化的大型游戏方法,利用世嘉的开发经验与微软强大的开发技……2019农业与食品科技的五大趋势资本实验室今日创新观察聚焦前沿科技创新与传统产业升级张珂民以食为天。吃,在我们的生活中,是一件天大的事情。随着健康意识的不断增强,我们对食物的要求越来越高。同……设计模式12外观模式外观模式为子系统中的一组接口提供一个一致的界面,此模式定义了一个高层接口,这个接口使得这一子系统更加容易使用。外观模式示例代码includeiostreamusin……
火遍全国的凡尔赛本赛火速上市,不想试一下吗?助听器什么叫耳内机?受芯片短缺影响苹果公司或下调iPhone产量目标小米对第一批手机用户返钱合理合法吗?麒麟芯回来了?华为新机发布,搭载中芯国际14nm工艺芯片重温经典的经典回归魔界村,有让你被回忆杀到吗?艾创米解密全自动指纹锁优缺点驶向绿色与智慧快车道手机遇水如何处理?爱押教你四步,轻松应对特斯拉车顶维权案今日开庭特斯拉回应积极应诉QCYHT01很强?那是你没见到漫步者LollipodsPr9。28成都蜂巢易网BeeconX亮相2021未来全宅巡回论
古代状元是多大的官职?考上状元就一定能当官么?著名的座右铭家中养的石斛怎么施肥?迷茫生完宝宝,还没来大姨妈却怀孕了!这是传说中一碰就怀吗?都说系统好用因为你还不知道这上班族减肥健身小秘方1990年代十大最重要的电子游戏小学生迎来好消息,又一减负政策出台,减轻了肩上的重量他捏造假融资碰瓷5大头部VC企业要打破常规引进和培养人才试用期个人工作总结

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找美丽时装彩妆资讯历史明星乐活安卓数码常识驾车健康苹果问答网络发型电视车载室内电影游戏科学音乐整形