游戏电视苹果数码历史美丽
投稿投诉
美丽时装
彩妆资讯
历史明星
乐活安卓
数码常识
驾车健康
苹果问答
网络发型
电视车载
室内电影
游戏科学
音乐整形

Hadoop学习(12)陌陌聊天数据分析

  1陌陌聊天数据分析案例需求1。1目标
  基于Hadoop和Hive实现聊天数据统计分析,构建聊天数据分析报表。
  1。2需求统计今日总消息量统计今日每小时消息量、发送和接收用户数统计今日各地区发送消息数据量统计今日发送消息和接收消息的用户数统计今日发送消息最多的Top10用户统计今日接收消息最多的Top10用户统计发送人的手机型号分布情况统计发送人的设备操作系统分布情况1。3数据内容数据大小:两个文件共14万条数据列分隔符:制表符数据字典及样例数据
  2基于Hive数仓使用SQL实现需求开发2。1建库建表、加载数据2。1。1建库建表如果数据库已存在就删除dropdatabaseifexistsdbmsgcascade;创建数据库createdatabasedbmsg;切换数据库usedbmsg;列举数据库showdatabases;如果表已存在就删除droptableifexistsdbmsg。tbmsgsource;建表createtabledbmsg。tbmsgsource(msgtimestringcomment消息发送时间,sendernamestringcomment发送人昵称,senderaccountstringcomment发送人账号,sendersexstringcomment发送人性别,senderipstringcomment发送人ip地址,senderosstringcomment发送人操作系统,senderphonetypestringcomment发送人手机型号,sendernetworkstringcomment发送人网络类型,sendergpsstringcomment发送人的GPS定位,receivernamestringcomment接收人昵称,receiveripstringcomment接收人IP,receiveraccountstringcomment接收人账号,receiverosstringcomment接收人操作系统,receiverphonetypestringcomment接收人手机型号,receivernetworkstringcomment接收人网络类型,receivergpsstringcomment接收人的GPS定位,receiversexstringcomment接收人性别,msgtypestringcomment消息类型,distancestringcomment双方距离,messagestringcomment消息内容)指定分隔符为制表符rowformatdelimitedfieldsterminatedby;2。1。2加载数据HDFS上创建目录hdfsdfsmkdirpmomodata上传到HDFShdfsdfsputexportdatadata1。tsvmomodatahdfsdfsputexportdatadata2。tsvmomodata加载到Hive表中loaddatainpathmomodatadata1。tsvintotabledbmsg。tbmsgsource;loaddatainpathmomodatadata2。tsvintotabledbmsg。tbmsgsource;验证结果selectmsgtime,sendername,senderip,senderphonetype,receivername,receivernetworkfromtbmsgsourcelimit10;2。2ETL数据清洗2。2。1原始数据内容
  数据来源:聊天业务系统中导出的2021年11月01日一天24小时的用户聊天数据,以TSV文本形式存储在文件中。
  2。2。2数据问题问题1:当前数据中,有一些数据的字段为空,不是合法数据。问题2:需求中,需要统计每天、每个小时的消息量,但是数据中没有天和小时字段,只有整体时间字段,不好处理。问题3:需求中,需要对经度和维度构建地区的可视化地图,但是数据中GPS经纬度为一个字段,不好处理。2。2。3ETL需求需求1:对字段为空的不合法数据进行过滤
  Where过滤需求2:通过时间字段构建天和小时字段
  Substr函数需求3:从GPS的经纬度中提取经度和维度
  Split函数需求4:将ETL以后的结果保存到一张新的Hive表中
  Createtableasselect2。2。4ETL实现如果表已存在就删除droptableifexistsdbmsg。tbmsgetl;将Select语句的结果保存到新表中createtabledbmsg。tbmsgetlasselect,substr(msgtime,0,10)asdayinfo,substr(msgtime,12,2)ashourinfo,获取天和小时split(sendergps,,)〔0〕assenderlng,split(sendergps,,)〔1〕assenderlat提取经度纬度fromdbmsg。tbmsgsource过滤字段为空的数据wherelength(sendergps)0;
  查看结果selectmsgtime,dayinfo,hourinfo,sendergps,senderlng,senderlatfromdbmsg。tbmsgetllimit10;2。3需求指标统计2。3。1指标1:统计今日消息总量保存结果表createtableifnotexiststbrstotalmsgcntcomment今日消息总量asselectdayinfo,count()astotalmsgcntfromdbmsg。tbmsgetlgroupbydayinfo;2。3。2指标2:统计每小时消息量、发送和接收用户数保存结果表createtableifnotexiststbrshourmsgcntcomment每小时消息量趋势asselectdayinfo,hourinfo,count()astotalmsgcnt,count(distinctsenderaccount)assenderusrcnt,count(distinctreceiveraccount)asreceiverusrcntfromdbmsg。tbmsgetlgroupbydayinfo,hourinfo;2。3。3指标3:统计今日各地区发送消息总量保存结果表createtableifnotexiststbrsloccntcomment今日各地区发送消息总量asselectdayinfo,sendergps,cast(senderlngasdouble)aslongitude,cast(senderlatasdouble)aslatitude,count()astotalmsgcntfromdbmsg。tbmsgetlgroupbydayinfo,sendergps,senderlng,senderlat;2。3。4指标4:统计今日发送和接收用户人数保存结果表createtableifnotexiststbrsusrcntcomment今日发送消息人数、接受消息人数asselectdayinfo,count(distinctsenderaccount)assenderusrcnt,count(distinctreceiveraccount)asreceiverusrcntfromdbmsg。tbmsgetlgroupbydayinfo;2。3。5指标5:统计发送消息条数最多的Top10用户保存结果表createtableifnotexiststbrssusrtop10comment发送消息条数最多的Top10用户asselectdayinfo,sendernameasusername,count()assendermsgcntfromdbmsg。tbmsgetlgroupbydayinfo,sendernameorderbysendermsgcntdesclimit10;2。3。6指标6:统计接收消息条数最多的Top10用户保存结果表createtableifnotexiststbrsrusrtop10comment接受消息条数最多的Top10用户asselectdayinfo,receivernameasusername,count()asreceivermsgcntfromdbmsg。tbmsgetlgroupbydayinfo,receivernameorderbyreceivermsgcntdesclimit10;2。3。7指标7:统计发送人的手机型号分布情况保存结果表createtableifnotexiststbrssenderphonecomment发送人的手机型号分布asselectdayinfo,senderphonetype,count(distinctsenderaccount)ascntfromtbmsgetlgroupbydayinfo,senderphonetype;2。3。8指标8:统计发送人的操作系统分布保存结果表createtableifnotexiststbrssenderoscomment发送人的OS分布asselectdayinfo,senderos,count(distinctsenderaccount)ascntfromtbmsgetlgroupbydayinfo,senderos;
  3基于FineBI实现可视化报表3。1FineBI的介绍及安装FineBI是帆软软件有限公司推出的一款商业智能(BusinessIntelligence)产品。FineBI是定位于自助大数据分析的BI工具,能够帮助企业的业务人员和数据分析师,开展以问题导向的探索式分析。FineBI的特点通过多人协作来实现最终的可视化构建不需要通过复杂代码来实现开发,通过可视化操作实现开发适合于各种数据可视化的应用场景支持各种常见的分析图表和各种数据源支持处理大数据3。2FineBI配置数据源及数据准备FineBI与Hive集成的官方文档3。2。1驱动配置问题:如果使用FineBI连接Hive,读取Hive的数据表,需要在FineBI中添加Hive的驱动jar包。解决:将Hive的驱动jar包放入FineBI的lib目录下。找到提供的【Hive连接驱动】
  放置
  将这些文件放入FineBI的安装目录下的:webappswebrootWEBINFlib目录中。3。2。2插件安装问题:我们自己放的Hive驱动包会与FineBI自带的驱动包产生冲突,导致FineBI无法识别我们自己的驱动包。解决:安装FineBI官方提供的驱动包隔离插件。找到隔离插件
  安装插件
  重启FineBI3。2。3构建连接新建连接
  配置连接
  3。2。4数据准备新建分组
  添加业务包
  添加表
  更新业务包

靴子落地,坐等反转的时刻来临这颗悬在空中的巨石终于落地了!今日凌晨(11月4日)两点半,美联储结束会议之后,公布了维持基准利率不变,明年再考虑加息,也正式宣布缩减购债计划。每月缩减购债150亿美元,……医生建议中老年人若想要改善失眠,做好这4件事,也许会有帮助失眠几乎成为了一种普遍的社会现象,尤其是对于一些上了年纪的中老年人来说,一个好的睡眠几乎已经成为了奢望。而造成中老年人失眠的因素,有很多除了平日的饮食习惯会对我们的睡眠产生影响……秋萍退休后一人一车自驾游第57天,女司机是一个幸福的小女人今天是我一人一车自驾游第57天。很多朋友问我,你是单身吗?我现在统一回复,我不仅不是单身,我拥有一个温暖的家,孩子爱我,老公宠我。我告诉他们,爱我,就给我我想要的生活,而……小米上架120W氮化镓充电器套装USBC接口,售价299元10月29日消息,小米今天上架了一款120W氮化镓充电套装。它能够搭配昨天发布的RedmiNote11Pro实现120W快充,而且换成了USBC接口。它采用第三代半导体氮……哈登11投2988仍无缘今日最佳!对不起!你碰到NBA大杀器今日NBA赛场有7组对决,不少球员打出了优异表现,赛后NBAFantasy根据球员表现评选出了今日五佳球员,篮网球员哈登名列其中,哈登新赛季开打后受到NBA新规则的影响一直状态……夏季吃莴笋正当时,教你6种家常莴笋的做法,经济实惠美味又下饭没了烟火气,人生就是一段孤独的旅程。今天给大家分享夏季吃莴笋正当时,教你6种家常莴笋的做法,经济实惠美味又下饭,快快收藏吧!莴笋炒肉食材准备主料:猪肉300克……一颗肉眼可见的巨大小行星正朝着地球而来,或擦肩而过请记住NASA的OSIRISREx航天器,该航天器于2020年10月访问了遥远的Bennu小行星并采集了一个样本。它将在2023年9月24日将样本交付给NASA,现在它在地球上……SpaceX使用一枚四手火箭将美意宇航员送往国际空间站在佛罗里达州卡角36A发射台,SpaceX公司一枚四手猎鹰9号火箭托举着四名宇航员以及自由号龙飞船前往国际空间站。执飞此次Crew4任务的四名宇航员包括三名NASA宇航员以及一……朋友结婚文案短句结婚朋友圈文案创意一、朋友圈结婚文案短句1、我陪你到婚纱,他陪你的即将是整个人生,一路上虽然我们感情不会改变,但是婚后的你相信更多的时间是在他的身上,以及你们的家庭方面,祝愿今天的你幸福美……奔跑805天,华为鸿蒙改变了什么?在一个普通消费者看来,华为最强的是什么?我觉得应该是执行力和组织能力,有点像兵法中的风林火山,这些决定了华为更上层的技术研发能力,以及产品能力。在HDC2021开幕之际,……辽宁名帅再次下课!连续盲目接手鱼腩想再次出山难了?90100四川男篮,福建男篮又吃到一场败仗。这场输球和崔万军已经没有关系,因为福建男篮本场的主教练是朱世龙。朱世龙再次救火,虽然没有官宣,但崔万军下课已成定局。在仅打了1……中国神秘4大财团,总资产超160000亿,阿里腾讯都得靠边站随着经济的发展,也诞生了一批优秀的企业。众所周知,大家耳熟能详的阿里巴巴和腾讯是两大超级巨无霸互联网企业。马云和马化腾也是极为著名的富豪,然而阿里和腾讯却不是最牛的财团!面对真……
日本便秘小粉丸可以减肥吗?日本便秘小粉丸是治疗便秘的药品,很多人传这个也可以减肥,下面5号网的小编为你们介绍日本便秘小粉丸可以减肥吗?日本便秘小粉丸可以减肥吗日本便秘小粉丸是治疗便秘的药品,想用它……澳佳宝血糖平衡片怎么吃?澳佳宝血糖平衡片服用方法Blackmores澳佳宝血糖平衡片适合中老年人,有效控制血糖,保持健康。那么澳佳宝血糖平衡片怎么吃?澳佳宝血糖平衡片服用方法。产品介绍这款Blackmores平衡……swisse钙片多少钱?swisse钙片澳洲价格swisse钙片确实补钙效果明显,妈妈吃了一段时间,上楼就不是很累脚了。那么swisse钙片多少钱?swisse钙片澳洲价格。swisse钙片多少钱厂名:swiss……汤臣倍健蜂胶怎么样?汤臣倍健蜂胶好不好?汤臣倍健蜂胶这款保健品成分还是比较天然的,蜂胶含有多种有效成分,下面5号网的小编为你们介绍汤臣倍健蜂胶怎么样?汤臣倍健蜂胶好不好?汤臣倍健蜂胶怎么样1、抑制肿瘤汤臣……卵磷脂和鱼肝油的区别两者可以一起服用卵磷脂其实是可以和鱼油一起搭配的,这样可以达到相辅相成的效果,也是科学证实的比较完美的搭配和cp,健康身体就是现在卵磷脂和鱼肝油的作用不同深海鱼油是指富含EPA(二十碳五……好睡姿堪比养生操!11种疾病各有保护性睡姿,你适合哪种?在睡觉这件事上,人们似乎倾注了不少心血:换高价床垫,买各种材质枕头,却唯独忽略了睡姿的重要性。每天和睡眠打交道的三分之一时间里,好的睡姿不仅能消除疲惫感,甚至能缓解疾病症状,加……卵磷脂能和钙一起吃吗?分开服用为佳卵磷脂可以说是比较出名的一种成分,许多保健品都含有卵磷脂,下面5号网的小编为你们介绍卵磷脂能和钙一起吃吗?分开服用为佳。卵磷脂能和钙一起吃吗最好是分开吃,因为一个是补充人……达喜是处方药吗?达喜的功效其实是非常好的,很多人不了解达喜,所以没有吃过,下面5号网的小编为你们介绍达喜是处方药吗,达喜是处方药吗?无需处方即可购买。达喜是处方药吗达喜铝碳酸镁片是……达喜和奥美拉唑哪个好?达喜和奥美拉唑同为治疗胃病的药品,不免被消费者拿来比较,下面5号网的小编为你们介绍达喜和奥美拉唑哪个好?达喜和奥美拉唑哪个好奥美拉唑和达喜都是一些治疗胃部疾病的药物……Ortis排毒纤瘦果怎么吃?Ortis纤瘦果服用方法Ortis排毒纤瘦果和康乐膏很像,能够起到排毒通便的效果,对于有便秘烦恼的亲们可以试试哟!今天5号网小编就要为大家介绍一下,Ortis排毒纤瘦果怎么吃?Ortis纤瘦果服用方法……红金消结胶囊副作用副作用很小很多女性都吃过红金消结胶囊这一个药品,都比较担心副作用的问题,下面5号网的小编为你们介绍红金消结胶囊副作用副作用很小。红金消结胶囊副作用红金消结片为中药制剂,毒副作用不明……香砂养胃丸能空腹吃吗?空腹吃更好很多人喜欢在饭前吃药,觉得空腹吃药效果更好,下面5号网的小编为你们介绍香砂养胃丸能空腹吃吗?空腹吃更好。香砂养胃丸能空腹吃吗香砂养胃丸的根本本质是属于一种胃药,而合适的服……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网