Hadoop学习(12)陌陌聊天数据分析
1陌陌聊天数据分析案例需求1。1目标
基于Hadoop和Hive实现聊天数据统计分析,构建聊天数据分析报表。
1。2需求统计今日总消息量统计今日每小时消息量、发送和接收用户数统计今日各地区发送消息数据量统计今日发送消息和接收消息的用户数统计今日发送消息最多的Top10用户统计今日接收消息最多的Top10用户统计发送人的手机型号分布情况统计发送人的设备操作系统分布情况1。3数据内容数据大小:两个文件共14万条数据列分隔符:制表符数据字典及样例数据
2基于Hive数仓使用SQL实现需求开发2。1建库建表、加载数据2。1。1建库建表如果数据库已存在就删除dropdatabaseifexistsdbmsgcascade;创建数据库createdatabasedbmsg;切换数据库usedbmsg;列举数据库showdatabases;如果表已存在就删除droptableifexistsdbmsg。tbmsgsource;建表createtabledbmsg。tbmsgsource(msgtimestringcomment消息发送时间,sendernamestringcomment发送人昵称,senderaccountstringcomment发送人账号,sendersexstringcomment发送人性别,senderipstringcomment发送人ip地址,senderosstringcomment发送人操作系统,senderphonetypestringcomment发送人手机型号,sendernetworkstringcomment发送人网络类型,sendergpsstringcomment发送人的GPS定位,receivernamestringcomment接收人昵称,receiveripstringcomment接收人IP,receiveraccountstringcomment接收人账号,receiverosstringcomment接收人操作系统,receiverphonetypestringcomment接收人手机型号,receivernetworkstringcomment接收人网络类型,receivergpsstringcomment接收人的GPS定位,receiversexstringcomment接收人性别,msgtypestringcomment消息类型,distancestringcomment双方距离,messagestringcomment消息内容)指定分隔符为制表符rowformatdelimitedfieldsterminatedby;2。1。2加载数据HDFS上创建目录hdfsdfsmkdirpmomodata上传到HDFShdfsdfsputexportdatadata1。tsvmomodatahdfsdfsputexportdatadata2。tsvmomodata加载到Hive表中loaddatainpathmomodatadata1。tsvintotabledbmsg。tbmsgsource;loaddatainpathmomodatadata2。tsvintotabledbmsg。tbmsgsource;验证结果selectmsgtime,sendername,senderip,senderphonetype,receivername,receivernetworkfromtbmsgsourcelimit10;2。2ETL数据清洗2。2。1原始数据内容
数据来源:聊天业务系统中导出的2021年11月01日一天24小时的用户聊天数据,以TSV文本形式存储在文件中。
2。2。2数据问题问题1:当前数据中,有一些数据的字段为空,不是合法数据。问题2:需求中,需要统计每天、每个小时的消息量,但是数据中没有天和小时字段,只有整体时间字段,不好处理。问题3:需求中,需要对经度和维度构建地区的可视化地图,但是数据中GPS经纬度为一个字段,不好处理。2。2。3ETL需求需求1:对字段为空的不合法数据进行过滤
Where过滤需求2:通过时间字段构建天和小时字段
Substr函数需求3:从GPS的经纬度中提取经度和维度
Split函数需求4:将ETL以后的结果保存到一张新的Hive表中
Createtableasselect2。2。4ETL实现如果表已存在就删除droptableifexistsdbmsg。tbmsgetl;将Select语句的结果保存到新表中createtabledbmsg。tbmsgetlasselect,substr(msgtime,0,10)asdayinfo,substr(msgtime,12,2)ashourinfo,获取天和小时split(sendergps,,)〔0〕assenderlng,split(sendergps,,)〔1〕assenderlat提取经度纬度fromdbmsg。tbmsgsource过滤字段为空的数据wherelength(sendergps)0;
查看结果selectmsgtime,dayinfo,hourinfo,sendergps,senderlng,senderlatfromdbmsg。tbmsgetllimit10;2。3需求指标统计2。3。1指标1:统计今日消息总量保存结果表createtableifnotexiststbrstotalmsgcntcomment今日消息总量asselectdayinfo,count()astotalmsgcntfromdbmsg。tbmsgetlgroupbydayinfo;2。3。2指标2:统计每小时消息量、发送和接收用户数保存结果表createtableifnotexiststbrshourmsgcntcomment每小时消息量趋势asselectdayinfo,hourinfo,count()astotalmsgcnt,count(distinctsenderaccount)assenderusrcnt,count(distinctreceiveraccount)asreceiverusrcntfromdbmsg。tbmsgetlgroupbydayinfo,hourinfo;2。3。3指标3:统计今日各地区发送消息总量保存结果表createtableifnotexiststbrsloccntcomment今日各地区发送消息总量asselectdayinfo,sendergps,cast(senderlngasdouble)aslongitude,cast(senderlatasdouble)aslatitude,count()astotalmsgcntfromdbmsg。tbmsgetlgroupbydayinfo,sendergps,senderlng,senderlat;2。3。4指标4:统计今日发送和接收用户人数保存结果表createtableifnotexiststbrsusrcntcomment今日发送消息人数、接受消息人数asselectdayinfo,count(distinctsenderaccount)assenderusrcnt,count(distinctreceiveraccount)asreceiverusrcntfromdbmsg。tbmsgetlgroupbydayinfo;2。3。5指标5:统计发送消息条数最多的Top10用户保存结果表createtableifnotexiststbrssusrtop10comment发送消息条数最多的Top10用户asselectdayinfo,sendernameasusername,count()assendermsgcntfromdbmsg。tbmsgetlgroupbydayinfo,sendernameorderbysendermsgcntdesclimit10;2。3。6指标6:统计接收消息条数最多的Top10用户保存结果表createtableifnotexiststbrsrusrtop10comment接受消息条数最多的Top10用户asselectdayinfo,receivernameasusername,count()asreceivermsgcntfromdbmsg。tbmsgetlgroupbydayinfo,receivernameorderbyreceivermsgcntdesclimit10;2。3。7指标7:统计发送人的手机型号分布情况保存结果表createtableifnotexiststbrssenderphonecomment发送人的手机型号分布asselectdayinfo,senderphonetype,count(distinctsenderaccount)ascntfromtbmsgetlgroupbydayinfo,senderphonetype;2。3。8指标8:统计发送人的操作系统分布保存结果表createtableifnotexiststbrssenderoscomment发送人的OS分布asselectdayinfo,senderos,count(distinctsenderaccount)ascntfromtbmsgetlgroupbydayinfo,senderos;
3基于FineBI实现可视化报表3。1FineBI的介绍及安装FineBI是帆软软件有限公司推出的一款商业智能(BusinessIntelligence)产品。FineBI是定位于自助大数据分析的BI工具,能够帮助企业的业务人员和数据分析师,开展以问题导向的探索式分析。FineBI的特点通过多人协作来实现最终的可视化构建不需要通过复杂代码来实现开发,通过可视化操作实现开发适合于各种数据可视化的应用场景支持各种常见的分析图表和各种数据源支持处理大数据3。2FineBI配置数据源及数据准备FineBI与Hive集成的官方文档3。2。1驱动配置问题:如果使用FineBI连接Hive,读取Hive的数据表,需要在FineBI中添加Hive的驱动jar包。解决:将Hive的驱动jar包放入FineBI的lib目录下。找到提供的【Hive连接驱动】
放置
将这些文件放入FineBI的安装目录下的:webappswebrootWEBINFlib目录中。3。2。2插件安装问题:我们自己放的Hive驱动包会与FineBI自带的驱动包产生冲突,导致FineBI无法识别我们自己的驱动包。解决:安装FineBI官方提供的驱动包隔离插件。找到隔离插件
安装插件
重启FineBI3。2。3构建连接新建连接
配置连接
3。2。4数据准备新建分组
添加业务包
添加表
更新业务包
日本便秘小粉丸可以减肥吗?日本便秘小粉丸是治疗便秘的药品,很多人传这个也可以减肥,下面5号网的小编为你们介绍日本便秘小粉丸可以减肥吗?日本便秘小粉丸可以减肥吗日本便秘小粉丸是治疗便秘的药品,想用它……
澳佳宝血糖平衡片怎么吃?澳佳宝血糖平衡片服用方法Blackmores澳佳宝血糖平衡片适合中老年人,有效控制血糖,保持健康。那么澳佳宝血糖平衡片怎么吃?澳佳宝血糖平衡片服用方法。产品介绍这款Blackmores平衡……
swisse钙片多少钱?swisse钙片澳洲价格swisse钙片确实补钙效果明显,妈妈吃了一段时间,上楼就不是很累脚了。那么swisse钙片多少钱?swisse钙片澳洲价格。swisse钙片多少钱厂名:swiss……
汤臣倍健蜂胶怎么样?汤臣倍健蜂胶好不好?汤臣倍健蜂胶这款保健品成分还是比较天然的,蜂胶含有多种有效成分,下面5号网的小编为你们介绍汤臣倍健蜂胶怎么样?汤臣倍健蜂胶好不好?汤臣倍健蜂胶怎么样1、抑制肿瘤汤臣……
卵磷脂和鱼肝油的区别两者可以一起服用卵磷脂其实是可以和鱼油一起搭配的,这样可以达到相辅相成的效果,也是科学证实的比较完美的搭配和cp,健康身体就是现在卵磷脂和鱼肝油的作用不同深海鱼油是指富含EPA(二十碳五……
好睡姿堪比养生操!11种疾病各有保护性睡姿,你适合哪种?在睡觉这件事上,人们似乎倾注了不少心血:换高价床垫,买各种材质枕头,却唯独忽略了睡姿的重要性。每天和睡眠打交道的三分之一时间里,好的睡姿不仅能消除疲惫感,甚至能缓解疾病症状,加……
卵磷脂能和钙一起吃吗?分开服用为佳卵磷脂可以说是比较出名的一种成分,许多保健品都含有卵磷脂,下面5号网的小编为你们介绍卵磷脂能和钙一起吃吗?分开服用为佳。卵磷脂能和钙一起吃吗最好是分开吃,因为一个是补充人……
达喜是处方药吗?达喜的功效其实是非常好的,很多人不了解达喜,所以没有吃过,下面5号网的小编为你们介绍达喜是处方药吗,达喜是处方药吗?无需处方即可购买。达喜是处方药吗达喜铝碳酸镁片是……
达喜和奥美拉唑哪个好?达喜和奥美拉唑同为治疗胃病的药品,不免被消费者拿来比较,下面5号网的小编为你们介绍达喜和奥美拉唑哪个好?达喜和奥美拉唑哪个好奥美拉唑和达喜都是一些治疗胃部疾病的药物……
Ortis排毒纤瘦果怎么吃?Ortis纤瘦果服用方法Ortis排毒纤瘦果和康乐膏很像,能够起到排毒通便的效果,对于有便秘烦恼的亲们可以试试哟!今天5号网小编就要为大家介绍一下,Ortis排毒纤瘦果怎么吃?Ortis纤瘦果服用方法……
红金消结胶囊副作用副作用很小很多女性都吃过红金消结胶囊这一个药品,都比较担心副作用的问题,下面5号网的小编为你们介绍红金消结胶囊副作用副作用很小。红金消结胶囊副作用红金消结片为中药制剂,毒副作用不明……
香砂养胃丸能空腹吃吗?空腹吃更好很多人喜欢在饭前吃药,觉得空腹吃药效果更好,下面5号网的小编为你们介绍香砂养胃丸能空腹吃吗?空腹吃更好。香砂养胃丸能空腹吃吗香砂养胃丸的根本本质是属于一种胃药,而合适的服……