手把手教你用Pandas库对淘宝原始数据进行数据处理和分词处

美丽时装
彩妆资讯
历史明星
乐活安卓
数码常识
驾车健康
苹果问答
网络发型
电视车载
室内电影
游戏科学
音乐整形

手把手教你用Pandas库对淘宝原始数据进行数据处理和分词处

　　来源：Python爬虫与数据挖掘
　　作者：Python进阶者
　　大家好，我是Python进阶者。一、前言
　　大家好，我是Python进阶者，上个礼拜的时候，我的Python交流群里有个名叫程序的大佬，头像是绿色菜狗的那位，在Python交流群里边的人应该都知道我说的是哪个大佬了，他提供了一份初始淘宝数据，数据乍看上去非常杂乱无章，但是经过小小明大佬的神化处理之后，一秒就变清晰了，真是太神了，然后就有了后续的数据分词处理和可视化等内容了，可能群里的人平时工作太忙，没有来得及看群消息，作为热心的群主，这里给大家整理成一篇文章，感兴趣的小伙伴，可以去实操一下，还是可以学到很多东西的。言归正传，一起来学习下今天的数据分析内容吧。二、原始数据预处理
　　1、原始数据
　　在未经过处理之前的数据，长这样，大家可以看看，全部存储在一个单元格里边了，看得十分的让人难受。如下图所示。
　　按照常规来说，针对上面的数据，我们肯定会选择Excel里边的数据分列进行处理，然后依次的去根据空格、冒号去分割，这样可以得到一份较为清晰的数据表，诚然，这种方法确实可行，但是小小明大佬另辟蹊径，给大家用Python中的正则表达式来处理这个数据，处理方法如下。
　　2、原始数据预处理
　　小小明大佬直接使用正则表达式re模块和pandas模块进行处理，方法可谓巧妙，一击即中，数据处理代码如下。importreimportpandasaspdresult〔〕withopen（r淘宝数据。csv）asf：forlineinf：rowdict（re。findall（（〔：〕）：（〔：〕），line））ifrow：result。append（row）dfpd。DataFrame（result）df。toexcel（newdata。xlsx，encodingutf8）print（df）
　　之后我们可以看到效果图，如下图所示，这下是不是感觉到清爽了很多呢？
　　至此，我们对原始的数据进行了预处理，但是这还不够，我们今天主要的目标是对上面数据中的两列：配料表和保质期进行数据分析，接下来继续我们的数据处理和分析。三、对配料表和保质期列进行处理
　　一开始的时候，程序大佬对配料表和保质期这两列的数据进行处理，但是来回得到的分词中总有一些特殊字符，如下图所示，我们可以看到这些字符里边有、顿号、空格等内容。
　　我们都知道，这些是我们不需要的字符，当时我们在群里讨论的时候，我们就想到使用停用词去针对这些扰人的字符进行处理，代码如下。创建停用词listdefstopwordslist（filepath）：stopwords〔line。strip（）forlineinopen（filepath，r，encodinggbk）。readlines（）〕returnstopwords对句子进行分词defsegsentence（sentence）：sentencesegedjieba。cut（sentence。strip（））stopwordsstopwordslist（stopword。txt）这里加载停用词的路径outstrforwordinsentenceseged：ifwordnotinstopwords：ifword！：outstrwordoutstrreturnoutstr
　　其中stopword。txt是小编之前在网上找到的一个存放一些常用特殊字符的txt文件，这个文件内容可以看看下图。
　　如上图所示，大概有1894个词左右，其实在做词频分析的时候，使用停用词去除特殊字符是经常会用到的，感兴趣的小伙伴可以收藏下，也许后面你会用到呢？代码和数据我统一放到文末了，记得去取就行。经过这一轮的数据处理之后，我们得到的数据就基本上没有太多杂乱的字符了，如下图所示。
　　得到这些数据之后，接下来我们需要对这些词语做一些词频统计，并且对其进行可视化。如果还有想法的话，也可以直接套用词云模板，生成漂亮的词云图，也未尝不可。四、词频统计
　　关于词频统计这块，小编这里介绍两种方法，两个代码都是可以用的，条条大路通罗马，一起来看看吧！
　　方法一：常规处理
　　这里使用的是常规处理的方法，代码亲测可用，只需要将代码中的1。txt进行替换成你自己的那个需要分词统计的文档即可，然后系统会自动给你生成一个Excel表格和一个TXT文件，内容都是一样的，只不过一个是表格，一个是文本。！usrbinenvpython3coding：utf8importsysimportjiebaimportjieba。analyseimportxlwt写入Excel表的库reload（sys）sys。setdefaultencoding（utf8）ifnamemain：wbkxlwt。Workbook（encodingascii）sheetwbk。addsheet（wordCount）Excel单元格名字wordlst〔〕keylist〔〕forlineinopen（1。txt，encodingutf8）：1。txt是需要分词统计的文档itemline。strip（r）。split（）制表格切分printitemtagsjieba。analyse。extracttags（item〔0〕）jieba分词fortintags：wordlst。append（t）worddict｛｝withopen（wordCountalllyrics。txt，w）aswf2：打开文件foriteminwordlst：ifitemnotinworddict：统计数量worddict〔item〕1else：worddict〔item〕1orderListlist（worddict。values（））orderList。sort（reverseTrue）printorderListforiinrange（len（orderList））：forkeyinworddict：ifworddict〔key〕orderList〔i〕：wf2。write（keystr（worddict〔key〕））写入txt文档keylist。append（key）worddict〔key〕0foriinrange（len（keylist））：sheet。write（i，1，labelorderList〔i〕）sheet。write（i，0，labelkeylist〔i〕）wbk。save（wordCountalllyrics。xls）保存为wordCount。xls文件
　　方法二：使用Pandas优化处理
　　这里使用Pandas方法进行处理，代码如下，小编也是亲测有效，小伙伴们也可以去尝试下。defgetdata（df）：将食品添加剂这一列空的数据设置为无print（df）df。loc〔：，食品添加剂〕df〔食品添加剂〕。fillna（无）df。loc〔：，保质期〕df〔保质期〕。fillna（无）df。loc〔：，配料表〕df〔配料表〕。fillna（无）分词并扩展提取namesdf。配料表。apply（jieba。lcut）。explode（）过滤长度小于等于1的词并去重df1names〔names。apply（len）1〕。valuecounts（）withpd。ExcelWriter（taobao。xlsx）aswriter：df1。toexcel（writer，sheetname配料）df2pd。readexcel（taobao。xlsx，headerNone，skiprows1，names〔column1，column2〕）print（df2）
　　上面两个代码都是可以用的，最后得到的表格数据，如下图所示。
　　从上图我们可以看到配料表里边的配料占比详情，有了上述的数据之后，接下来我们就可以对其进行可视化操作了。关于可视化的内容，小编也给大家已经准备好了，等待下一篇原创文章，给大家输出，敬请期待。
　　五、总结
　　大家好，我是Python进阶者。本文写到这里，基本上就告一段落了。本文基于一份杂乱的淘宝原始数据，利用正则表达式re库和Pandas数据处理对数据进行清洗，然后通过stopword停用词对得到的文本进行分词处理，得到较为干净的数据，之后利用传统方法和Pandas优化处理两种方式对数据进行词频统计，针对得到的数据，下一步将利用Pyecharts库，进行多重可视化处理，包括但不限于饼图、柱状图、Table表、漏斗图、极化图等，通过一系列的改进和优化，一步步达到想要的效果，可以说是干货满满，实操性强，亲测有效。

风起洛阳柳适是柳然的父亲吗，风起洛阳柳适扮演者风起洛阳说出很多人不清楚，可风起洛阳剧中柳适是不是柳然的父亲，很多网友就想去了解一下有关的故事，看风起洛阳里面柳适能推动剧情不断往下发展，过后能找到幕后的操纵者，但有的网友就不……被盗企鹅号月入7万？一篇文章为你揭露自媒体圈的黑暗内幕这几天，《河南女孩露露给我上了一堂七万的课》的文章刷屏了，而且还成了新闻，被新浪科技，等众多媒体转发，甚至还被腾讯老板pony关注。不看不知道，一看吓一跳，原来做自媒体号的收入……台式电脑拆掉显卡，外接到8寸电脑上，性能居然如此强大这是一台8寸的笔记本电脑，GPDWINMax，价值5799元，自带雷电3接口，可以直接数据传输，充电以及连接显卡扩展坞。有人觉得都花5000多买电脑了，还要再花更多的钱配……风起洛阳武攸决原型，风起洛阳武攸决扮演者风起洛阳说出很多人不清楚，可风起洛阳剧情中武攸决参考的原型，很多网友就想去了解一下有关的故事，看风起洛阳剧情演绎的武攸决部分按照历史原型来写，才会觉得很真实，但有的网友就不清楚……斗罗大陆假日暖洋洋陷入争议，制作方纷纷道歉随着影视剧行业的发展，精品影视剧层出不穷，潜移默化中养刁了现在的观众们的品味，那些粗制滥造的影视剧已经很难得到人们的青睐。而随着人们版权意识的提高，影视剧中的抄袭现象更是被人所……庆余年第二季什么时候上映？换人了还是原班人马？当初《庆余年》热播的时候，很多人都被这部电视剧吸引了，当这部剧结束的时候，很多网友都觉得不过瘾，都一直好奇还会不会有第二季？那么今天我们就来讲讲庆余年第二季什么时候上映，以及会……TFZKINGII耳机魅族HIFI解码耳放，极具性价比的初烧今年618的时候买了不少数码产品，魅族16s和OPPOR17Pro就在其中。虽然两款手机使用耳机必须使用转接头才行，但我一向使用无线耳机居多，影响也不大。可手上有条TFZKIN……无限深度什么时候上映，无限深度演员表无限深度说出很多人不清楚，可无限深度电影是什么时候上映，很多网友就想去了解一下有关的故事，看无限深度上映时间变得很接近，预告片都给呈现到观众的面前来欣赏，但有的网友就不清楚无限……十大震撼科幻电影科幻电影第九区上榜十大震撼科幻电影：1。阿凡达，2。星际穿越，3。盗梦空间，4。独立日，5。复仇者联盟，6。星球大战，7。黑客帝国，8。火星救援，9。钢铁侠，10。第九区。1。《阿凡达》1……龙虎武师什么时候上映，龙虎武师演员表龙虎武师说出很多人不清楚，可龙虎武师电影是什么时候上映，很多网友就想去了解一下有关的故事，看龙虎武师的拍摄进度早都给完成，上映时间早都给定好，过不长时间能上映，但有的网友就不清……小舍得田雨岚颜鹏离婚了吗电视剧小舍得结局是什么最近被一部《小舍得》刷屏啦，在这部剧中田雨岚的争议很大，她在教育孩子的这件事上和老公颜鹏发生了很大分歧，最后导致儿子患上了严重抑郁症，那么在剧的最后《小舍得》田雨岚颜鹏离婚了吗……教父电影讲的是什么？教父电影好看吗评价如何《教父》是美国电影之一，而且看过《教父》这部电影的人非常多，像《教父》这样的影片其实在美国是十分成功的，也成了人类电影史上被大家公认的一部最佳的电影，那教父电影讲的是什么？这部……

<<<<<<－>>>>>>

白色月光小三到底是谁孙雯雯和张雁谁才是真正的第三者近日，电视剧《白色月光》正在热播当中，剧中最吊大家胃口的就是关于谁才是真正的小三的问题，《白色月光》中小三到底是谁呢？孙雯雯和和张雁谁才是真正的第三者，一起来看一下具体的情况。……三星S22Ultra最新消息，仍使用前代相同的1。08亿主摄前几天相关消息显示，三星于前段时间更新了GalaxyA系列、GalaxyM系列、GalaxyZ系列、GalaxyS系列商标注册信息，唯独缺失GalaxyNote系列的商标。所以……苹果官宣！下周三发布会来了苹果官方已正式宣布，秋季发布会将于美国西海岸时间9月14日（北京时间9月15日凌晨1点）正式举行。应该只有少部分果粉知道，发布会都是提前录好播放的，往年在很多视频直播类平……我们的新时代窦骁第几集窦骁在金陵十三钗演谁近日电视剧《我们的新时代》已经在全网播出了，目前这部剧已经跟新到了18集，在最新更新的剧情中我们看到窦骁在里面饰演的是一个军人，那么我们的新时代窦骁第几集？以及窦骁在金陵十三钗……海洋设备和高端装备检验检测服务集群示范园区项目荣获中国服务实9月4日，中国国际服务贸易交易会服务示范案例颁奖典礼在北京国家会议中心举行。海检集团全资子公司海检检测有限公司申报的海洋设备和高端装备检验检测服务集群示范园区项目荣获中国服务实……烈火如歌小说结局看不懂，烈火如歌小说男主是谁古装剧《烈火如歌》给带来烈火山庄的继承人烈如歌，她因十九年前的尘封往事所卷入漩涡中的事情，直到最后战枫存在活下来，不过他已经成魔，可见男主银雪发生的恋情产生多少曲折呀。1……五竹为什么打不过庆帝庆余年原著五竹的结局死了吗？因为庆帝在叶轻眉的帮助下修炼了王者真气，而五竹打不过庆帝的原因就是因为这个。其实，就算是庆帝修炼了王者真气成为了大宗师也依然不是五竹的眼睛被眼罩蒙住了，实力大减，所以五竹才打不……车晓演过哪些电视剧好看的？冷门女神车晓电视剧大盘点车晓可是一位女神级别的演员，了解的人都知道车晓在娱乐圈的人气还可以，一直以来都默默的演戏，在娱乐圈这些年也给我们带来了非常多的好作品。下面车晓演过哪些电视剧好看的？冷门女神车晓……国内恐怖片排行2018TOP10国产恐怖片吓人还是吓人国内恐怖片排行2018TOP10：国产恐怖片吓人还是吓人恐怖片是通过营造恐怖气氛，并且挖掘你内心中的恐怖情绪的电影。国产恐怖片也有不少经典作品，虽然没有鬼照样可以吓死人，……梅艳芳经典电影7080后深深的回忆梅艳芳经典电影：7080后深深的回忆梅艳芳经典电影，7080后深深的回忆。梅艳芳是第一位在音乐界和电影界都取得瞩目成就的香港女艺人，第一位获得中国国家级音乐艺术成就荣誉的……特斯拉收SEC传票，买比特币减值超6亿，马斯克又惹麻烦？当地时间2月7日，特斯拉向美国证券交易委员会（SEC）提交了年报K10文件。文件显示，由于公司比特币的账面价值变化，计提了约1。01亿美元（约合6。42亿元人民币）的减值损失。……黑鲨5已送网备案，将带来鸡血百瓦快充近日，知名数码博主数码闲聊站曝光代号为Blackshark5A0KTUSSHARK的黑鲨新机已经备案，认证命名为黑鲨5。他还在微博中称，黑鲨将在今年下半年发布一款小迭代更……

友情链接：易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网