Python数据分析,办公自动化,数据预处理该怎做?
数据分析时,首先应对数据进行清洗,这里将数据清洗分为重复值处理、缺失值处理、异常值处理三个部分,重复值处理可删除重复的字段,缺失值处理可以用线性插值、填充为0或用均值填充等,异常值处理用描述性分析、散点图、箱形图、直方图查找异常并处理。
本文使用超市商品交易数据,详细介绍重复值处理、缺失值处理、异常值处理的方法,并实际运用数据进行演示,代码操作如下所示。导入数据importpandasaspddfpd。readcsv(rC:Users尚天强Desktop超市商品交易。csv,enginepython,encodingutf8sig)df。head()
重复值处理
首先对重复值计数。df。duplicated()。valuecounts()
用dropduplicates的方法对某几列下面的重复行删除,subset:以某列作为基准列,判断是否重复;keep:保留哪个字段,fisrt参数保留首次出现的数值;inplace:是否替换当前数据,True选择替换当前数据。df。dropduplicates(subset〔商品码〕,keepfirst,inplaceTrue)df。duplicated()。valuecounts()
缺失值处理
通过isnull函数看一下是否有空值,结果是有空值的地方显示为True,没有的显示为False。df。head(11)。isnull()
使用info查看各个字段的属性,标记的部分为缺失的部分。df。info()
通过isnull()。any()查看每一列是否有空值,True返回缺失值。df。isnull()。any()
用df。isnull()。valuesTrue来定位哪几行是有空值的。df〔df。isnull()。valuesTrue〕
howany只要有一个缺失值就删除,axis0,删除的是行,默认删除的是行,inplaceTrue替换原始数据。df。dropna(howany,axis0,inplaceTrue)df。info()
fillna(0)用0对缺失值进行填充。df1df〔df。isnull()。valuesTrue〕df1。fillna(0)
limit用来限定填充的数量。df1。fillna(0,limit3)
{}对不同的列填充不同的值,其中键作为列,值作为缺失值填充的值。df1。fillna({售价:0,成交价:0,进价:NA})
method方法使用ffill,表示用前一个值作为填充的值。df1。fillna(methodffill)
median方法使用中位数的值进行填充。df1。fillna(df1。median())
interpolate表示线性插值。df〔df。isnull()。valuesTrue〕。interpolate()线性插值
异常值处理
describe()对统计字段进行描述性分析,从平均值、标准差,看数据的波动情况,最大值查看数据的极值。df〔〔售价,进价〕〕。describe()
做出散点图,查看数据中异常的点,图中标记的点就是异常的点。frommatplotlibimportpyplotaspltplt。rcParams〔font。sansserif〕SimHei解决中文乱码问题plt。scatter(df〔售价〕,df〔进价〕)plt。title(散点图,loccenter)plt。show()
做出箱线图,反映原始数据分布的特征。plt。subplot(1,2,1)plt。boxplot(df〔数量〕,labels〔数量〕)plt。subplot(1,2,2)plt。boxplot(df〔售价金额〕,labels〔售价金额〕)plt。show()
做售价金额的折线图,售价金额呈波动趋势。plt。plot(df〔售价金额〕)
用箱形图的办法,超过了上四分位1。5倍四分位距或下四分位1。5倍距离都算异常值,用中位数填充。importnumpyasnpadf〔售价金额〕。quantile(0。75)bdf〔售价金额〕。quantile(0。25)cdf〔售价金额〕c〔(c(ab)1。5a)(cb(ab)1。5)〕np。nanc。fillna(c。median(),inplaceTrue)c。describe()
用标准差和均值,定义超过4倍就算异常值,同样用中位数填充。adf〔售价金额〕。mean()df〔售价金额〕。std()4bdf〔售价金额〕。mean()df〔售价金额〕。std()4cdf〔售价金额〕c〔(ca)(cb)〕np。nanc。fillna(c。median(),inplaceTrue)c。describe()
正态性检验,发现售价金额呈右偏分布,表明售价金额并不是正态分布。importseabornassnssns。distplot(df〔售价金额〕)解决负号无法正常显示问题plt。rcParams〔axes。unicodeminus〕Falseplt。show()
张韶涵出道后经历了什么大事件曾经历经磨难一个好的嗓音会被称之为ldquo;被天使亲吻过rdquo;,张韶涵的嗓音让几代人觉得惊艳,且还有愈演愈烈的趋势哦作为82年出生的中国台湾女歌手、演员,张韶涵出道早,幼年时候经历……
森碟有胸了女孩也该发育了颜值如今逆天田亮是有名的奥运冠军,他之后从退役了之后就是去进入到了娱乐圈中的,说实话田亮的发展并不是特别的好的,当然了和他本身的颜值以及他的专业也是有很大的关系的,但是的这两年的田亮的发展……
娜依灵儿收费视频是什么推女郎捂胸的动作好诱人娜依灵儿是推女郎,在网络中有着很多娜依灵儿一样工作属性的女模特,只是这些女模特到底是有什么好处,至今是未解之谜,娜依灵儿收费视频是什么?这些女模特其实本身身高什么不突出,只是身……
黄忆慈多高个人资料身高已经直逼老爸说到黄忆慈多高以及个人资料介绍,很多人一时之间难以反应过来谁是黄忆慈,其实不就是黄多多咯,当年跟着爸爸参加《爸爸去哪儿第二季》的多多凭借乖巧懂事的性格赢得诸多观众们的喜爱,现在……
多多为什么叫黄忆慈爷爷和爸爸都用心取名多多为什么叫黄忆慈,因为黄忆慈的爸爸叫黄磊,首先可以确定就是黄磊的女儿姓黄,忆慈是给孩子取的名字。取名往往都是有寓意的,代表着对孩子的期待,黄忆慈代表者什么呢?黄忆慈这个名字是……
tt睡vava中国有嘻哈选手们的瓜比节目还要更精彩最近这几年嘻哈歌手似乎很火热啊,唱rap的人是越来越多的,但要说最经典的节目还是Hiphop音乐选秀节目《中国有嘻哈》,当时这档节目中涌现出了非常多优秀的rapper,其中tt……
犀利哥怎么火的为什么流浪被利用精神不正常吗犀利哥到底是因为什么流浪,这个事情一直是困扰着很多网友,是想不通犀利哥这样正常,结果呢?还是在外面一直是一个人,不回家,也没有任何的联系,这样的流浪究竟是遭遇了什么事情呢?关于……
把女朋友撩到湿的句子生活的精髓随时都是段子撩女朋友其实是一个技术活,如果说两个人刚刚确定了关系,使用了撩女朋友的套路句子,那么将会很快分手吧!会被误会这个人就是为了身体,至于其他则是得到了不会珍惜吧!在撩女朋友中到底是……
啥也不懂,我也来说说企业家,资本家,大家愿意喷就喷对于企业家,资本家的讨论也不知道从啥时候开始,感觉挺激烈的,经常能刷到看到。嗯,大家现在都吃饱了,可以说了。可能是从华为被美国打压,孟女士在外被非法扣押限制出行。也可能是……
2008年汶川阴兵借道死人太多阴间能够被装下吗阴兵借道这个名词相信很多人已经是看过了,对于太多人来说确实是经过了不知道多少猜测,阴兵借道的画面只是会出现在漫画中,但是也是一些人亲眼看过,结果是没有被带走,这些应该是被魔鬼诱……
李靓蕾四年剖了三胎为了要儿子这也太拼了不少人觉得明星们都喜欢生很多孩子。原因是人家有钱,对于养孩子这个问题根本就不是问题。在普通人看来两个孩子就已经很有压力了。而对于明星们来说他们希望是多多益善。大家也发现了很多明……
能否晒一晒你的手机摄影作品,并简要谈谈手机摄影怎么玩,才能玩我的华为手机拍得美片用手机摄影,虽然很方便,随时都可以抓拍到精彩的瞬间。但要拍到高画质和精彩照片,还要遵守一定原则。首先,要选择每天早晨和晚上太阳升起和下山前后一小时左右……