从零开始学R数据分析,数据筛选与提取
通常从系统中导出的数据字段有很多,并不是所有的字段都能用于数据分析中,这时候为了提高运算的速度,以及节省运算内存,需要筛选一些我们数据分析实际使用到的数据字段,通常筛选出数据字段后还需要做聚合运算,例如EXCEL中countif,sumif的用法,那么这些方法如何在R中使用呢?下面一起来学习。示例工具:Rx643。5。3、RStudio
本文讲解内容:数据筛选与提取
适用范围:数据筛选、多条件计数、多条件求和
本次内容的学习需要先创建一组数据集,数据内容包含ID、NAME等五个字段,数据结果如下。手动创建数据表datadatadata。frame(IDc(c001,c002,c003,c004,c005,c006,c007,c008,c009,c010),NAMEc(Rmesh,Khilan,Kaushik,Chaitali,Hardik,Komal,Tom,Muffy,Susan,Kevin),AGEc(23,20,23,25,27,24,26,31,26,30),ADDRESSc(Ahmed,Delhi,Kota,Mumbai,Bhopal,MPA,MPB,Indore,JPNo。1,JPNo。2),SALc(2000,1500,2000,5000,8500,6500,5500,9500,7000,9000))
1数据筛选
在R中数据筛选使用subset函数进行筛选,在subset函数的参数中添加逻辑运算和筛选条件,例如筛选条件等于、不等于、大于、小于,逻辑运算与、或、非的条件,这里用双等于号表示等于,如筛选名字中为Kevin的行,筛选结果如下所示:数据筛选subset(data,dataNAMEKevin)
筛选名字中不包含Kevin的行,不等于号用!表示,筛选结果如下所示:按非条件进行筛选subset(data,dataNAME!Kevin)
subset函数可以添加多个条件,使用与的条件时用符号连接起来,这里筛选年龄大于25且收入大于8000的行记录,结果如下:按与的条件筛选subset(data,dataAGE25dataSAL8000)
如果是或的条件,用符号表示,筛选年龄大于25岁或者收入大于8000的行记录,筛选结果如下所示:按或的条件筛选subset(data,dataAGE25dataSAL8000)
2数据提取
数据提取一般有三种方法进行提取,即按位置提取、按索引提取和按条件提取,在pandas中类似于loc和iloc的用法,可以按照位置、按照列索引以及添加筛选条件进行数据提取。
按位置提取数据使用中括号〔〕,在中括号中逗号前提取的是行,逗号后提取的是列,要提取第一行数据结果如下:提取数据表第一行data〔1,〕
要提取第一行到第五行的数据,在中括号中提取行1:5,逗号后面提取列可以不写,默认即可。提取数据表第一行至第五行data〔1:5,〕
提取数据表中第五列数据,省略逗号前行提取,直接写逗号后的列值即可。提取数据表第五列data〔5〕
提取第三列到第五列,逗号前的行提取默认不写,在逗号后的列提取第三列到第五列即可,提取结果如下:提取数据表第三列至第五列data〔,3:5〕
如果同时提取行和列,比如提取第三行第五列的数据,可以在逗号的前面和后面分别写上行数和列数。提取数据表第三行第五列data〔3,5〕
提取特定的数据区域,可以使用:冒号来提取,行和列的位置不变,只需要改变数据区域的大小即可。提取数据表特定区域数据data〔1:3,1:3〕
按索引提取数据,这里分为按照行索引提取和列索引提取,需要提取的行索引和列索引用引号括起来,如下提取第三行的数据。按索引提取行数据data〔3,〕
如果按照索引提取多行,需要用括号括起来,在中括号中逗号前的位置用于提取行,逗号后的位置用于提取列,与按位置提取数据方法一致。按索引提取多行数据data〔c(3,5),〕
按照列名提取数据,需要将列名用括号括起来即可。按列名称提取data〔NAME〕
需要提取特定行和特定列的数据,中括号中写上行索引和列索引即可。按索引提取行与列数据data〔4,NAME〕
提取多个行与多个列数据,需要用括号将行索引和列索引括起来。按索引提取多个行与列数据data〔c(2,4),c(NAME,SAL)〕
除了按位置和按索引提取数据,还有一种方法是按条件提取数据,使用which函数,后面加特定的聚合条件,比如这里提取薪水最高的行记录。查找薪水最高的所在行data〔which。max(dataSAL),〕
同理,提取薪水最低的行记录。查看年龄最小的所在行data〔which。min(dataAGE),〕
3聚合运算
筛选数据以及提取特定数据区域后,可以对这部分数据做聚合运算,与Excel中的筛选功能和countif和sumif功能相似,而countifs和sumifs是多条件计数和多条件求和。
对年龄大于25岁以及收入大于8000的薪水多条件求和,使用subset函数数据筛选后,借助sum函数实现多条件求和的功能。Excel中的sumifs()函数求和sum(subset(data,dataAGE25dataSAL8000)SAL)
多条件计数使用length函数计数。Excel中的countifs()函数计数length(subset(data,dataAGE25dataSAL8000)ID)
多条件求平均这里使用mean函数,求年龄大于25岁或者收入大于8000的平均薪水,数据结果如下所示。Excel中的averageifs()函数计数mean(subset(data,dataAGE25dataSAL8000)SAL)