一、随机森林算法简介: 在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。LeoBreiman和AdeleCutler发展出推论出随机森林的算法。而RandomForests是他们的商标。这个术语是1995年由贝尔实验室的TinKamHo所提出的随机决策森林(randomdecisionforests)而来的。这个方法则是结合Breimans的Bootstrapaggregating想法和Ho的randomsubspacemethod以建造决策树的集合。 根据下列算法而建造每棵树:1。用M来表示训练用例(样本)的个数,N表示特征数目。 2。输入特征数目n,用于确定决策树上一个节点的决策结果;其中n应远小于N。 3。从M个训练用例(样本)中以有放回抽样的方式,取样k次,形成一个训练集(即bootstrap取样),并用未抽到的用例(样本)作预测,评估其误差。 4。对于每一个节点,随机选择n个特征,每棵决策树上每个节点的决定都是基于这些特征确定的。根据这n个特征,计算其最佳的分裂方式。 5。每棵树都会完整成长而不会剪枝,这有可能在建完一棵正常树状分类器后会被采用。 6。最后测试数据,根据每棵树,以多胜少方式决定分类。 在构建随机森林时,需要做到两个方面:数据的随机性选取,以及待选特征的随机选取,来消除过拟合问题。 首先,从原始的数据集中采取有放回的抽样,构造子数据集,子数据集的数据量是和原始数据集相同的。不同子数据集的元素可以重复,同一个子数据集中的元素也可以重复。第二,利用子数据集来构建子决策树,将这个数据放到每个子决策树中,每个子决策树输出一个结果。最后,如果有了新的数据需要通过随机森林得到分类结果,就可以通过对子决策树的判断结果的投票,得到随机森林的输出结果了。如下图,假设随机森林中有3棵子决策树,2棵子树的分类结果是A类,1棵子树的分类结果是B类,那么随机森林的分类结果就是A类。 与数据集的随机选取类似,随机森林中的子树的每一个分裂过程并未用到所有的待选特征,而是从所有的待选特征中随机选取一定的特征,之后再在随机选取的特征中选取最优的特征。这样能够使得随机森林中的决策树都能够彼此不同,提升系统的多样性,从而提升分类性能。 优点: 随机森林的既可以用于回归也可以用于分类任务,并且很容易查看模型的输入特征的相对重要性。随机森林算法被认为是一种非常方便且易于使用的算法,因为它是默认的超参数通常会产生一个很好的预测结果。超参数的数量也不是那么多,而且它们所代表的含义直观易懂。 随机森林有足够多的树,分类器就不会产生过度拟合模型。 缺点: 由于使用大量的树会使算法变得很慢,并且无法做到实时预测。一般而言,这些算法训练速度很快,预测十分缓慢。越准确的预测需要越多的树,这将导致模型越慢。在大多数现实世界的应用中,随机森林算法已经足够快,但肯定会遇到实时性要求很高的情况,那就只能首选其他方法。当然,随机森林是一种预测性建模工具,而不是一种描述性工具。也就是说,如果您正在寻找关于数据中关系的描述,那建议首选其他方法。 适用范围: 随机森林算法可被用于很多不同的领域,如银行,股票市场,医药和电子商务。在银行领域,它通常被用来检测那些比普通人更高频率使用银行服务的客户,并及时偿还他们的债务。同时,它也会被用来检测那些想诈骗银行的客户。在金融领域,它可用于预测未来股票的趋势。在医疗保健领域,它可用于识别药品成分的正确组合,分析患者的病史以识别疾病。除此之外,在电子商务领域中,随机森林可以被用来确定客户是否真的喜欢某个产品。 二、sklearn中随机森林算法应用举例: (1)基本步骤: 选择数据:将你的数据分成三组:训练数据、验证数据和测试数据 模型数据:使用训练数据来构建使用相关特征的模型 验证模型:使用你的验证数据接入你的模型 测试模型:使用你的测试数据检查被验证的模型的表现 使用模型:使用完全训练好的模型在新数据上做预测 调优模型:使用更多数据、不同的特征或调整过的参数来提升算法的性能表现 为方便大家使用,代码如下:随机森林需要调整的参数有:(1)决策树的个数(2)特征属性的个数(3)递归次数(即决策树的深度)importnumpyasnpfromnumpyimportimportrandomfromsklearn。modelselectionimporttraintestsplit生成数据集。数据集包括标签,全包含在返回值的dataset上defgetDatasets():fromsklearn。datasetsimportmakeclassificationdataSet,classLabelsmakeclassification(nsamples200,nfeatures100,nclasses2)print(dataSet。shape,classLabels。shape)returnnp。concatenate((dataSet,classLabels。reshape((1,1))),axis1)切分数据集,实现交叉验证。可以利用它来选择决策树个数。但本例没有实现其代码。原理如下:第一步,将训练集划分为大小相同的K份;第二步,我们选择其中的K1分训练模型,将用余下的那一份计算模型的预测值,这一份通常被称为交叉验证集;第三步,我们对所有考虑使用的参数建立模型并做出预测,然后使用不同的K值重复这一过程。然后是关键,我们利用在不同的K下平均准确率最高所对应的决策树个数作为算法决策树个数defsplitDataSet(dataSet,nfolds):foldsizelen(dataSet)nfoldsdatasplit〔〕begin0endfoldsizeforiinrange(nfolds):datasplit。append(dataSet〔begin:end,:〕)beginendendfoldsizereturndatasplit构建n个子集defgetsubsamples(dataSet,n):subDataSet〔〕foriinrange(n):index〔〕forkinrange(len(dataSet)):index。append(np。random。randint(len(dataSet)))subDataSet。append(dataSet〔index,:〕)returnsubDataSet划分数据集defbinSplitDataSet(dataSet,feature,value):mat0dataSet〔np。nonzero(dataSet〔:,feature〕value)〔0〕,:〕mat1dataSet〔np。nonzero(dataSet〔:,feature〕value)〔0〕,:〕returnmat0,mat1计算方差,回归时使用defregErr(dataSet):returnnp。var(dataSet〔:,1〕)shape(dataSet)〔0〕计算平均值,回归时使用defregLeaf(dataSet):returnnp。mean(dataSet〔:,1〕)defMostNumber(dataSet):返回多类numberset(dataSet〔:,1〕)len0len(np。nonzero(dataSet〔:,1〕0)〔0〕)len1len(np。nonzero(dataSet〔:,1〕1)〔0〕)iflen0len1:return0else:return1计算基尼指数defgini(dataSet):corr0。0foriinset(dataSet〔:,1〕):corr(len(np。nonzero(dataSet〔:,1〕i)〔0〕)len(dataSet))2return1corr选取任意的m个特征,在这m个特征中,选取分割时的最优特征defselectbestfeature(dataSet,m,alphahuigui):fdataSet。shape〔1〕index〔〕bestSbestfeature0;bestValue0;ifalphahuigui:SregErr(dataSet)else:Sgini(dataSet)foriinrange(m):index。append(np。random。randint(f))forfeatureinindex:forsplitValinset(dataSet〔:,feature〕):mat0,mat1binSplitDataSet(dataSet,feature,splitVal)ifalphahuigui:newSregErr(mat0)regErr(mat1)else:newSgini(mat0)gini(mat1)ifbestSnewS:bestfeaturefeaturebestValuesplitValbestSnewSif(SbestS)0。001andalphahuigui:如果误差不大就退出returnNone,regLeaf(dataSet)elif(SbestS)0。001:print(S,bestS)returnNone,MostNumber(dataSet)mat0,mat1binSplitDataSet(dataSet,feature,splitVal)returnbestfeature,bestValuedefcreateTree(dataSet,alphahuigui,m20,maxlevel10):实现决策树,使用20个特征,深度为10bestfeature,bestValueselectbestfeature(dataSet,m,alphaalpha)ifbestfeatureNone:returnbestValueretTree{}maxlevel1ifmaxlevel0:控制深度returnregLeaf(dataSet)retTree〔bestFeature〕bestfeatureretTree〔bestVal〕bestValuelSet,rSetbinSplitDataSet(dataSet,bestfeature,bestValue)retTree〔right〕createTree(rSet,alpha,m,maxlevel)retTree〔left〕createTree(lSet,alpha,m,maxlevel)print(retTree:,retTree)returnretTreedefRondomForest(dataSet,n,alphahuigui):树的个数dataSetgetDatasets()Trees〔〕foriinrange(n):Xtrain,Xtest,ytrain,ytesttraintestsplit(dataSet〔:,:1〕,dataSet〔:,1〕,testsize0。33,randomstate42)Xtrainnp。concatenate((Xtrain,ytrain。reshape((1,1))),axis1)Trees。append(createTree(Xtrain,alphaalpha))returnTrees预测单个数据样本deftreeForecast(tree,data,alphahuigui):ifalphahuigui:ifnotisinstance(tree,dict):returnfloat(tree)ifdata〔tree〔bestFeature〕〕tree〔bestVal〕:iftype(tree〔left〕)float:returntree〔left〕else:returntreeForecast(tree〔left〕,data,alpha)else:iftype(tree〔right〕)float:returntree〔right〕else:returntreeForecast(tree〔right〕,data,alpha)else:ifnotisinstance(tree,dict):returnint(tree)ifdata〔tree〔bestFeature〕〕tree〔bestVal〕:iftype(tree〔left〕)int:returntree〔left〕else:returntreeForecast(tree〔left〕,data,alpha)else:iftype(tree〔right〕)int:returntree〔right〕else:returntreeForecast(tree〔right〕,data,alpha)单棵树预测测试集defcreateForeCast(tree,dataSet,alphahuigui):mlen(dataSet)yhatnp。mat(zeros((m,1)))foriinrange(m):yhat〔i,0〕treeForecast(tree,dataSet〔i,:〕,alpha)returnyhat随机森林预测defpredictTree(Trees,dataSet,alphahuigui):mlen(dataSet)yhatnp。mat(zeros((m,1)))fortreeinTrees:yhatcreateForeCast(tree,dataSet,alpha)ifalphahuigui:yhatlen(Trees)else:foriinrange(len(yhat)):ifyhat〔i,0〕len(Trees)2:yhat〔i,0〕1else:yhat〔i,0〕0returnyhatifnamemain:dataSetgetDatasets()得到数据集和标签print(dataSet〔:,1〕。T)打印标签,与后面预测值对比RomdomTreesRondomForest(dataSet,4,alphafenlei)4棵树,分类。print(RomdomTrees)print(RomdomTrees〔0〕)yhatpredictTree(RomdomTrees,dataSet,alphafenlei)print(yhat。T)getDatasets() 执行结果:C:Anaconda3python。exeC:ProgramFilesJetBrainsPyCharm2019。1。1helperspydevpydevconsole。pymodeclientport56305print(Pythonsons(sys。version,sys。platform))sys。path。extend(〔C:appPycharmProjects,C:appPycharmProjects〕)Python3。7。6(default,Jan82020,20:23:39)〔MSCv。191664bit(AMD64)〕Typecopyright,creditsorlicenseformoreinformationIPython7。12。0AnenhancedInteractivePython。Type?forhelp。PyDevconsole:usingIPython7。12。0Python3。7。6(default,Jan82020,20:23:39)〔MSCv。191664bit(AMD64)〕onwin32runfile(C:appPycharmProjectsArtificialIntelligencetest。py,wdirC:appPycharmProjectsArtificialIntelligence)〔1。1。0。0。0。0。0。0。1。1。1。0。1。0。0。0。0。1。1。0。1。0。0。1。1。1。1。1。1。1。0。0。0。1。1。0。0。0。0。0。1。1。1。1。1。1。0。0。0。1。0。1。1。1。0。0。1。1。0。1。0。1。1。0。1。1。1。0。1。0。1。1。0。0。0。1。0。1。1。1。1。1。1。0。0。1。0。1。1。0。0。1。0。0。0。0。1。1。0。1。0。1。1。0。0。0。0。1。1。0。1。1。0。0。0。0。1。1。0。0。1。1。1。0。0。1。0。1。0。1。0。1。0。0。1。1。0。0。0。0。1。1。1。0。0。0。0。1。0。1。0。1。0。0。1。1。1。1。1。0。0。0。0。1。0。0。1。1。0。1。0。0。1。1。1。0。0。0。1。0。0。1。1。0。1。1。0。1。0。1。0。0。1。1。1。1。0。0。1。0。〕RomdomTrees〔〔1。1。0。0。0。0。0。0。0。1。1。0。1。0。0。0。0。1。1。0。1。0。0。1。1。1。0。1。1。1。0。0。0。1。0。0。0。0。0。0。1。1。1。1。1。1。0。0。0。1。0。1。1。1。0。0。0。1。0。1。0。1。1。0。1。1。1。0。1。0。1。1。0。0。0。1。0。1。1。0。1。1。0。0。0。0。0。1。1。0。0。1。0。0。0。0。1。1。0。1。0。1。1。0。0。0。0。1。0。0。1。1。0。0。0。0。0。1。0。0。1。1。1。0。0。0。0。1。0。1。0。1。0。0。1。0。0。0。0。0。1。1。1。0。0。0。0。1。0。1。0。1。0。0。1。1。1。1。0。0。0。0。0。1。0。1。1。1。0。1。0。0。1。1。1。0。0。0。1。0。0。1。1。0。1。1。0。1。0。1。0。0。1。1。1。1。0。0。1。0。〕〕