PySpark基本入门（附python代码示例）

美丽时装
彩妆资讯
历史明星
乐活安卓
数码常识
驾车健康
苹果问答
网络发型
电视车载
室内电影
游戏科学
音乐整形

PySpark基本入门（附python代码示例）

　　在整理数据，处理数据上。对于大规模数据分析，相较于hadoop来说，spark是个更为方便的工具。今天为大家带来pyspark的快速入门，希望对大家的工作和学习有帮助。
　　基本概念介绍
　　首先介绍一下spark中常见的基本概念：
　　RDD：弹性分布式数据集的简称，是一个分布式对象集合，本质上是一个只读的分区记录集合。不能直接修改，只能通过一定的转换操作（map，reduce，join，groupby）来创建新的RDD。
　　DAG：有向无环图，反应了RDD之间的依赖关系。
　　Executor：一个进程，负责运行任务。
　　Application：用户编写的spark应用程序。
　　Task：运行在Excutor上的工作单元。
　　Job：一个job包含多个RDD以及对应的RDD上的各种操作。
　　Stage：作业的基本调度单位。一个作业会被分为多组Task，每组任务称为一个stage。
　　其中，RDD是一种高度受限的内存模型，一次只能对RDD全集进行修改。听完上述说明，大家可能理解起来很抽象，接下来我将介绍RDD编程模型，并通过程序例子来说明，方便大家理解。
　　RDD编程例子
　　1。从文件系统中加载数据并转化成RDD格式
　　下面的例程可以将文本文件转化成RDD数据格式读入，便于Spark对RDD数据并行处理。
　　frompysparkimportSparkConf，SparkContext
　　scSparkContext（）
　　可以通过sc。textFiles来将text文件转化成RDD格式的数据。
　　如果是本地文件，要加上file：
　　linessc。textFiles（file：usrlocalsparlexample。txt）
　　下面三条语句是完全等价的
　　linessc。textFiles（hdfs：localhost：9000userhadoopexample。txt）
　　linessc。textFiles（userhadoopexample。txt）
　　linessc。textFiles（example。txt）
　　lines。foreach（print）
　　2。将数组转化成RDD格式
　　array〔1，2，3，4，5〕
　　通过sc。parallelize将数组转化成RDD格式
　　rddsc。parallelize（array）
　　rdd。foreach（print）
　　1
　　2
　　3
　　4
　　5
　　3。RDD操作：Transformation
　　1。Filter
　　linessc。parallelize（〔Sparkisveryfast，MynameisLiLei〕）
　　筛选出含有Spark的行，操作为并行。
　　linesWithSparklines。filter（lambdaline：Sparkinline）
　　每行并行打印
　　linesWithSpark。foreach（print）
　　Sparkisveryfast
　　2。Map
　　linessc。parallelize（〔Sparkisveryfast，MynameisLiLei〕）
　　每一行通过map并行处理。
　　wordslines。map（lambdaline：line。split（））
　　words。foreach（print）
　　〔Spark，is，very，fast〕
　　〔My，name，is，LiLie〕
　　3。groupByKey
　　wordssc。parallelize（〔（Hadoop，1），（is，1），（good，1），
　　（Spark，1），（is，1），（fast，1），（Spark，1），（is，1），（better，1）〕）
　　groupByKey（）应用于（K，V）键值对的数据集时，返回一个新的（K，Iterable）形式的数据集
　　words1words。groupByKey（）
　　words1。foreach（print）
　　（Hadoop，pyspark。resultiterable。ResultIterableobjectat0x7fb210552c88）
　　（better，pyspark。resultiterable。ResultIterableobjectat0x7fb210552e80）
　　（fast，pyspark。resultiterable。ResultIterableobjectat0x7fb210552c88）
　　（good，pyspark。resultiterable。ResultIterableobjectat0x7fb210552c88）
　　（Spark，pyspark。resultiterable。ResultIterableobjectat0x7fb210552f98）
　　（is，pyspark。resultiterable。ResultIterableobjectat0x7fb210552e10）
　　4。reduceByKey
　　wordssc。parallelize（〔（Hadoop，1），（is，1），（good，1），（Spark，1），
　　（is，1），（fast，1），（Spark，1），（is，1），（better，1）〕）
　　reduceByKey：相同的key通过指定操作进行聚合，下方代码利用求和进行聚合
　　words1words。reduceByKey（lambdaa，b：ab）
　　words1。foreach（print）
　　（good，1）
　　（Hadoop，1）
　　（better，1）
　　（Spark，2）
　　（fast，1）
　　（is，3）
　　4。RDD操作：Action
　　由于Spark的惰性机制，当RDD通过Transformation操作，直到遇到Action操作后，才会执行真正的计算，从文件中加载数据，完成一次又一次Transformation操作，最终，完成Action操作得到结果。
　　rddsc。parallelize（〔1，2，3，4，5〕）
　　rdd的数量
　　rdd。count（）
　　5
　　第一行rdd
　　rdd。first（）
　　1
　　前三行rdd
　　rdd。take（3）
　　〔1，2，3〕
　　rdd。reduce（lambdaa，b：ab）
　　15
　　以数组的形式返回rdd中所有元素
　　rdd。collect（）
　　〔1，2，3，4，5〕
　　rdd。foreach（lambdaelem：print（elem））
　　总结
　　通过将输入（文件，数组）转化成RDD，并将多个简单的Transformation和Action操作进行串联，Spark可以高效的完成很多复杂数据的处理。同时，在完成大规模的数据处理后，我们也可以利用Spark中内置的机器学习算法来对这些大规模的数据进行学习和建模。Spark中内部实现了很多分布式机器学习算法，例如SVM，Word2Vec等，我们将在后面的文章分享

萌探探探案第二季具体播出时间，萌探探探案第二季参加的嘉宾真人秀《萌探探探案第二季》在近段时间刚公布预告，不过具体播放时间没有公布，可听说有华晨宇、刘耀文、欧阳娜娜、沙溢、宋丹丹、杨迪、杨颖、张一山组成萌探家族来当嘉宾参与节目之中。……如何从互联网新手成长为专家型社群营销？我们生活在互联网时代；电商、微商、自媒体等渠道打破常规的销售方式，更是推动了女性在职业中的地位。互联网年代又称粉丝经济，商家重点圈起粉丝，属于自己客户人群，方式多样化。小蚱蜢下……不沉船的船袜！0。3mm真隐形不露边，狂跑10000步都不掉俗话说，美不美，要看腿！一双纤细修长的美腿，绝对是回头率200的存在。但要是看到露出袜边的造型，简直是又土又丑的代名词！尤其天气越来越热，很多人爱穿浅口的鞋子，但好……千与千寻的寓意解读，千与千寻讲的是什么宫崎骏《千与千寻》这个电影可以说是有非常深寓意的一部动画电影了，当时一上映就吸引了不少人的观看，大家都想通过看电影了解下千与千寻的寓意解读，那千与千寻讲的是什么？下面我们一起了……少年之名选手官宣这么多熟悉的面孔你pick谁呢近日，选秀节目《少年之名》近日正式官宣了选手名单，在名单上面有很多大家都十分熟悉的面孔。那么，这么多熟悉的面孔，你pick谁呢？一起来看一下具体的内容。1少年之名选手官宣……密室大逃脱第三季白敬亭哪集白敬亭解密室是哪几期《密室大逃脱》是一档大家都喜欢的大型真人秀解密体验秀，现在这档综艺已经播出了三季了，那么密室大逃脱第三季白敬亭哪集？以及白敬亭解密室是哪几期？下面就和小编一起来看看吧。1……原来沸羊羊是灰太狼的卧底什么梗？为什么说喜羊羊其实早就死了《喜羊羊与灰太狼》这部动画片也太经典了吧，真是陪着我们一起长大的啊。之前还记得《喜羊羊与灰太狼》出十二生肖系列，《喜羊羊与灰太狼之虎虎生威》、《喜羊羊与灰太狼之牛气冲天》、《喜……以和而不同的理念，拓展多元生命的长与宽知名高端文化类访谈节目《毛铺和文化录》近期邀请食品营养与健康科普专家、北京大学公共卫生学院营养与食品卫生系的马冠生教授做客节目演播厅，与节目主持人、著名辩手陈铭一同探讨人们长久……光头强杀死了姐姐（原视频）游戏中的场景画面光头强杀死了姐姐，游戏中的场景（动画中并没有附原视频）。网上有一段关于光头强杀死了姐姐的引起了争议，其实，这个视频是出自于一个格斗游戏，游戏中可以选择光头强，小姐姐等角色进行格……北京车展聊品牌，斯柯达125岁的年轻人2021款柯珞克北京车展首发并开启预售。01hr9月26日，北京车展开幕当天，上汽大众斯柯达2021款柯珞克，正式首发亮相并启动预售，其为车展特别打造的金色涂装令人眼前一……导演请指教什么时候播出，导演请指教演员导演请指教说出来很多人不清楚，可导演请指教综艺是什么时候播出，很多网友就想去了解一下有关的故事，看导演请指教提前把参加节目的嘉宾给公布，好能构思后期能进行安排动作，但有的网友就……与MIUI相抗衡盘点最新Flyme6的亮点和优势！记得去年全球排名前三大手机操作系统：安卓、iOS、WP，后来因为微软的步伐掉的太远，赶不上安卓和iOS，在今年也基本宣告死亡了，现在只有安卓和iOS相互抗衡，不过话又说回来，苹……

<<<<<<－>>>>>>

千纸鹤纸类印刷电商AxureRP原型编号：0178千纸鹤纸类印刷电商AxureRP原型版权说明：本站所有资料主要来源于网络的公开信息，都保留了原来的版权信息，本站所有的资料文档仅限用于学习交流，如若有侵权的……长城汽车55超级航母阵容为上海车展带来无数看点第十九届上海国际车展在上海国家会展中心已落下帷幕，长城汽车作为全球领先的自动驾驶与汽车智能化企业，本次55超级航母阵容震撼上海车展，55超级航母阵容包括哈弗、长城皮卡、WEY、……为何信用卡都热衷于消费返现了CashBack国外很多信用卡都带有CashBack功能，中文意思就是使用信用卡消费后，银行或商户按消费金额的一定比例向持卡人返还现金，这也是银行为鼓励持卡人能够多使用信……QQ音乐电台周年狂欢，世界读书日限时大放送4月23日，在第26个世界读书日来临之际，恰逢TME长音频战略发布一周年，QQ音乐特别推出电台周年狂欢活动。用户不仅能免费收听到《盗墓笔记》、《骊歌行》等独家影视IP，还能轻松……uniapp支持PC版真正的一统天下来了全端支持不是梦uniapp已经支持iOS、Android、H5、微信小程序、阿里小程序、百度小程序、字节跳动小程序、QQ小程序、快应用、360小程序。现在，uniapp终于官方支持PC……一加8Pro真机曝光双主摄干翻FindX2？一加8系列官宣将于4月16日晚上19点发布，整理了超详细的一加8Pro具体参数，和一加8Pro的售价爆料有网友晒出了一加8Pro的真机照，如上图所见，一加8Pro采用左上……用木兰编程语言编写文字冒险游戏（前八章）刚到手《MakeYourOwnPythonTextAdventure：AGuidetoLearningProgramming》一书，打算将它的例程用木兰语言重写并改为中文标识符……联想27英寸反向充电显示器，没有了乱七八糟的线今天看到这款联想27英寸的显示器非常开心，那就是这款显示器支持TypeC90W反向充电，这个正是我这段时间关注显示器发现的一个新亮点，就是把电脑显示器的功能做得更强大，而不单单……opporealme新款双卡5G手机上市realmev15因华为手机芯片出现断供，导致华为手机价格在市场上被异常炒作，同时多款型号断货。针对此类现象，我所在营业厅将手机终端销售重心进行了转移，目前侧重于OPPO的realme系列和VI……理想和现实主义的差异大到你无法想象所有电影的开始你都无法预料接下来会发生什么，正如这部名为《罗曼先生，你好》的电影。一个满腹改变世界的理想，空有一肚子理论知识才华于一身，但看起来与周围的人与环境总显得格格……达音科SA3这塞子第一耳朵就让我想起TF10来这篇文章呢，我决定从TF10开始唠，原因很简单：我初次听到达音科SA3的时候，第一耳朵就联想到了TF10，这俩塞子，是颇有神似之处的。大概齐十年前吧，当时对于玩耳机的那群……CreedRiseToGlory全VR平台突破百万销量编译VR陀螺本周，Survios宣布《Creed：RiseToGlory》在所有VR平台上的销量突破100万套。图源：Survios《Creed：RiseTo……

友情链接：易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网