游戏电视苹果数码历史美丽
投稿投诉
美丽时装
彩妆资讯
历史明星
乐活安卓
数码常识
驾车健康
苹果问答
网络发型
电视车载
室内电影
游戏科学
音乐整形

爬虫闲谈数据处理

  个人公众号yk坤帝
  获取更多学习资料
  之前我们讨论了一下请求和响应,接下来几天我们都会讨论对数据的处理。
  接触了爬虫这个领域,大家肯定都听过正则表达式的鼎鼎大名,不过今天我们暂时不谈正则,我们先来讨论一下数据的简单处理,为之后的正则表达式做准备。
  我们用requests。get或requests。post获取到网页的源码,通过BeautifulSoup解析之后,得到的数据还是可能千奇百怪的,可能多了空格,可能有些内容我们不需要等等,所以我们应该对这些数据进行简单的处理。
  首先,来看第一种情况,首尾很多空格的情况,下图是豆瓣电影Top250的图,如果我们想要获取电影上映年份上映地点电影类别,实际通过BeautifulSoup解析获取到的数据并不是我们想要的结果。
  movie1994美国犯罪剧情我们实际能获取到的数据是这样的,现在我们要去掉首尾多余的空格,可以这么做moviemovie。strip()strip()表示去除首尾的空格,这个对字符串的处理用得非常多得到的结果就是1994美国犯罪剧情
  经过strip()处理之后,可以看到得到得结果中仍然还是有空格,这个就可以用replace来替换掉空格。个人公众号yk坤帝获取更多学习资料movie1994美国犯罪剧情moviemovie。strip()得到的结果就是1994美国犯罪剧情moviemovie。replace(,)这一行表示将字符串中的空格替换掉,replace第一个参数表示要替换的字符串,第二个参数表示要用什么来替换。得到的结果就是1994美国犯罪剧情
  经过replace()处理之后,其实得到的数据已经可以了,但是,如果我们想分别提取出上映年份上映地点电影分类呢。
  这个时候就用到我们之前用过的split了。movie1994美国犯罪剧情moviemovie。strip()得到得结果就是1994美国犯罪剧情moviemovie。replace(,)得到的结果就是1994美国犯罪剧情moviemovie。split()这一行表示将字符串通过进行分割,得到的是一个列表得到的结果是〔1994,美国,犯罪剧情〕
  通过strip和replace和split就能得到我们想要的结果了,这三种字符串的处理方法会在处理数据中经常使用。
  然后我们来看下第二种情况,是关于URL拼接问题的,假设我们现在要爬取知乎首页的超链接,然后顺着爬取到的超链接一直深入爬下去,这样就能爬取整个知乎了。
  下图是知乎首页其中一个问题的URL,可以发现这个URL并不完整,需要拼接上当前的域名才能构成一个完整的URL。
  我们当然可以用https:www。zhihu。com和这个URL拼接起来,但是这样又有一个问题,我们是想要获取到知乎的所有URL,有的URL是带了https:www。zhihu。com的,这样再拼接一下,就容易出错,所以我们需要预先处理一下。这就需要用到startswith方法了。
  个人公众号yk坤帝获取更多学习资料originurlhttps:www。zhihu。comurllist〔question36539555answer595275293,question308663552answer577063117,https:www。zhihu。comspecial20743868〕foriinrange(len(urllist)):ifnoturllist〔i〕。startswith(http):这一行表示如果urllist〔i〕不是以http开头的话,那么就执行if内部的语句urllist〔i〕originurlurllist〔i〕print(urllist)得到的最终结果是〔https:www。zhihu。comquestion36539555answer595275293,https:www。zhihu。comquestion308663552answer577063117,https:www。zhihu。comspecial20743868〕
  通过startswith提前判断一下,就能够得到我们想要的结果了。当然有startswith,自然而然会有endswith,同样举个例子来看。个人公众号yk坤帝获取更多学习资料urllist〔https:pic2。zhimg。com50v25502c54842dceeb2e8901e884407a7fdfhd。jpg,https:www。zhihu。comspecial20743868〕forurlinurllist:ifurl。endswith(jpg):这一行表示如果url是以jpg结尾的话,就执行if内部的语句urllist。remove(url)6print(urllist)最终结果是〔https:www。zhihu。comspecial20743868〕
  通过startswith和endswith可以用来过滤我们不想要的字符串,并对其进行操作。
  最后,我们再来谈一个join方法,这个方法是用来拼接一个序列(列表元组等)的值的,将一个序列转换一个字符串。
  下图是豆瓣中一本书的详情页,每本书都有他的标签,有的时候为了方便存储,我们需要将这些标签连起来组成一个字符串,我们就可以用join来操作了。
  上图我们用爬虫去爬取书籍的标签的话,得到的是tag这样的一个列表tag〔文学,短篇小说,小说,先锋文学〕tag。join(tag)这一行表示用符号将tag这个列表中的每个值连接起来,得到的是一个字符串最终结果是文学短篇小说小说先锋文学
  好了,今天的分享本来就到这里结束了,但还是忍不住要插一个列表的去重,因为真的经常会用到。
  有这样一个需求,一本书总共有600000个英文单词,保存在了一个列表中,现在想要统计如果想要阅读这本书,需要多少得词汇量,那么我们面对得问题就是去重。
  我们直接看代码:个人公众号yk坤帝获取更多学习资料实现功能:将列表中相同的元素去重,统计书籍词汇量content〔Whatever,is,worth,doing,is,worth,doing,well〕newcontentset(content)这一步是将列表转换成集合,就去重成功了,因为集合内的元素是不能重复的,但它是无序的newcontentlist(newcontent)这一步是将上一步得到的集合转换成一个列表,这样就得到了最终结果列表了print(newcontent)得到的结果是〔worth,Whatever,is,doing,well〕print(len(newcontent))得到的结果是5,说明这本书的词汇量是5个
  至此,我们总共讨论了字符串的6种常用方法,分别是strip、replace、split、startswith、endswith、join,以及列表的去重。明天我们开始来讨论正则表达式,大家加油。
  个人公众号yk坤帝
  获取更多学习资料

1折清仓!不到200元的无线音箱,丹麦设计匈牙利制造,超值看过我以前文章的值友应该知道,以前我对无线音箱非常痴迷。不过去年买了IKiloudMicroMonitor这款桌面小神器后,我对无线音箱的热情大减。最近我们办公室入了5台同一型……华为Mate50Pro概念机两侧边框被瀑布屏环绕覆盖,配备五华为Mate系列向来是华为最豪横的手机,不仅拍照功能更强,而且比华为P50系列更全面。前不久推出的华为P50Pro虽然是4G手机,但是功能和颜值都有明显的提升。那么今年下半年发……坝上,秋天的白桦树这个秋天,刚从坝上回来,这是我第二次去坝上了。两次坝上,相隔六年,感觉坝上的秋色依旧漂亮,坝上的景致依然与众不同。尽管现在坝上的商业化气息越来越浓,但我还是挺喜欢这个挺特别的地……首款搭载HarmonyOS智能音箱,新一代华为SoundX为日常家居生活正在因智能科技慢慢改变,而最先进入人们生活的就是智能音箱。作为智能家居最低起点的智能产品,智能音箱虽然已经发展多年,但突破一直不大,其已经越来越不能满足人们对于智慧……边城又见太平鸟十月末的边城黑河,又见到太平鸟了。太平鸟,名字很好听,看小鸟也挺漂亮的。太平鸟这个季节来到黑河市区是有原因的,因为最近这些年黑河市内的公园、小区里栽种了大量的花楸树,而原……VR概念提出了好几年,为什么至今还没有迎来爆发?VR是VirtualReality的缩写,指虚拟现实技术,又称灵境技术,是20世纪发展起来的一项全新的实用技术。这个概念是由美国VPL公司创建人拉尼尔(JaronLanier)……如何利用AI深度学习技术开发安全帽检测与识别?安全帽佩戴智能检测技术实际就是检测施工人员是否佩戴安全帽。在当前AI人工智能和大数据兴起与飞速发展的阶段,安全帽智能检测技术已经不是什么新鲜事儿了,大家接触的安全帽智能识别与检……福特也是逼急了,新车定位中大型SUV,57座任选,配2。0T说到自主品牌的国产车和合资品牌车型之间最大的差别是什么?相信很多人会说品牌影响力和溢价能力的差距、可靠性的差距、技术上的差距等等,不过在我看来,随着自主品牌这些年得到了快速的发……集高品质大空间强动力于一身的捷达VS7,仅10。68万元起售在3月20日震撼上市的捷达VS7拥有非常有诚意的产品力和亲民的价格,让消费者如获至宝。捷达VS7有着精准的市场定位,一上市就受到了消费者的高度认可,下面就了解一下捷达VS7到底……双11超高性价比空调推荐,认准这几款不会踩坑随着双11购物狂欢节的临近,各大空调品牌的预热活动都在如火如荼进行了,那么今年双11有哪几款值得入手的精品空调呢?话不多说,直接上干货。1TCL智慧柔风空调U润葵扇金……2020年互联网创业请远离灰色产业2020年开年出现黑天鹅事件,身边许多朋友都在转战互联网创业项目。实体增加线上销售渠道,老师演变主播,本职增加副职等现象越来越多,但是千万别误入歧途进入互联网的灰色产业。利用互……品牌倒闭总有遗产!400元EG良心电竞椅PK山寨,电脑界楷模直接进入正题吧,前几天的EG电竞椅引起了很多粉丝的兴趣,今天到货,直接开箱。看看到底是什么货色,价格嘛,遗产价格也没啥子好多说的。魔改君这里只想说一句:货真!……
华为鸿蒙正式上线,这些功能比安卓强华为鸿蒙系统(HarmonyOS)大家应该不陌生吧。在2019年8月9日,华为在东莞举行的开发者大会上,公布了全新操作系统鸿蒙。鸿蒙系统并不只限于手机,它的定位是全……京东方供应商富恒新材终止精选层挂牌辅导石油涨价或致其成本压力每经记者:李少婷每经编辑:杨夏3月18日晚间,新三板创新层挂牌公司富恒新材披露公告称,鉴于公司战略发展的需要,经综合考虑,拟调整上市进度及方案,已于当日向证监会深圳监管局……把UC卖马云套现300亿,37岁拿全部家当来造车,何小鹏成功文璋队长编辑璋队长何小鹏,小鹏汽车、UC优视联合创始人。2004年何小鹏与合伙人共同创办UC优视公司,随后10年他带领团队打造UC浏览器,用户突破5亿,……阿里美团都被反垄断罚款,你觉得这些平台利大于弊还是弊大于利?时代的产物事物的发展逻辑本就如此。目前是利大于弊,为什么,首先存在就是理由,为什么利大,你把所有网络关了试试,那多少企业不适应,多少人不适应,甚至国家都难以运转,电商,网……为什么拼多多的投影机那么便宜?拼多多的营销方式涉嫌骗人。因为那只是为吸引眼球。说一个投影机9。9元,绝对不是像淘宝那样直接下单购买,而是你要发朋友圈,你可能把朋友都发尽了,也未必买得来这款投影机。浪费了大量……借贷将引发危机时代伴随着科技进步,人民生活水平日惭提高,全民经商,自媒体时代浪潮席卷而来,极大地改变了人们的生活方式和消费习惯,低头族们随便刷一下机,不管有钱没钱,只要抵不住网上诱惑,想要的东西……小米公司正式发布新机,9月30号全渠道开售,定价仅2599元早期手机厂商们即将发布新机之前,都会特别注重保密,有关新机的外观与配置信息都会等到发布会那一天才公开,但是现如今不少手机厂商们渐渐发现这种策略并不好,与其一天公布所有信息,还不……荣耀6nm强机上线,66W快充,8128G卖2199在最开始,华为和荣耀都还在是一家时。不仅可以说它们两个手机厂商在国内已经没有对手,就连国外也差不多。而后面,由于华为手机厂商太过强大,收到不能由台积电工电生产5G芯片的禁令,不……为什么游戏党宁愿为了显卡等上好几年也不买PS5?加价入手ps5将近一年,这两天又因为即将上线的老头环升级了电脑,花费不菲,以下是对比,也是原因。我算是比较早一批上steam的,当时dota2刚出就入了steam的坑,至……8点1氪丨孟晚舟昨夜顺利回国广电总局坚决抵制含有不良情节动画大公司孟晚舟昨夜顺利回国9月25日,孟晚舟乘坐中国政府包机回到祖国,与家人团聚。自2018年12月1日她被捕,至2021年9月24日离开加拿大,已1028天。(人民……最近想下载个linux系统,不知道哪个好点,ubuntu还是Ubuntu和Deepin的内核都是标准的Linux内核。Deepin的操作界面和操作习惯会更加符合国人的使用习惯,建议下载Deepin。(对操作系统都熟悉的高手勿喷,那个系统……新能源车怎么选领克06PHEV值得一看近年来,新能源车在终端市场越来越受到消费者的青睐,对消费者而言,较低的用车成本;在一线城市更易获得号牌;更平顺的动力输出都是新能源车的优点。但需要注意的是,目前在新能源车市场,……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网