Python爬虫入门三之Urllib库的高级用法

美丽时装
彩妆资讯
历史明星
乐活安卓
数码常识
驾车健康
苹果问答
网络发型
电视车载
室内电影
游戏科学
音乐整形

Python爬虫入门三之Urllib库的高级用法

　　1。设置Headers
　　有些网站不会同意程序直接用上面的方式进行访问，如果识别有问题，那么站点根本不会响应，所以为了完全模拟浏览器的工作，我们需要设置一些Headers的属性。首先，打开我们的浏览器，调试浏览器F12，我用的是Chrome，打开网络监听，示意如下，比如知乎，点登录之后，我们会发现登陆之后界面都变化了，出现一个新的界面，实质上这个页面包含了许许多多的内容，这些内容也不是一次性就加载完成的，实质上是执行了好多次请求，一般是首先请求HTML文件，然后加载JS，CSS等等，经过多次请求之后，网页的骨架和肌肉全了，整个网页的效果也就出来了。
　　拆分这些请求，我们只看一第一个请求，你可以看到，有个RequestURL，还有headers，下面便是response，图片显示得不全，小伙伴们可以亲身实验一下。那么这个头中包含了许许多多是信息，有文件编码啦，压缩方式啦，请求的agent啦等等。其中，agent就是请求的身份，如果没有写入请求身份，那么服务器不一定会响应，所以可以在headers中设置agent，例如下面的例子，这个例子只是说明了怎样设置的headers，小伙伴们看一下设置格式就好。importurllibimporturllib2urlhttp：www。server。comloginuseragentMozilla4。0（compatible；MSIE5。5；WindowsNT）values｛username：cqc，password：XXXX｝headers｛UserAgent：useragent｝dataurllib。urlencode（values）requesturllib2。Request（url，data，headers）responseurllib2。urlopen（request）pageresponse。read（）
　　这样，我们设置了一个headers，在构建request时传入，在请求时，就加入了headers传送，服务器若识别了是浏览器发来的请求，就会得到响应。另外，我们还有对付防盗链的方式，对付防盗链，服务器会识别headers中的referer是不是它自己，如果不是，有的服务器不会响应，所以我们还可以在headers中加入referer例如我们可以构建下面的headersheaders｛UserAgent：Mozilla4。0（compatible；MSIE5。5；WindowsNT），Referer：http：www。zhihu。comarticles｝
　　同上面的方法，在传送请求时把headers传入Request参数里，这样就能应付防盗链了。另外headers的一些属性，下面的需要特别注意一下：
　　UserAgent：有些服务器或Proxy会通过该值来判断是否是浏览器发出的请求ContentType：在使用REST接口时，服务器会检查该值，用来确定HTTPBody中的内容该怎样解析。applicationxml：在XMLRPC，如RESTfulSOAP调用时使用applicationjson：在JSONRPC调用时使用applicationxwwwformurlencoded：浏览器提交Web表单时使用在使用服务器提供的RESTful或SOAP服务时，ContentType设置错误会导致服务器拒绝服务
　　其他的有必要的可以审查浏览器的headers内容，在构建时写入同样的数据即可。2。Proxy（代理）的设置
　　urllib2默认会使用环境变量httpproxy来设置HTTPProxy。假如一个网站它会检测某一段时间某个IP的访问次数，如果访问次数过多，它会禁止你的访问。所以你可以设置一些代理服务器来帮助你做工作，每隔一段时间换一个代理，网站君都不知道是谁在捣鬼了，这酸爽！下面一段代码说明了代理的设置用法importurllib2enableproxyTrueproxyhandlerurllib2。ProxyHandler（｛http：http：someproxy。com：8080｝）nullproxyhandlerurllib2。ProxyHandler（｛｝）ifenableproxy：openerurllib2。buildopener（proxyhandler）else：openerurllib2。buildopener（nullproxyhandler）urllib2。installopener（opener）3。Timeout设置
　　上一节已经说过urlopen方法了，第三个参数就是timeout的设置，可以设置等待多久超时，为了解决一些网站实在响应过慢而造成的影响。例如下面的代码，如果第二个参数data为空那么要特别指定是timeout是多少，写明形参，如果data已经传入，则不必声明。importurllib2responseurllib2。urlopen（http：www。baidu。com，timeout10）importurllib2responseurllib2。urlopen（http：www。baidu。com，data，10）4。使用HTTP的PUT和DELETE方法
　　http协议有六种请求方法，get，head，put，delete，post，options，我们有时候需要用到PUT方式或者DELETE方式请求。
　　PUT：这个方法比较少见。HTML表单也不支持这个。本质上来讲，PUT和POST极为相似，都是向服务器发送数据，但它们之间有一个重要区别，PUT通常指定了资源的存放位置，而POST则没有，POST的数据存放位置由服务器自己决定。DELETE：删除某一个资源。基本上这个也很少见，不过还是有一些地方比如amazon的S3云服务里面就用的这个方法来删除资源。
　　如果要使用HTTPPUT和DELETE，只能使用比较低层的httplib库。虽然如此，我们还是能通过下面的方式，使urllib2能够发出PUT或DELETE的请求，不过用的次数的确是少，在这里提一下。importurllib2requesturllib2。Request（uri，datadata）request。getmethodlambda：PUTorDELETEresponseurllib2。urlopen（request）5。使用DebugLog
　　可以通过下面的方法把DebugLog打开，这样收发包的内容就会在屏幕上打印出来，方便调试，这个也不太常用，仅提一下importurllib2httpHandlerurllib2。HTTPHandler（debuglevel1）httpsHandlerurllib2。HTTPSHandler（debuglevel1）openerurllib2。buildopener（httpHandler，httpsHandler）urllib2。installopener（opener）responseurllib2。urlopen（http：www。baidu。com）
　　以上便是一部分高级特性，前三个是重要内容，在后面，还有cookies的设置还有异常的处理，小伙伴们加油哦！

2022。1。7最新电脑配置与推荐在目前新年1月份，现在12代的124000f已出，英特尔10代、11代处理器可以会有点降价，，中度玩家可以入手，现在也可以考虑12400F加b660主板，独立显卡方面没有呈现下……iQOO8再度预热，配备屏下双压感触控随着iQOO8正式发布的临近，iQOO官方也是在近期向外界披露了更多关于iQOO8手机的信息。在此前iQOO官方宣布了iQOO8系列手机将会全系配备120W闪充，其中的iQOO……nBox，让数字货币回归安全本质今年7月，加密行业遭遇了一系列网络攻击。网络犯罪分子继续利用各种攻击手段来窃取数字货币，为自己牟利。区块链和加密货币行业规模庞大，给黑客提供了各种各样的攻击向量，让整个加密货币……分布式学习之zookeeper3分布式学习之zookeeper3分布式很多地方都会用到zk，虽然这个技术出了很久，但是作为应用开发工程师可能这方面接触的还是比较少。我打算从浅入深的学习下zk的使用……小米MIX4明日亮相，优点缺点都存在小米数字系列的一次次崛起真正让用户体验到了普通的价格用到了顶尖旗舰手机的快感，也让用户了解到小米真正的实力。虽然今年一直宣传要冲击高端手机市场，但总是被用户嘲笑没有性价比……人民日报评阿里巴巴员工被性侵事件近日，阿里巴巴女员工表示其在出差过程中被灌醉，后遭到客户猥亵，而后其领导在女同事醉酒后多次进入其房间实施强奸。看完网上流传的8000字爆料文，难以想象，一个女性醉酒后身边……智慧城市应该是一个开放的系统李铁谈城市城市政府的需求只是智慧应用的一小部分，而更广泛的需求是来自于市场的。因此，智慧城市的核心就是要建立一个开放的服务体系文李铁智慧城市的概念近些年在国内得到广泛关注。许……里程碑！国内快递业务量首破千亿，7年激增近900！可快递公司点蓝字关注，不迷路我国快递业又迈上一新台阶！12月8日，据国家邮政局快递大数据平台实时监测数据显示，2021年我国快递业务量首次达到1000亿件，这意味着我国快递业……阿尔法蛋词典笔与有道如何选？从这几点来看随着科技的不断进步，帮助孩子学习的智能工具也越来越多，词典笔就是其中之一。面对琳琅满目的词典笔，很多父母都无从下手，那么选词典笔我们应该看哪些方面呢？下面就以阿尔法蛋词典笔及有……无现金时代，为何越是发达的国家，越不流行支付宝和微信支付？现在技术越来越发达，人们的生活水平相比于之前来说已经变得很好了，而且技术发达，带给我们的是移动支付，也越来越广泛了，很多人现在基本上出门，已经不带现金了，因为移动支付已经能满足……董明珠的手机梦，探秘格力又悄悄发布了一款新手机六年六部手机董明珠的手机梦究竟还能做多久？为啥说是悄悄呢？因为别人做手机都是大张旗鼓，提前几个月就营销造势，生怕人不知道，和董小姐做手机像是偷偷摸摸，……实体的未来何去何从？电商发展很快，真的就是好事情吗？我现在感觉不是，他可以干死实体，干死企业让你没有利润。不说质量只看价格。这样的电商个人感觉存不存在意义不大。一个明星上来就可以直播带货。她们真正……

<<<<<<－>>>>>>

你真的配得上一个GoProHero4吗？之前打算去三亚蜈支洲岛潜个水，看着旅行攻略上不是美女靓照就是海底美图，好不羡慕。可惜同行的只有三个大汉，长得也不能帅破天际，所以不得不把装逼这项艰巨的任务交给伟大的摄影技……台湾到底有多重要？如若祖国实现完全统一，将会发生什么样的变化占我国总面积不到4的台湾省，为何能成为21世纪以来世界上最关键的咽喉要地之一，祖国完全统一又将带来怎样翻天覆地的变化？首先，海权作为一个国家经济和军事实力的代表，对大国的……阳光灿烂的日子宁静的胸照初恋脸美好的让人喜欢《阳光灿烂的日子》这部电视剧中是人们印象中最美好的一个，在剧中最喜欢的一个人就是女主宁静，几乎是成为了人们心中最美好的初恋，当时的时候宁静是很年轻，年龄也很小，在脸上是有稚嫩的……他月薪8000，连根甘蔗都舍不得给我买！妹子对感情很迷茫自己女29岁，男友31岁。我们相识于网络，目前相处3个月，奔着结婚去的，相处还算调和，但有几件事让我觉得不舒适。春节前面几天，他说接我回重庆玩，特地就来我家见了家长。来时，他买……古剑奇谭里的烛龙之鳞是什么，烛龙之鳞有什么作用电视剧《古剑奇谭》已成了一部经典剧，剧里有不少法宝，例如玉衡和烛龙之鳞，玉衡是远古龙渊族的东西，能引出魂魄，操控灵魂之力的铸剑邪物，以及吸收人的魂魄，那么烛龙之鳞是什么？它又有……资深少女的初恋是小说改编的吗，电视剧资料简介《资深少女的初恋》是一部都市爱情电视剧，由宋茜担任女主，宋威龙担任男主。两大流量小生的加入也为电视剧增加了不少关注度，同时，许多网友对电视剧的原著小说特别好奇。那么，电视剧《资……少年的你原著结局，少年的你书结局是悲剧的吗校园暴力是现在最常见，也是影响比较大的一个问题，很多人因为小的时候遭受过校园暴力的影响，长大以后留下了一些心理阴影，甚至是心理扭曲，给现代人的生活造成了严重的影响，《少年的你》……赘婿老耿是谁扮演的，老耿的结局怎么样《赘婿》这部剧确实部喜剧，苏氏布行的耿护院跟着宁毅久了也是特别的有趣，样子上虽然看着凶了点，其实善良可爱，讲义气，有着一颗武侠心。老耿的扮演者是王成思，不仅是中国内地男演员，还……孙艺珍外出140完整版婚外情是永远都不能被原谅的话题其实不得不说的是韩国的伦理片的影片的确是的不错的，他们很多情节的点其实都是做的非常的棒的，比如说孙艺珍和裴勇俊一起合作的外出这部影片就是一个很好的例子了，其实这样的事情虽然在现……边开车边充电，感应式充电是否可行？众所周知，现在困扰广大新能源汽车车主的一大难题就是续航，经常有车主遇到汽车电量告急但附近却没有可用充电桩的窘境。近年来随着国内充电桩建设进程不断加快，新能源汽车充电难的问题已基……不加长但也不愁卖，这款豪华中型SUV到底好在哪里？虽说都是豪华品牌，但号称德系三剑客的奔驰、宝马和奥迪在气质上却有着明显的不同，如果说奔驰代表豪华、奥迪代表商务，那么宝马一定是运动的代名词。这种气质不仅体现在它的轿车身上，也同……7月京东自营手机销量排行榜苹果第一小米第27月京东自营手机销量排行榜，经过618的冲榜销量动不动破百万的单品销量。618过后，销量明显的下滑，苹果12依旧第一，独占鳌头，红米K40安卓排名第一。荣耀50新品……

友情链接：易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网