游戏电视苹果数码历史美丽
投稿投诉
美丽时装
彩妆资讯
历史明星
乐活安卓
数码常识
驾车健康
苹果问答
网络发型
电视车载
室内电影
游戏科学
音乐整形

手把手教你使用curl2py自动构造爬虫代码并进行网络爬虫

  来源:Python爬虫与数据挖掘
  作者:Python进阶者
  前几天有粉丝在问这个curl2py命令不知道怎么使用,今天这篇文章就是一个手把手教程,希望大家后面都可以用上,下面一起来看看吧!一、安装
  你可以选择在命令提示符使用pip安装filestools库,安装命令:pipinstallfilestools或者pipinstallfilestoolsihttp:pypi。douban。comsimpletrustedhostpypi。douban。com
  二、传统方法
  1、目标网站
  安装之后,我们就可以进行使用了。这里我们以小小明大佬之前介绍过的这个网站为例,进行说明。小小数据网站:https:xxkol。cnkol
  【注意】:如果是初次登录这个网站,需要进行微信扫码登录,才能有浏览权限噢!
  2、网页请求
  那么现在我们需要获取这个网站的数据,就需要对改网站进行请求。老规矩,右键选择检查(如下图所示)或者直接按下鼠标快捷键F12,可以进入开发者模式。
  进入到开发者模式,如下图所示。依次选择网络FetchXHR
  我们尝试进行翻页查看数据的话,发现这个网站其实是JS加载的,那么就需要构造请求头,如下图所示。
  按照以往的做法,我们肯定是需要手动的去把这些cookies、headers和params参数挨个的去复制粘贴到我们的代码文件里边。这么做肯定是可以的,但是容易出现出错或者漏了某一个参数,而且费时费力,万一出错了,你还得挨个从头到尾去检查,十分的头大。
  那现在小小明大佬给我们开发的这个curl2py工具呢,就直接解放了我们的双手,我直呼小小明yyds!下面一起来看看如何使用吧。三、curl2py工具
  1、复制为cURL(bash)
  继续沿用上一步的网站和分析情况,我们只需要在JS网址上进行右键,然后依次选择复制复制为cURL(bash),如下图所示。
  2、使用curl2py工具转换代码
  复制好之后,我们只需要在Pycharm中运行以下代码,其中代码中的xxx,就是上面复制到的curl命令,直接粘贴替换下面的xxx即可。fromcurl2py。curlParseToolimportcurlCmdGenPyScriptcurlcmdxxxoutputcurlCmdGenPyScript(curlcmd)print(output)
  3、实列
  下面来看实际操作,以刚刚这个网站为例,小编刚刚已经复制了,然后替换粘贴代码,代码如下所示。fromcurl2py。curlParseToolimportcurlCmdGenPyScriptcurlcmdcurlhttps:xxkol。cnapiklist?pagesize20page2namefollowerstartfollowerendinterstartinterendxxpointstartxxpointendplatformsexattributecategorysorttypeHauthority:xxkol。cnHsecchua:Chromium;v92,NotA;Brand;v99,MicrosoftEdge;v92Haccept:applicationjson,textplain,Hauthorization:eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9。eyJ1c2VyaW5mbyI6eyJvcGVuaWQiOiJvcEowYzB0V2p4RmJ4bTMwQ1FyZE9QSXNaWmlJIiwiaWQiOjEzMzc2fSwiaXNzIjoiaHR0cHM6XC9cL2JhY2sueHhrb2wuY24iLCJhdWQiOiJodHRwczpcL1wvYmFjay54eGtvbC5jbiIsImlhdCI6MTYyOTM1NzExNSwibmJmIjoxNjI5MzU3MTE1LCJleHAiOjE2Mjk5NjE5MTV9。W4l1RoQPNgCXBBBobO49QcfMjgYsM4nuKNtCmKshhHAHsecchuamobile:?0Huseragent:Mozilla5。0(WindowsNT10。0;Win64;x64)AppleWebKit537。36(KHTML,likeGecko)Chrome92。0。4515。131Safari537。36Edg92。0。902。73Hsecfetchsite:sameoriginHsecfetchmode:corsHsecfetchdest:emptyHreferer:https:xxkol。cnkolHacceptlanguage:zhCN,zh;q0。9,en;q0。8,enGB;q0。7,enUS;q0。6Hcookie:Hmlvtd4217dc2524e360ff487588dd84ad4ab;xxtokeneyJ0eXGciOiJIUzI1NiJ9。eyJ1c2VyaW5mbyI6eyJvcGVuaWQiOiJvcEowYzB0V2p4RmJ4bTMwQ1FyZE9QSXNaWmlJIiwiaWQiOjEzMzc2fSwiaXNzIjoiaHR0cHM6XC9cL2JhY2sueHhrb2wuY24iLCJhdWQiOiJodHRwczpcL1wvYmFjay54eGtvbC5jbiIsImlhdCI6MTYyOTM1NzExNSwibmJmIjoxNjI5MzU3MTE1LCJleHAiOjE2Mjk5NjE5MTV9。W4l1RoQPNgCXBBBobO49QcfMjgYsM4nuKNtCmKshhHA;Hmlpvtd4217dc2524e360ff487588dd84ad4ab1629212compressedoutputcurlCmdGenPyScript(curlcmd)print(output)
  运行代码之后,我们在控制台会得到具体的爬虫代码,如下图所示。
  也就是说,都不需要你动手,小小明大佬直接给你把代码都构造出来了,是不是个狠人?
  这里我把控制台输出的代码直接拷贝出来,粘贴到这里,这样大家看得可能会更直观一些。Thegeneratedbycurl2py。author:小小明importrequestsimportjsonheaders{authority:xxkol。cn,secchua:Chromium;v92,NotA;Brand;v99,MicrosoftEdge;v92,accept:applicationjson,textplain,,authorization:eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9。eyJ1c2VyaW5mbyI6eyJvcGVuaWQiOiJvcEowYzB0V2p4RmJ4bTMwQ1FyZE9QSXNaWmlJIiwiaWQiOjEzMzc2fSwiaXNzIjoiaHR0cHM6XC9cL2JhY2sueHhrb2wuY24iLCJhdWQiOiJodHRwczpcL1wvYmFjay54eGtvbC5jbiIsImlhdCI6MTYyOTM1NzExNSwibmJmIjoxNjI5MzU3MTE1LCJleHAiOjE2Mjk5NjE5MTV9。W4l1RoQPNgCXBBBobO49QcfMjgYsM4nuKNtCmKshhHA,secchuamobile:?0,useragent:Mozilla5。0(WindowsNT10。0;Win64;x64)AppleWebKit537。36(KHTML,likeGecko)Chrome92。0。4515。131Safari537。36Edg92。0。902。73,secfetchsite:sameorigin,secfetchmode:cors,secfetchdest:empty,referer:https:xxkol。cnkol,acceptlanguage:zhCN,zh;q0。9,en;q0。8,enGB;q0。7,enUS;q0。6}cookies{Hmlvtd4217dc2524e36588dd84ad4ab:1629232919,xxtoken:eyJ0eXAiOiJKVhbGciOiJIUzI1NiJ9。eyJ1c2VyaW5mbyI6eyJvcGVuaWQiOiJvcEowYzB0V2p4RmJ4bTMwQ1FyZE9QSXNaWmlJIiwiaWQiOjEzMzc2fSwiaXNzIjoiaHR0cHM6XC9cL2JhY2sueHhrb2wuY24iLCJhdWQiOiJodHRwczpcL1wvYmFjay54eGtvbC5jbiIsImlhdCI6MTYyOTM1NzExNSwibmJmIjoxNjI5MzU3MTE1LCJleHAiOjE2Mjk5NjE5MTV9。W4l1RoQPNgCXBBBobO49QcfMjgYsM4nuKNtCmKshhHA,Hmlpvtd4217dc2524e360ff488dd84ad4ab:16292212}params{pagesize:20,page:2,name:,followerstart:,followerend:,interstart:,interend:,xxpointstart:,xxpointend:,platform:,sex:,attribute:,category:,sorttype:}resrequests。get(https:xxkol。cnapiklist,paramsparams,headersheaders,cookiescookies)print(res。text)
  哟嚯,这代码,直接给你呈现出来了,讲真,这代码比我们自己写出来的还要好呢,真是tql!
  有的吃瓜群众可能就要问了,小编啊,这个代码能跑嘛?当然可以了!下面一起来运行下吧!直接在Pycharm里边复制控制台的代码,将首尾两行Pycharm自带的提示去除,就可以跑了,右键运行,得到下图的结果。
  可以看到返回code0,说明程序运行成功,而且可以看到滚动条那么小,可以想象数据量还是蛮大的,这个数据一看就是json格式的,直接将结果放到在线json网站中去看看。json在线解析网址:https:www。sojson。com
  然后点击红色框框中的校验格式化,可以看到json格式的数据,如下图所示。
  这下看上去是不是清爽很多了呢?四、总结
  我是Python进阶者,这篇文章主要给大家介绍了curl2py工具及其用法。curl2py工具的确是一个神器,功能强大,而且十分方便,有了它,基本上网页请求数据的复制、粘贴等传统方式都通通帮你搞定了,而且省事省心省力,还不用担心翻车。小伙伴们,你学会了嘛?快快用起来吧!

外媒显示三星GalaxyNote10已在欧洲官网宣传三星GalaxyNote10作为今年安卓阵营中最强的旗舰机之一,眼看其发布日期将近,热度依然很高。据外媒报道称,欧洲三星等官网上已经出现了GalaxyNote10系列手机的信息……索尼1佳能R3尼康Z9,各家旗舰机你看好谁?前两天尼康发布了自己的旗舰微相机Z9至此,三巨头各家旗舰机都已经正式发布了,索尼1、佳能R3、尼康Z9。下面就把三家的机子做个简单的对比:参数索尼1……B级车中的新门面,9。99万起,造型大气空间够用,实拍奔腾B一汽奔腾这个品牌,我觉得老司机并不会陌生,它也算是第一批国产品牌,且混得还不错,尤其是在合资品牌认可度最高的20082015年期间,一汽奔腾旗下多款车型都获得了而较为出色的销量……山东诸城大源建设集团紫檀文苑获中国安装之星众所周知,山东大源建设集团成立于1993年,是一家集房地产开发、建筑施工、装饰装修、钢结构工程、物业管理、园林绿化、生态农业等业态于一体的大型综合性企业集团。2021年以来,山……要说口袋无人机,不得不服HoverCamera要说无人机,大家都知道大疆,想起那强大的性能和恢弘的场景。那外露的、高速旋转的桨叶,仿佛是一只雄鹰。而HoverCamera的话,就像你身边的一只蜻蜓。不用担……华为手机别乱买,这三款一定要注意华为旗下的荣耀品牌手机主打性价比,广受大众喜爱,不少畅销机型甚至胜过华为的高端旗舰机,也算是华为手机的主力军。但荣耀手机也依旧不能乱买,以下这三款机型,虽均有不同幅度的降价,且……美国造纸商Crane视觉形象升级Crane成立于1801年,是一家以100纯棉纸和文具闻名的美国造纸商。它的历史可以追溯到1770年,当时StephenCrane收购了马萨诸塞州波士顿附近的自由造纸厂,并成为……荣耀Magic2,一款只看外观就想入手的智慧手机2年前发布的华为2012实验室潜心研发的荣耀Magic,拥有八曲面惊艳外观,第一代智慧操作系统,给人留下了深刻印象。当时被荣耀Magic圈了粉。由于处理器和第一代智慧系统还不完……闲鱼出现陪玩陪聊业务?狂打擦边球!网友大开眼界闲鱼作为二手交易平台,给大家提供了不少将闲置物品实现变现的途径,也因此受到大家的喜爱。淘宝被大家称为万能宝,作为它子公司的闲鱼自然也不甘落后。小编觉得闲鱼是个极具神奇色彩的软件……史上最强AMGGT来袭,超800马力,保时捷TurboS压力说起超跑我想大家首先会想到保时捷、法拉利跟兰博基尼,没错,它们可以说是其中的标杆,是无数人心中的Dreamcar。不过除了它们以外,还有不少的经典可以选择,比如今天的主角奔驰A……大屏使用痛点报告发布,开关机无广告的荣耀智慧屏再次被表扬10月25日,消费者报道发布了一份《大屏使用痛点报告》,这份报告基于电商平台(京东自营、苏宁自营和天猫旗舰店)上的近8万条消费者评价,对市面上热销的62款65寸大屏电视进行了口……一颗远古的牙齿重现了数百万年前巨齿鲨的凶猛捕食场景一项新的研究还原了数百万年前,一头古老的抹香鲸经历的非常、非常糟糕的一天。那天,一条可怕的巨齿鲨,也可能是其祖先奥托斯巨鲨(OtodusChubutensis)有史以来最大的捕……
老师傅说新房装修可以装空气环境机,当时不听劝,现在后悔了没买房之前,总是幻想着以后有自己的小家,然后把它装修的漂漂亮亮的。然而买房之后才发现装修处处都是坑啊!由于家里孩子需要上小学,所以新房没法晾晒太久时间,就要住进去。装修老师傅听……获21年AWE艾普兰多个奖项,莱克究竟有何资格?专注与创新不你知道吗?电影界有一个奥斯卡,而家电界其实也有一个奥斯卡,那就是每年中国家电及消费电子博览会(AWE)上,揭晓的艾普兰奖。你以为艾普兰只是一个给钱就能上的野鸡奖项吗?那就错了,……2020年全球智能音箱销量突破1。5亿台,背后赢家居然是联发近年来,随着AI、物联网技术的兴起和语音交互的快速普及,智能音箱发展迅猛,出货量保持高速增长。据市场研究机构StrategyAnalytics智能音箱和屏幕服务最新发布的……成都外国语学校成都性价比最高的民办学校,没有之一成都外国语学校意想不到的高质量,当之无愧的性价比之王在成都,人们最熟悉的中学是老牌的4(石室中学)、7(成都七中)、9(树德中学),成都七中一定是当之无愧的老大,不只是成……屏实力!TCLC12智屏集成灶震撼上市,重新定义厨房时光3月9日,TCL2021春季新品线上发布会以智慧科技更懂你为主题,震撼发布了TCL灵悉C12全套系全场景AI家电,为用户构建全生态、多场景个性化家居体验,满足用户多样化需求,打……微信24小时客服人工服务热线电话号码是多少?腾讯微信客服人工服务电话:057587494158腾讯微信人工客服087168919534用户至上,用心服务,欢迎您的来电!全天24小时为您服务,由于用户较多,请您多打几次,未……heic格式照片怎么才能打开?是什么原理?要想知道如何打开heic格式的图片,首先你要知道这个是什么东西。heic格式的图片IOS11更新后在拍摄照片时默认的图片储存文件,相比JPG,这个格式占用的打内存更小,但是画质……华为没有芯片做不了手机,为什么其它品牌可以?你这个问题就问得莫名其妙。你是问其他品牌没有芯片可以做得了手机?那么,答案就是任何品牌没有芯片就做不了手机。你是问其他品牌为什么有芯片?那么,答案就是其……万众瞩目之下,华为鸿蒙系统横空出世,为什么我们必须支持它千呼万唤始出来!6月2日晚上,华为的鸿蒙操作系统在中国人民期待的目光中横空出世。这不但是一款中国自己的底层软件系统,也是一款在美国举全力重压之下的争气系统。它一出生就领先世界半……爆料荣耀X20游戏手机将发布,搭载联发科天玑1200IT之家6月3日消息据知名数码博主数码闲聊站爆料,荣耀官方在6月16日发布荣耀50系列手机之后,还将推出荣耀X20系列新机,从其提供的爆料图来看,荣耀X20手机将采用后置三摄像……美国研究者奥密克戎不应被视为轻症病毒重症风险与德尔塔感染者相中国日报网4月28日电美国《新科学人》(NewScientist)周刊网站4月26日报道称,奥密克戎变异株不应仅被视为只引发轻微症状的病毒,因为感染这种被认为较温和变异株的病人……一个普通人对鸿蒙的一点看法从今天起,华为的鸿蒙即将正式上线,标志着手机操作系统一个崭新时代的开始。从今天起,中国将诞生自己的手机操作系统,打破了近30年来智能设备操作系统全部由外国垄断的历史。在我看来,……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网