来源:Python爬虫与数据挖掘 作者:Python进阶者 前几天有粉丝在问这个curl2py命令不知道怎么使用,今天这篇文章就是一个手把手教程,希望大家后面都可以用上,下面一起来看看吧!一、安装 你可以选择在命令提示符使用pip安装filestools库,安装命令:pipinstallfilestools或者pipinstallfilestoolsihttp:pypi。douban。comsimpletrustedhostpypi。douban。com 二、传统方法 1、目标网站 安装之后,我们就可以进行使用了。这里我们以小小明大佬之前介绍过的这个网站为例,进行说明。小小数据网站:https:xxkol。cnkol 【注意】:如果是初次登录这个网站,需要进行微信扫码登录,才能有浏览权限噢! 2、网页请求 那么现在我们需要获取这个网站的数据,就需要对改网站进行请求。老规矩,右键选择检查(如下图所示)或者直接按下鼠标快捷键F12,可以进入开发者模式。 进入到开发者模式,如下图所示。依次选择网络FetchXHR 我们尝试进行翻页查看数据的话,发现这个网站其实是JS加载的,那么就需要构造请求头,如下图所示。 按照以往的做法,我们肯定是需要手动的去把这些cookies、headers和params参数挨个的去复制粘贴到我们的代码文件里边。这么做肯定是可以的,但是容易出现出错或者漏了某一个参数,而且费时费力,万一出错了,你还得挨个从头到尾去检查,十分的头大。 那现在小小明大佬给我们开发的这个curl2py工具呢,就直接解放了我们的双手,我直呼小小明yyds!下面一起来看看如何使用吧。三、curl2py工具 1、复制为cURL(bash) 继续沿用上一步的网站和分析情况,我们只需要在JS网址上进行右键,然后依次选择复制复制为cURL(bash),如下图所示。 2、使用curl2py工具转换代码 复制好之后,我们只需要在Pycharm中运行以下代码,其中代码中的xxx,就是上面复制到的curl命令,直接粘贴替换下面的xxx即可。fromcurl2py。curlParseToolimportcurlCmdGenPyScriptcurlcmdxxxoutputcurlCmdGenPyScript(curlcmd)print(output) 3、实列 下面来看实际操作,以刚刚这个网站为例,小编刚刚已经复制了,然后替换粘贴代码,代码如下所示。fromcurl2py。curlParseToolimportcurlCmdGenPyScriptcurlcmdcurlhttps:xxkol。cnapiklist?pagesize20page2namefollowerstartfollowerendinterstartinterendxxpointstartxxpointendplatformsexattributecategorysorttypeHauthority:xxkol。cnHsecchua:Chromium;v92,NotA;Brand;v99,MicrosoftEdge;v92Haccept:applicationjson,textplain,Hauthorization:eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9。eyJ1c2VyaW5mbyI6eyJvcGVuaWQiOiJvcEowYzB0V2p4RmJ4bTMwQ1FyZE9QSXNaWmlJIiwiaWQiOjEzMzc2fSwiaXNzIjoiaHR0cHM6XC9cL2JhY2sueHhrb2wuY24iLCJhdWQiOiJodHRwczpcL1wvYmFjay54eGtvbC5jbiIsImlhdCI6MTYyOTM1NzExNSwibmJmIjoxNjI5MzU3MTE1LCJleHAiOjE2Mjk5NjE5MTV9。W4l1RoQPNgCXBBBobO49QcfMjgYsM4nuKNtCmKshhHAHsecchuamobile:?0Huseragent:Mozilla5。0(WindowsNT10。0;Win64;x64)AppleWebKit537。36(KHTML,likeGecko)Chrome92。0。4515。131Safari537。36Edg92。0。902。73Hsecfetchsite:sameoriginHsecfetchmode:corsHsecfetchdest:emptyHreferer:https:xxkol。cnkolHacceptlanguage:zhCN,zh;q0。9,en;q0。8,enGB;q0。7,enUS;q0。6Hcookie:Hmlvtd4217dc2524e360ff487588dd84ad4ab;xxtokeneyJ0eXGciOiJIUzI1NiJ9。eyJ1c2VyaW5mbyI6eyJvcGVuaWQiOiJvcEowYzB0V2p4RmJ4bTMwQ1FyZE9QSXNaWmlJIiwiaWQiOjEzMzc2fSwiaXNzIjoiaHR0cHM6XC9cL2JhY2sueHhrb2wuY24iLCJhdWQiOiJodHRwczpcL1wvYmFjay54eGtvbC5jbiIsImlhdCI6MTYyOTM1NzExNSwibmJmIjoxNjI5MzU3MTE1LCJleHAiOjE2Mjk5NjE5MTV9。W4l1RoQPNgCXBBBobO49QcfMjgYsM4nuKNtCmKshhHA;Hmlpvtd4217dc2524e360ff487588dd84ad4ab1629212compressedoutputcurlCmdGenPyScript(curlcmd)print(output) 运行代码之后,我们在控制台会得到具体的爬虫代码,如下图所示。 也就是说,都不需要你动手,小小明大佬直接给你把代码都构造出来了,是不是个狠人? 这里我把控制台输出的代码直接拷贝出来,粘贴到这里,这样大家看得可能会更直观一些。Thegeneratedbycurl2py。author:小小明importrequestsimportjsonheaders{authority:xxkol。cn,secchua:Chromium;v92,NotA;Brand;v99,MicrosoftEdge;v92,accept:applicationjson,textplain,,authorization:eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9。eyJ1c2VyaW5mbyI6eyJvcGVuaWQiOiJvcEowYzB0V2p4RmJ4bTMwQ1FyZE9QSXNaWmlJIiwiaWQiOjEzMzc2fSwiaXNzIjoiaHR0cHM6XC9cL2JhY2sueHhrb2wuY24iLCJhdWQiOiJodHRwczpcL1wvYmFjay54eGtvbC5jbiIsImlhdCI6MTYyOTM1NzExNSwibmJmIjoxNjI5MzU3MTE1LCJleHAiOjE2Mjk5NjE5MTV9。W4l1RoQPNgCXBBBobO49QcfMjgYsM4nuKNtCmKshhHA,secchuamobile:?0,useragent:Mozilla5。0(WindowsNT10。0;Win64;x64)AppleWebKit537。36(KHTML,likeGecko)Chrome92。0。4515。131Safari537。36Edg92。0。902。73,secfetchsite:sameorigin,secfetchmode:cors,secfetchdest:empty,referer:https:xxkol。cnkol,acceptlanguage:zhCN,zh;q0。9,en;q0。8,enGB;q0。7,enUS;q0。6}cookies{Hmlvtd4217dc2524e36588dd84ad4ab:1629232919,xxtoken:eyJ0eXAiOiJKVhbGciOiJIUzI1NiJ9。eyJ1c2VyaW5mbyI6eyJvcGVuaWQiOiJvcEowYzB0V2p4RmJ4bTMwQ1FyZE9QSXNaWmlJIiwiaWQiOjEzMzc2fSwiaXNzIjoiaHR0cHM6XC9cL2JhY2sueHhrb2wuY24iLCJhdWQiOiJodHRwczpcL1wvYmFjay54eGtvbC5jbiIsImlhdCI6MTYyOTM1NzExNSwibmJmIjoxNjI5MzU3MTE1LCJleHAiOjE2Mjk5NjE5MTV9。W4l1RoQPNgCXBBBobO49QcfMjgYsM4nuKNtCmKshhHA,Hmlpvtd4217dc2524e360ff488dd84ad4ab:16292212}params{pagesize:20,page:2,name:,followerstart:,followerend:,interstart:,interend:,xxpointstart:,xxpointend:,platform:,sex:,attribute:,category:,sorttype:}resrequests。get(https:xxkol。cnapiklist,paramsparams,headersheaders,cookiescookies)print(res。text) 哟嚯,这代码,直接给你呈现出来了,讲真,这代码比我们自己写出来的还要好呢,真是tql! 有的吃瓜群众可能就要问了,小编啊,这个代码能跑嘛?当然可以了!下面一起来运行下吧!直接在Pycharm里边复制控制台的代码,将首尾两行Pycharm自带的提示去除,就可以跑了,右键运行,得到下图的结果。 可以看到返回code0,说明程序运行成功,而且可以看到滚动条那么小,可以想象数据量还是蛮大的,这个数据一看就是json格式的,直接将结果放到在线json网站中去看看。json在线解析网址:https:www。sojson。com 然后点击红色框框中的校验格式化,可以看到json格式的数据,如下图所示。 这下看上去是不是清爽很多了呢?四、总结 我是Python进阶者,这篇文章主要给大家介绍了curl2py工具及其用法。curl2py工具的确是一个神器,功能强大,而且十分方便,有了它,基本上网页请求数据的复制、粘贴等传统方式都通通帮你搞定了,而且省事省心省力,还不用担心翻车。小伙伴们,你学会了嘛?快快用起来吧!