python采集超清画质手机壁纸,让它换不完
前言
嗨喽!大家好呀,这里是魔王开发环境:Python3。8Pycharm模块使用:requestspipinstallrequests数据请求parselpipinstallparsel解析模块(提取数据)如果安装python第三方模块:winR输入cmd点击确定,输入安装命令pipinstall模块名(pipinstallrequests)回车在pycharm中点击Terminal(终端)输入安装命令如何配置pycharm里面的python解释器?选择file(文件)setting(设置)Project(项目)pythoninterpreter(python解释器)点击齿轮,选择add添加python安装路径pycharm如何安装插件?选择file(文件)setting(设置)Plugins(插件)点击Marketplace输入想要安装的插件名字比如:翻译插件输入translation汉化插件输入Chinese选择相应的插件点击install(安装)即可安装成功之后是会弹出重启pycharm的选项点击确定,重启即可生效爬虫基本流程:一。数据来源分析爬取网站是什么想要获取网站什么样数据内容
比如爬取图片从一张图片去分析
通过开发者工具进行抓包分析,对比我们想要图片url地址一些参数二。爬虫代码实现步骤:发送请求,对于分析得到url地址发送请求
请求网址
请求方式
请求头参数伪装可以把python代码伪装成浏览器(客户端)发送请求
如果不进行伪装会有什么后果不会给你返回你想要数据获取数据,获取response服务器返回响应数据解析数据,提取我们想要数据内容图片url地址以及图片标题保存数据,把图片数据保存到本地基础语法:for循环自定义变量赋值字符串格式化方法字典创建函数关键字传参zip内置函数输出函数文件操作requests简单使用get请求获取数据parsel简单使用css语法代码
代码里网址被我删了好过审核,想要得小伙伴可看评论或私聊我领取导入数据请求模块导入模块没有使用,灰色待机状态importrequestspipinstallrequests导入数据解析模块importparselpipinstallparsel1。发送请求headers请求头参数,可以开发者工具里面直接进行复制,其次headers字典数据类型,键值对useragent:用户代理表示浏览器基本身份标识cookie:用户信息,检测用户是否有登陆账号forpageinrange(2,11):urlfhttps:sj。enterdesk。comwoman{page}。htmlheaders{cookie:tf2cf055ce8713058cbfdbd1561c38e86;r1281;Hmlvt86200d30c9967d7eda64933a74748bac1645625923,1646892448;Hmlpvt86200d30c9967d7eda64933a74748bac1646894465,useragent:Mozilla5。0(WindowsNT10。0;Win64;x64)AppleWebKit537。36(KHTML,likeGecko)Chrome99。0。4844。51Safari537。36}responserequests。get(urlurl,headersheaders)Response〔200〕返回响应对象200状态码标识请求成功2。获取数据,获取服务器返回数据内容,获取响应对象文本数据字符串数据返回数据内容,和我们在开发者工具里面看到不一样说明你被服务器识别出来是你爬虫程序,所以他没有给你返回数据print(response。text)3。解析数据css选择器xpathre三种解析方式都可以去用选择最适合css选择器:根据标签属性提取数据内容对于获取response。text进行数据类型转换转成selector对象SelectorxpathNonedatahtmlxmlnshttp:www。w3。org1999x。。。attr()属性选择器。egelipicli。egelipicdlddaimg都是定位标签,告诉它是哪一个标签img::attr(src)取img标签里面的src属性数据getall()获取所有标签内容数据返回列表数据类型selectorparsel。Selector(response。text)srcselector。css(。egelipicli。egelipicdlddaimg::attr(src))。getall()altselector。css(。egelipicli。egelipicdlddaimg::attr(alt))。getall()forimgurl,titleinzip(src,alt):imgurlimgurl。replace(edpic360360,edpicsource)4。保存数据imgcontentrequests。get(urlimgurl,headersheaders)。content获取二进制数据内容withopen(imgtitle。jpg,modewb)asf:f。write(imgcontent)print(imgurl,title)尾语
好了,我的这篇文章写到这里就结束啦!
有更多建议或问题可以评论区或私信我哦!一起加油努力叭()
喜欢就关注一下博主,或点赞收藏评论一下我的文章叭!!!