Pyhon爬虫下载小说

1月17日赤雷榭投稿

　　本节通过具体的爬虫程序，演示BS4解析库的实际应用。爬虫程序目标：下载诗词名句网（https：www。shicimingju。combook）《两晋演义》小说。
　　关于分析网页分过程，这里不再做详细介绍了，只要通读了前面的文章，那么关于如何分析网页，此时您应该了然于胸了。其实，无论您爬取什么类型的网站，分析过程总是相似的。案例简单分析
　　首先判网站属于静态网站，因此您的主要任务是分析网页元素的组成，然后使用BS4提取所需的信息。如下所示：
　　提取到a标签是解决本程序的重点，a标签的页面代码结构如下所示：ulli自序lili第一回祀南郊司马开基立东宫庸雏伏祸lili第二回堕诡计储君纳妇慰痴情少女偷香li。。。123456复制代码类型：〔python〕
　　从上述代码可以看出，a标签包含了目录名称以及详情页的地址链接。那么如何获取a标签呢？经过简单分析后可知a标签属于pulli的子节点，因此可以使用BS4的select（）获取。如下所示：listnamesoup。select（。bookmuluullia）1复制代码类型：〔python〕
　　上述代码的返回值是一个列表，列表中每一个元素都是一个Tag对象，类型为classbs4。element。Tag。
　　下载详情页的URL也非常容易获得，它是由发起请求的URL与a标签的herf链接拼接而成。因此通过字符串拼接就可以获取下载详内容页的URL。https：www。shicimingju。combookliangjinyanyi2。htmlhttps：www。shicimingju。combookliangjinyanyi3。html12复制代码类型：〔python〕
　　最后一步是提取具体的内容。通过分析详情页的元素构成可知，我们想要的内容都包含在以下标签中：具体内容123复制代码类型：〔python〕
　　因此使用BS4的find（）方法就可以获取所需内容，如下所示：artistsoup。find（p，classchaptercontent）1复制代码类型：〔python〕
　　之后把获取的内容写入到txt文件中就可以了。下面我使用之前学习过的urllib模块与BS4模块编写爬虫程序，这样才能做到温故而知新。编写爬虫程序
　　代码如下所示，程序中已经做了详细的注释：importurllib。requestimportrandomfrombs4importBeautifulSoupimporttimedefrequesthtml（url）：headers｛UserAgent：Mozilla5。0（WindowsNT10。0；Win64；x64）AppleWebKit537。36（KHTML，likeGecko）Chrome89。0。4389。90Safari537。36｝requesturllib。request。Request（url，headersheaders）returnrequestdefparsehtml（html，f）：生成soup对象soupBeautifulSoup（html，lxml）查找所有的章节链接和标题内容listnamesoup。select（。bookmuluullia）遍历每一个列表中的tag对象，获取链接个目录foriteminlistname：获取链接item：自序拼接目录链接，此处item类型为classbs4。element。Tag，使用下面方法可以值获取href属性值hrefhttp：www。shicimingju。comitem〔href〕获取标题titleitem。textprint（正在下载：s。。。。。。title）获取章节内容函数textgettext（href）写入文件f。write（titletext）print（结束下载：stitle）time。sleep（random。uniform（0，1））提取章节内容defgettext（href）：创建请求对象requestrequesthtml（href）contenturllib。request。urlopen（request）。read（）。decode（utf8）soupBeautifulSoup（content，lxml）查找包含内容的tagpartistsoup。find（p，classchaptercontent）获取tag标签中的文本内容returnartist。textdefrun（）：打开文件fopen（两晋演义。txt，w，encodingutf8）urlhttp：www。shicimingju。combookliangjinyanyi。html构建请求对象requestrequesthtml（url）发送请求，得到响应，转换为HTML对象htmlurllib。request。urlopen（request）。read（）。decode（utf8）解析内容parsehtml（html，f）关闭文件f。close（）ifnamemain：run（）12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152复制代码类型：〔python〕
　　程序运行结果：正在下载：自序。。。。。。结束下载：自序正在下载：第一回祀南郊司马开基立东宫庸雏伏祸。。。。。。结束下载：第一回祀南郊司马开基立东宫庸雏伏祸正在下载：第二回堕诡计储君纳妇慰痴情少女偷香。。。。。。。。。。
　　开课吧广场人才学习交流平台

投诉评论转载

提效减负必备打印机，轻松印对学习or办公难题如今，社会竞争越来越激烈，就连打印机也得有些独特技能，才能在内卷时代占据一席之地。那么，打印技术到底哪家强呢？咳咳，得力D20系列打印机申请出战！一、宅家学习篇打印……更符合国情泰国将用三轮车测试自动驾驶技术9月19日消息，据香港《南华早报》报道，三轮车是泰国街头最常见的交通工具。从今年11月开始，泰国政府将与私人企业合作测试该国首辆自动驾驶三轮车。据悉，创业公司Airovr……谷歌Waymo自动驾驶出租车受热捧，试点首月运6299名乘客9月17日消息，据外媒报道，Alphabet旗下无人驾驶汽车公司Waymo提交给加州公用事业委员会（CPUC）的季度报告显示，其在加州进行的机器人出租车试点项目很受欢迎，首月就……苹果自动驾驶项目泰坦获两项新专利9月16日消息，近日，据外媒报道，美国专利商标局授予了苹果泰坦项目两项新的专利，分别涉及汽车稳定控制系统和自适应定位车门。前者旨在解决在不平坦道路上的自动驾驶行车问题，而后者主……小鹏汽车奇点汽车与英伟达签署合作协议使用其AI芯片Xavie11月22日消息，据国外媒体报道，美国芯片制造商英伟达CEO黄仁勋表示，公司已经分别与中国电动汽车初创公司小鹏汽车、奇点汽车和SFMotors签署开发自动驾驶技术的交易。……小鹏汽车发布鹏友计划年底前签约100座超级充电站11月16日，小鹏汽车智能纯电SUV小鹏G3亮相广州国际车展，小鹏汽车董事长兼CEO何小鹏在展台发布鹏友计划。据了解，小鹏汽车将自营超级充电站，计划2018年年底前，在北……1900匹马力极速超400kmh，宾尼法利纳电动超跑2019IT之家12月16日消息宾尼法利纳是汽车设计界最着名的品牌之一。这家公司曾与法拉利，阿尔法罗密欧和玛莎拉蒂等品牌合作，设计了阿尔法罗密欧Spider、法拉利275GTB等传奇车……特斯拉将裁员7，只保留最关键岗位的临时工和合同工IT之家1月18日消息据彭博社报道，特斯拉CEO马斯克在一份邮件中表示，特斯拉将在2019年裁掉最多7的全职员工，而临时工和合同工只会保留部分关键岗位的人员。马斯克此前称……Pyhon爬虫下载小说本节通过具体的爬虫程序，演示BS4解析库的实际应用。爬虫程序目标：下载诗词名句网（https：www。shicimingju。combook）《两晋演义》小说。关于分析网……微信更新，上线炸屎和心心相印表情特效近期微信更新后上线了许多新功能，之前拍一拍可设置炸弹表情特效，就是当你在拍一拍添加炸弹或庆祝表情后，只要别人拍一拍你就会触发该特效。其实除了这个特效之外，近期微信又上线了……特斯拉指控公司工程师中饱私囊，反被员工状告诽谤据ArsTechnica北京时间1月17日报道，特斯拉周三遭公司一名前员工起诉，罪名是涉嫌诽谤。这位前工程师名叫克里斯蒂娜巴兰（CristinaBalan），她在西雅图地……上海首家换电站正式运营全程只需20秒，首批330辆出租车将采IT之家3月12日消息3月11日，上海首家新能源车多品牌多车型共享换电站在闵行启用。据新闻坊报道，整个换电站的空间大约100多平米。升电、卸电、再装新电、最后稳稳落地，一……

<<<<<<－>>>>>>

手机APP为啥要获取麦克风权限？联发科进行WiFi7演示速度是WiFi6的2。4倍生活有你更多彩e2 摩托罗拉新机或将发布，定位中低端 LoveLive！SuperStar！第二季制作确定手机中的变色龙，真我X7Pro上手实拍，2199元起值不值顶级屏幕与顶级性能的组合，iQOO8系列正式发布国内房产市场降温，会步日本房地产泡沫的后尘吗曹操刺董失败，回到老家，轻松拉起了一支军队，主要有这两点原因冬枣买多了吃不完怎么办？数字经济东数西算所需关注的个券耳背式的助听器好还是耳内式的好？

友情链接：中准网聚热点快百科快传网快生活快软网快好知文好找美丽时装彩妆资讯历史明星乐活安卓数码常识驾车健康苹果问答网络发型电视车载室内电影游戏科学音乐整形