Python爬虫入门六之正则表达式

美丽时装
彩妆资讯
历史明星
乐活安卓
数码常识
驾车健康
苹果问答
网络发型
电视车载
室内电影
游戏科学
音乐整形

　　在前面我们已经搞定了怎样获取页面的内容，不过还差一步，这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢？下面就开始介绍一个十分强大的工具，正则表达式！1。了解正则表达式
　　正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个规则字符串，这个规则字符串用来表达对字符串的一种过滤逻辑。
　　正则表达式是用来匹配字符串非常强大的工具，在其他编程语言中同样有正则表达式的概念，Python同样不例外，利用了正则表达式，我们想要从返回的页面内容提取出我们想要的内容就易如反掌了。
　　正则表达式的大致匹配过程是：1。依次拿出表达式和文本中的字符比较，2。如果每一个字符都能匹配，则匹配成功；一旦有匹配不成功的字符则匹配失败。3。如果表达式中有量词或边界，这个过程会稍微有一些不同。2。正则表达式的语法规则
　　下面是Python中正则表达式的一些匹配规则，图片资料来自CSDN
　　3。正则表达式相关注解（1）数量词的贪婪模式与非贪婪模式
　　正则表达式通常用于在文本中查找匹配的字符串。Python里数量词默认是贪婪的（在少数语言里也可能是默认非贪婪），总是尝试匹配尽可能多的字符；非贪婪的则相反，总是尝试匹配尽可能少的字符。例如：正则表达式ab如果用于查找abbbc，将找到abbb。而如果使用非贪婪的数量词ab？，将找到a。注：我们一般使用非贪婪模式来提取。（2）反斜杠问题
　　与大多数编程语言相同，正则表达式里使用作为转义字符，这就可能造成反斜杠困扰。假如你需要匹配文本中的字符，那么使用编程语言表示的正则表达式里将需要4个反斜杠：前两个和后两个分别用于在编程语言里转义成反斜杠，转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。Python里的原生字符串很好地解决了这个问题，这个例子中的正则表达式可以使用r表示。同样，匹配一个数字的d可以写成rd。有了原生字符串，妈妈也不用担心是不是漏写了反斜杠，写出来的表达式也更直观勒。4。PythonRe模块
　　Python自带了re模块，它提供了对正则表达式的支持。主要用到的方法列举如下返回pattern对象re。compile（string〔，flag〕）以下为匹配所用函数re。match（pattern，string〔，flags〕）re。search（pattern，string〔，flags〕）re。split（pattern，string〔，maxsplit〕）re。findall（pattern，string〔，flags〕）re。finditer（pattern，string〔，flags〕）re。sub（pattern，repl，string〔，count〕）re。subn（pattern，repl，string〔，count〕）
　　在介绍这几个方法之前，我们先来介绍一下pattern的概念，pattern可以理解为一个匹配模式，那么我们怎么获得这个匹配模式呢？很简单，我们需要利用re。compile方法就可以。例如patternre。compile（rhello）
　　在参数中我们传入了原生字符串对象，通过compile方法编译生成一个pattern对象，然后我们利用这个对象来进行进一步的匹配。另外大家可能注意到了另一个参数flags，在这里解释一下这个参数的含义：参数flag是匹配模式，取值可以使用按位或运算符’’表示同时生效，比如re。Ire。M。可选值有：re。I（全拼：IGNORECASE）：忽略大小写（括号内是完整写法，下同）re。M（全拼：MULTILINE）：多行模式，改变和39；的行为（参见上图）re。S（全拼：DOTALL）：点任意匹配模式，改变。的行为re。L（全拼：LOCALE）：使预定字符类wWbBsS取决于当前区域设定re。U（全拼：UNICODE）：使预定字符类wWbBsSdD取决于unicode定义的字符属性re。X（全拼：VERBOSE）：详细模式。这个模式下正则表达式可以是多行，忽略空白字符，并可以加入注释。
　　在刚才所说的另外几个方法例如re。match里我们就需要用到这个pattern了，下面我们一一介绍。
　　注：以下七个方法中的flags同样是代表匹配模式的意思，如果在pattern生成时已经指明了flags，那么在下面的方法中就不需要传入这个参数了。（1）re。match（pattern，string〔，flags〕）
　　这个方法将会从string（我们要匹配的字符串）的开头开始，尝试匹配pattern，一直向后匹配，如果遇到无法匹配的字符，立即返回None，如果匹配未结束已经到达string的末尾，也会返回None。两个结果均表示匹配失败，否则匹配pattern成功，同时匹配终止，不再对string向后匹配。下面我们通过一个例子理解一下authorCQCcoding：utf8导入re模块importre将正则表达式编译成Pattern对象，注意hello前面的r的意思是原生字符串patternre。compile（rhello）使用re。match匹配文本，获得匹配结果，无法匹配时将返回Noneresult1re。match（pattern，hello）result2re。match（pattern，hellooCQC！）result3re。match（pattern，heloCQC！）result4re。match（pattern，helloCQC！）如果1匹配成功ifresult1：使用Match获得分组信息printresult1。group（）else：print1匹配失败！如果2匹配成功ifresult2：使用Match获得分组信息printresult2。group（）else：print2匹配失败！如果3匹配成功ifresult3：使用Match获得分组信息printresult3。group（）else：print3匹配失败！如果4匹配成功ifresult4：使用Match获得分组信息printresult4。group（）else：print4匹配失败！
　　运行结果hellohello3匹配失败！hello
　　匹配分析1。第一个匹配，pattern正则表达式为’hello’，我们匹配的目标字符串string也为hello，从头至尾完全匹配，匹配成功。2。第二个匹配，string为hellooCQC，从string头开始匹配pattern完全可以匹配，pattern匹配结束，同时匹配终止，后面的oCQC不再匹配，返回匹配成功的信息。3。第三个匹配，string为heloCQC，从string头开始匹配pattern，发现到‘o’时无法完成匹配，匹配终止，返回None4。第四个匹配，同第二个匹配原理，即使遇到了空格符也不会受影响。我们还看到最后打印出了result。group（），这个是什么意思呢？下面我们说一下关于match对象的的属性和方法Match对象是一次匹配的结果，包含了很多关于此次匹配的信息，可以使用Match提供的可读属性或方法来获取这些信息。
　　属性：1。string：匹配时使用的文本。2。re：匹配时使用的Pattern对象。3。pos：文本中正则表达式开始搜索的索引。值与Pattern。match（）和Pattern。seach（）方法的同名参数相同。4。endpos：文本中正则表达式结束搜索的索引。值与Pattern。match（）和Pattern。seach（）方法的同名参数相同。5。lastindex：最后一个被捕获的分组在文本中的索引。如果没有被捕获的分组，将为None。6。lastgroup：最后一个被捕获的分组的别名。如果这个分组没有别名或者没有被捕获的分组，将为None。方法：1。group（〔group1，〕）：获得一个或多个分组截获的字符串；指定多个参数时将以元组形式返回。group1可以使用编号也可以使用别名；编号0代表整个匹配的子串；不填写参数时，返回group（0）；没有截获字符串的组返回None；截获了多次的组返回最后一次截获的子串。2。groups（〔default〕）：以元组形式返回全部分组截获的字符串。相当于调用group（1，2，last）。default表示没有截获字符串的组以这个值替代，默认为None。3。groupdict（〔default〕）：返回以有别名的组的别名为键、以该组截获的子串为值的字典，没有别名的组不包含在内。default含义同上。4。start（〔group〕）：返回指定的组截获的子串在string中的起始索引（子串第一个字符的索引）。group默认值为0。5。end（〔group〕）：返回指定的组截获的子串在string中的结束索引（子串最后一个字符的索引1）。group默认值为0。6。span（〔group〕）：返回（start（group），end（group））。7。expand（template）：将匹配到的分组代入template中然后返回。template中可以使用id或g、g引用分组，但不能使用编号0。id与g是等价的；但10将被认为是第10个分组，如果你想表达1之后是字符’0’，只能使用g0。
　　下面我们用一个例子来体会一下coding：utf8一个简单的match实例importre匹配如下内容：单词空格单词任意字符mre。match（r（w）（w）（？Psign。），helloworld！）printm。string：，m。stringprintm。re：，m。reprintm。pos：，m。posprintm。endpos：，m。endposprintm。lastindex：，m。lastindexprintm。lastgroup：，m。lastgroupprintm。group（）：，m。group（）printm。group（1，2）：，m。group（1，2）printm。groups（）：，m。groups（）printm。groupdict（）：，m。groupdict（）printm。start（2）：，m。start（2）printm。end（2）：，m。end（2）printm。span（2）：，m。span（2）printrm。expand（rggg）：，m。expand（r213）outputm。string：helloworld！m。re：m。pos：0m。endpos：12m。lastindex：3m。lastgroup：signm。group（1，2）：（hello，world）m。groups（）：（hello，world，！）m。groupdict（）：｛sign：！｝m。start（2）：6m。end（2）：11m。span（2）：（6，11）m。expand（r213）：worldhello！（2）re。search（pattern，string〔，flags〕）
　　search方法与match方法极其类似，区别在于match（）函数只检测re是不是在string的开始位置匹配，search（）会扫描整个string查找匹配，match（）只有在0位置匹配成功的话才有返回，如果不是开始位置匹配成功的话，match（）就返回None。同样，search方法的返回对象同样match（）返回对象的方法和属性。我们用一个例子感受一下导入re模块importre将正则表达式编译成Pattern对象patternre。compile（rworld）使用search（）查找匹配的子串，不存在能匹配的子串时将返回None这个例子中使用match（）无法成功匹配matchre。search（pattern，helloworld！）ifmatch：使用Match获得分组信息printmatch。group（）输出world（3）re。split（pattern，string〔，maxsplit〕）
　　按照能够匹配的子串将string分割后返回列表。maxsplit用于指定最大分割次数，不指定将全部分割。我们通过下面的例子感受一下。importrepatternre。compile（rd）printre。split（pattern，one1two2three3four4）输出〔one，two，three，four，〕（4）re。findall（pattern，string〔，flags〕）
　　搜索string，以列表形式返回全部能匹配的子串。我们通过这个例子来感受一下importrepatternre。compile（rd）printre。findall（pattern，one1two2three3four4）输出〔1，2，3，4〕（5）re。finditer（pattern，string〔，flags〕）
　　搜索string，返回一个顺序访问每一个匹配结果（Match对象）的迭代器。我们通过下面的例子来感受一下importrepatternre。compile（rd）forminre。finditer（pattern，one1two2three3four4）：printm。group（），输出1234（6）re。sub（pattern，repl，string〔，count〕）
　　使用repl替换string中每一个匹配的子串后返回替换后的字符串。当repl是一个字符串时，可以使用id或g、g引用分组，但不能使用编号0。当repl是一个方法时，这个方法应当只接受一个参数（Match对象），并返回一个字符串用于替换（返回的字符串中不能再引用分组）。count用于指定最多替换次数，不指定时全部替换。importrepatternre。compile（r（w）（w））sisay，helloworld！printre。sub（pattern，r21，s）deffunc（m）：returnm。group（1）。title（）m。group（2）。title（）printre。sub（pattern，func，s）outputsayi，worldhello！ISay，HelloWorld！（7）re。subn（pattern，repl，string〔，count〕）
　　返回（sub（repl，string〔，count〕），替换次数）。importrepatternre。compile（r（w）（w））sisay，helloworld！printre。subn（pattern，r21，s）deffunc（m）：returnm。group（1）。title（）m。group（2）。title（）printre。subn（pattern，func，s）output（sayi，worldhello！，2）（ISay，HelloWorld！，2）5。PythonRe模块的另一种使用方式
　　在上面我们介绍了7个工具方法，例如match，search等等，不过调用方式都是re。match，re。search的方式，其实还有另外一种调用方式，可以通过pattern。match，pattern。search调用，这样调用便不用将pattern作为第一个参数传入了，大家想怎样调用皆可。函数API列表match（string〔，pos〔，endpos〕〕）re。match（pattern，string〔，flags〕）search（string〔，pos〔，endpos〕〕）re。search（pattern，string〔，flags〕）split（string〔，maxsplit〕）re。split（pattern，string〔，maxsplit〕）findall（string〔，pos〔，endpos〕〕）re。findall（pattern，string〔，flags〕）finditer（string〔，pos〔，endpos〕〕）re。finditer（pattern，string〔，flags〕）sub（repl，string〔，count〕）re。sub（pattern，repl，string〔，count〕）subn（repl，string〔，count〕）re。sub（pattern，repl，string〔，count〕）
　　具体的调用方法不必详说了，原理都类似，只是参数的变化不同。小伙伴们尝试一下吧～小伙伴们加油哦！

FindX2系列勇夺四项第一将与三星S20竞争上半年机皇3月6日，OPPO举行了主题为全方位，感官觉醒的新品发布会，并推出了新一代旗舰FindX2系列。正如其主题一样，此次FindX2系列全方位提升了产品的使用体验，各方面搭载的都是……NVIDIA与AMD加码超分辨率游戏支持数成关键今天是Computex的第二天，今天NVIDIA和AMD都发表了各自的主题演讲，其中和大家关系比较大的游戏卡方面，英伟达发布了GeForceRTX3080Ti和GeForceR……追球定档6月17日李汶翰本色出演沙雕行为遭女友光速打脸星关系6月11日讯由爱奇艺、上海恒星引力联合出品，知名作家风弄担任编剧，沈怡监制，苏浩旗导演，范世錡、卜冠今、SNH48李艺彤、黄圣池、朱元冰、李汶翰、卢洋洋、洪潇、李希侃主演……算法推荐服务被约束，抖音商家会有哪些影响？现在的世界，是一个被算法、大数据所支配的时代。早上睁开眼打开新闻APP看到的资讯，中午点外卖商家的排名，都被算法操纵。算法影响着我们生活的方方面面，却长期处于野蛮生长的状态，因……实控人全额担保！阳光城公布硬核债务展期方案不让债权人利益受损，要积极履行债务主体责任。作者李白玉来源债市观察11月1日，阳光城集团股份（000671。SZ）发布公告对旗下三只美元债提出交换要约，以换取……扶摇天煞团战聚燃赤子热血杨幂阮经天风霜雨雪笃信而行星关系讯：由柠萌影业、柠萌悦心、企鹅影视联合出品，改编自天下归元小说《扶摇皇后》，解嬿嬿编剧，杨文军、谢泽、李才联合执导，杨晓培担任总制片人，杨幂、阮经天领衔主演，刘奕君、王劲……甜蜜暴击热血开播李萌萌被鹿晗误认成男生星关系讯：由鹿晗、关晓彤、李萌萌等主演的青春热血格斗剧《甜蜜暴击》于昨晚开播，首播当日全网播放量破亿。在剧中，新人演员李萌萌饰演拳击社社长程亚楠一角，刚一出场就被鹿晗饰演的明天……骑行路上第一次事故下班回家，天色已晚停在路边来碗羊汤烩面越是骑得久了越是有点佛系了，16公里的路程平均下来时速也就20左右。真的没想过会出事故。经过我住在北五环，公司在北三环，……谷智鑫天天向上化身助威团见证好友钱枫瘦身愿望达成星关系讯：昨日播出的《天天向上》钱枫心愿周主题节目中，实力派演员谷智鑫成为健身助威团的一员，为钱枫的瘦身企划加油打气。同时，节目组请来了多位健身教练，现场分享塑身减脂tips，……网剧超密定档7月30日异次元硬科幻独创世界观星关系讯：由乙鸾文化、鑫海达动漫科技、新华盛世文化、合众影业、不二映像影业、豪东文化、梵灏思文化、喜剧之王影业联合出品的超级网剧《超密》正式宣布定档7月30日，在优酷全网独播上……合伙人献礼改革开放四十周年热血创业定档7。27星关系讯：由导演林家川、马鸣联手打造，高正、陆文杰编剧，朱亚文、郑元畅、李佳航三大实力派男演员联袂主演的现实主义青春励志情感大剧《合伙人》今日宣布定档，该剧将于7月27日开播，……卧铺车厢内的插座烧手机充电器，电压不稳昨天坐的长春到三亚的Z385次列车，上车之后，玩手机游戏、看视频、刷头条、看小说等打发时间。可时间久了，手机没电了，只剩下百分之十几的电了，要充电了，没有充电宝，只能拿着充电器……

<<<<<<－>>>>>>

毛孩的老婆叫什么嫁给这样一个男人能得到幸福吗毛孩于震寰从一开始出生就得到了全世界的关注，即便现在因为他自己淡出公众视线，减少曝光度了，大家还是会好奇于震寰结婚没有他的老婆叫什么名字，其实就算大家对毛孩感兴趣，觉得自己不会……新民高中郭冠樱视频事件这是有多饥渴如今后悔了吧在大多数人的心目中会认为高中生应该就是一副学生的样子，每天除了吃饭就是学习，他们的生活原本就应该是枯燥无味的。对于学生这个身份大家都是这么认知的。但这并不代表所有的高中生都会规……假面舞团和kinjaz谁强队员全部都是世界级别的舞者其实我们的国内的这种的真正的舞团的节目是很少的，所以很多的人对于这些舞团的认识也都是很少的，但是即便是你让认识的再少应该也是会知道假面舞团和kinja这两个组合的吧，因为他们是……选颜值党还是实力派？JEETAIR与魔声钻石之泪全方位对比自苹果AirPods问世以来，真无线蓝牙耳机的风潮便席卷而来，耳机界的各路诸侯也都纷纷加入了这一新兴的细分市场，一时间涌现出了众多同类产品。除了备受瞩目的国际大牌，不少新出的国……毛孩个人资料老婆万万没想到条件这么好看过《炊事班故事》的人应该都对毛孩不会陌生吧。虽然瘦小但是却带给了大家很多的欢笑。毛孩虽然没有颜值没有身高。但他却是一位兢兢业业的好演员。出道这么多年也没有什么绯闻。在离开演艺……妹妹背着洋娃娃图片恐怖片姐姐和妹妹以及娃娃的鬼故事其实很多人的是听过妹妹背着洋娃娃的歌曲的，这个歌曲是一个儿歌，但是如今却又不少的人说这是一个恐怖的歌曲，那么这个歌曲为什么会那么恐怖呢？这首歌曲是被改变之后才变成了恐怖歌曲的，……小米手环3，上手体验半个月，说说感受小米手环2出来的时候，就一直想买了，但是觉得功能不多，自己又有手表，所以迟迟没有下手。小米手环3发布后，下定决心一定要买一个。可惜抢了两次都没抢到。逛街无意中小米之家问了一下，……能和欧小柔比美的胸吉尼斯世界纪录第一胸能和欧小柔比美的胸，目前这个世界上并没有，未来这个世界上应该也是没有，凡事都是有极限的，欧小柔的胸已经是人类的极限了。这种极限大的夸张，但实在是太大了，这个事业线真是长。任何事……宝马M135ixDrive最新官图曝光，2。0T四驱系统，零日前，宝马官方发布了一组M135ixDrive最新官图，这次主要是在外观颜色和动力性能方面做了调整。虽然这些变化听起来不大，但改动过的动力性能让它百公里加速仅需4。8秒完成。下……女方家两度加价索21万彩礼男方卖女儿？爱结不结马上就到国庆了，很多年轻人都选择在这个史上最长假期举办自己的婚礼。但是，也有人因为彩礼的事情，取消了原本的婚期。9月24日，江苏盐城一则21万天价彩礼，盐城这对小情侣的聊……崔雪莉为什么结束自己的生命被高层财阀控制崔雪莉被高层财阀控制，是有这种可能性的，在崔雪莉的后面视频中能够看出来她的情绪已经有些不稳定了，而且崔雪莉的一些姿势和动作有非常的奇怪，甚至从中能够看到一些包含暗示的含义。崔雪……叶子媚在水里激情戏是什么电影为了拍戏可谓是牺牲很大在香港影片的黄金年代，大家一度最常提及的名字无疑就是叶子媚了，叶子媚出道后拍摄的电影可是有非常多大受好评呢，也因此关于叶子媚的传说到现在都广为流传，但很多人可能只是看过她的电影……

友情链接：易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网