优草派  >   Python

Python网络爬虫中如何使用正则匹配数据?使用正则表达式匹配数据的方法

翟嘉慧            来源:优草派

想要获取网页中数据时,通常采用的是Python爬虫去对数据爬取,最后将爬取的数据存储,居然还再做数据的分析,? 之前我们在python基础中介绍过正则表达式,而re模块可以使用正则表达式对字符串进行很好的筛选,下面就具体的讲解正则表达式匹配数据的方法。

Python网络爬虫中如何使用正则匹配数据?使用正则表达式匹配数据的方法

一、正则匹配

在使用正则匹配的时候,我们需要使用到一个re模块,一般在使用正则进行匹配模式的时候,采用的都是不同的符号,下面的介绍中都是有关符号的讲解,具体如下:

一、单字符

使用一个字符时,只有那么几个符号前面是没有添加反斜杠的,非常容易记住,具体的单字符如下:

1、一个点号可以匹配到除了换行符以外的所有字符。

2、使用一对中括号,可以对匹配的集合进行指定,可以是任意的字符。

3、\d的形式在Python中表示的是一个整数,匹配的范围是在0-9之间。

4、将上面的小写字母d改成大写的D时,匹配到的就不是一个数字了。

5、如果是要对数字、字母或者是下划线以及其他中文进行匹配的时候,就可以使用\w的形式。大写的W匹配与它相反的内容。

6、如果是要对数据中所有的空白字符包,括空格、制表符、换页符等等进行匹配的时候,可以使用/s的方式,将小写字母s换成大写,又是匹配相反的值。

二、边界符

边界符就是匹配数据是以什么进行结尾或者是开头的,只有下面这两种表示方法,分别使用$和^符号。

到此这篇关于Python网络爬虫中如何使用正则匹配数据?使用正则表达式匹配数据的方法就分享到在这里了,希望文章中的内容可以对大家的学习带来帮助。

【原创声明】凡注明“来源:优草派”的文章,系本站原创,任何单位或个人未经本站书面授权不得转载、链接、转贴或以其他方式复制发表。否则,本站将依法追究其法律责任。