1、什么是正则表达式?
一种规则字符串,非python特有,需导入re模块,起到过滤、清洗数据的作用
2、用法详解

2.1、re.match()
最常规的匹配:

常规匹配显得很繁琐,使用.*代替所有字符串:

使用括号和group(数字)可以获取匹配的目标结果:

贪婪匹配:.*会默认匹配尽量多的字符

非贪婪匹配:使用?采用非贪婪匹配

匹配模式:因为.无法匹配换行符

re.S 改变匹配模式:

转义:

2.2、re.search()
re.match()是从字符串开头开始匹配的,一旦开头不匹配,那么整个匹配就失败了。re.search()会扫描整个字符串,反馈第一个匹配成功的结果。




2.3、re.findall()
因为re.rearch()只能返回匹配的第一个结果,如果想返回所有符合匹配规则的结果,就要使用re.findall(),如果有匹配结果,返回的是一个列表。



2.4、re.sub()


如果要替换成的结果里包含匹配的结果,需要用 \数字 获取到匹配的结果

替换掉a标签


2.5、re.compile()
把正则字符串编译成正则表达式对象,以便在后面的匹配中复用。

爬取豆瓣图书

网友评论