美文网首页
小爬虫实践项目-正则表达式

小爬虫实践项目-正则表达式

作者: 鬼马压刀 | 来源:发表于2018-07-10 09:28 被阅读0次
^ 

以什么开始

.

任意字符

*

出现次数

非贪婪匹配
贪婪匹配:自右往左开始匹配
非贪婪匹配:自左往右开始匹配

()

代表提取子串

+

匹配前面的子表达式一次或多次

line = 'guimadao'
apr = "(gu.+d)"
输出:guimad
{2}  # 匹配确定的2次
{2,}  # 匹配确定的 2次
{2,5}  # 最少匹配 2次且最多匹配 5次
x|y  # 匹配 x 或 y
[.*]  # 必须存在 .  或 * 字符
[4567]  # 存在4 或 5 或 6 或 7
[0-9]  # 存在0 至 9 的字符
[^1]  # 存在不为1的字符
\w  # 等同于[A-Za-z0-9_]
\W  # 与小写相反,不存在此情况会匹配
[\u4E00-\u9FA5]  # 匹配中文
\d  # 匹配数字

相关文章

  • 小爬虫实践项目-正则表达式

    以什么开始 任意字符 出现次数 非贪婪匹配贪婪匹配:自右往左开始匹配非贪婪匹配:自左往右开始匹配 代表提取子串 匹...

  • python第五天

    爬虫实践 一、数据提取 非结构化数据处理 文本、电话号码、邮箱地址>>>正则表达式 html文件>>>正则表达式、...

  • 小爬虫实践项目-item相关开发

    上一节中将伯乐在线的所有文章进行了抓取并完成解析,接下来就是将解析的数据保存到item容器,并通过项目管道(ipi...

  • js正则表达式教程示例

    正则表达式是项目开发中常用的模式,内容替换、表单认证、网络爬虫等,通过以下的例子我相信可以大概掌握正则表达式了 定...

  • Scrapy框架实战-爬取文章

    框架图: 抓取小程序社区文章 创建爬虫项目 创建项目(项目名为MyTest) 创建爬虫:beetle:(先进入到M...

  • 微信小程序反编译实践

    在做爬虫项目的时候,有时可以通过爬取小程序的后端接口的加密算法。下面是小程序反编译的实践笔记。 所需工具 已获取 ...

  • 爬虫入门(1)-使用re和requeset

    前言 编写爬虫需要了解正则表达式,网上内容很多,但在爬虫应用中用到最多的正则表达式是 ‘(.*?)’ 在Pytho...

  • python爬虫学习-day7-实战

    目录 python爬虫学习-day1 python爬虫学习-day2正则表达式 python爬虫学习-day3-B...

  • Python 基础爬虫目录

    目录 python爬虫学习-day1 python爬虫学习-day2正则表达式 python爬虫学习-day3-B...

  • python爬虫学习-day5-selenium

    目录 python爬虫学习-day1 python爬虫学习-day2正则表达式 python爬虫学习-day3-B...

网友评论

      本文标题:小爬虫实践项目-正则表达式

      本文链接:https://www.haomeiwen.com/subject/xnutpftx.html