美文网首页
2021-04-19python爬虫之网页解析器

2021-04-19python爬虫之网页解析器

作者: 匿名老师 | 来源:发表于2021-04-19 15:35 被阅读0次

网页解析器本质就是把网页翻译成网页的源代码,从中我们可以提取想要的信息。

而网页的源代码就是html+css+javascript

结构化解析,说白了,就是按照标签一层层的开始,从最开始的<html>标签,然后同层次的<head><body>等依次展开,像一棵树一样,叫dom树

而反映到代码中,只需要引入一个专门用来解析的包,知道解析网页的一些方法即可。

常用网页解析工具

1、re正则匹配(属于模糊匹配)引入re包即可,在python3中,re为内置包

例:re.findall(p,s,[f])方法

p=r'ss_\w+'

s='SS_AA ss_aa'

m=re.findall(p,s,re.I)#re.i代表不区别大小写

print(m)#最终输出结果为【‘SS_AA’,ss_aa】

2、python自带html.parser

lxml解析器

用法:利用beautifulsoup4中的方法

例:需要引入requests,bs4

用法:soup=bs4.beautifulsoup(html.txt,"html.parser")#html.txt是获取的网页源代码,可能过requests.get(url)获取

soup=bs4.beautifulsoup(html.txt,"html.parser")

或者soup=bs4.beautifulsoup(html.txt,"lxml.parser")

然后利用soup.findall()方法来寻找标签中的内容即可。

相关文章

  • 2021-04-19python爬虫之网页解析器

    网页解析器本质就是把网页翻译成网页的源代码,从中我们可以提取想要的信息。 而网页的源代码就是html+css+ja...

  • 搜狗词库爬虫(1):基础爬虫架构和爬取词库分类

    基础爬虫架构 基础爬虫框架主要包括五大模块:爬虫调度器、URL管理器、网页下载器、网页解析器、数据存储器。 爬虫调...

  • Python开发简单爬虫--学习笔记

    一、概述 目标掌握开发轻量级爬虫内容 爬虫简介 简单爬虫架构URL管理器网页下载器(urllib2)网页解析器(B...

  • python网页解析器

    python 之网页解析器 一、什么是网页解析器 1、网页解析器名词解释 首先让我们来了解下,什么是网页解析器,简...

  • Python学习

    第二十七天 爬虫学习(二) 1、回顾 网页解析器python中常见的网页解析器:1、正则表达式2、python自带...

  • Python爬虫学习--爬虫基本架构

    一个简单的爬虫架构由爬虫调度端、URL管理器、网页下载器和网页解析器四部分构成。它们之间的关系如下图: ● 爬虫调...

  • 2018-12-28

    简单爬虫项目(一) 简单爬虫的基础模块 url下载器 url管理器 网页解析器 网页解析方式有很多种,可自行百度,...

  • 简单爬虫架构

    整理笔记,来自imooc课程 整体结构 爬虫调度端 URL管理器 网页下载器 网页解析器 URL管理器 管理待抓取...

  • Python爬虫架构

    Python 爬虫架构主要由五个部分组成,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价...

  • python 之网页解析器

    一、什么是网页解析器 1、网页解析器名词解释 首先让我们来了解下,什么是网页解析器,简单的说就是用来解析html网...

网友评论

      本文标题:2021-04-19python爬虫之网页解析器

      本文链接:https://www.haomeiwen.com/subject/ngiilltx.html