美文网首页pythonPython
【基础】学习笔记62-Python3爬取与分析网页中的数据

【基础】学习笔记62-Python3爬取与分析网页中的数据

作者: Alyna_C | 来源:发表于2021-01-11 06:56 被阅读0次

简介

爬取网页——标准库urllib3、第三方库requests

分析网页——正则表达式库re、第三方库beautifulsoup4

问题

问题:print(html.decode("utf-8"))出错,错误如下:

UnicodeDecodeError: 'utf-8' codec can'tdecode bytes in position 358-359: unexpected end of data

解决:修改字符集参数,一般这种情况较多出现在国标码(GBK)和utf-8之间选择出现了问题。

出现异常报错,是由于设置decode()方法的第二个参数(errors)为严格(strict)形式造成的。该参数默认为strict,将其更改为ignore即可。

print(html.decode("utf-8","ignore"))

<备注:必须确定网页是使用utf-8编码>

问题:如何查看网页采用的编码方式

解答:<常规方法>

打开网页,打开开发者工具(可直接按F12调出)

à在窗口‘console’标签下,输入‘document.charset’,即可查到网页编码

问题:ModuleNotFoundError: No module named 'urllib.request'; 'urllib' is

not a package的问题,即urllib包无效

解决:问题产生的原因有两种——1.正在import urllib的文件命名就是urllib.py;2. 正在使用的文件的文件夹目录下有一个叫urllib.py的文件。

       更改.py文件名即可

强调:不能给py文件命名为urllib,会导致urllib导入出错

应用举例

#获取“辽宁本科教学网”的通知公告

步骤:爬取网页requests-解析网页BeatifulSoup-从网页内容中爬取有效信息soup.find-打印出结果

相关文章

  • 【基础】学习笔记62-Python3爬取与分析网页中的数据

    简介 爬取网页——标准库urllib3、第三方库requests 分析网页——正则表达式库re、第三方库beaut...

  • 爬取静态网页数据思路与案例

    爬取静态网页数据: 1.需求: 爬取什么网站获得什么内容,存储在excel、txt与MySQL数据库中。 2.分析...

  • 爬取基于Ajax技术网页数据

    爬取动态网页数据: 1.需求: 爬取什么网站获得什么内容,存储在excel、txt与MySQL数据库中。 2.分析...

  • 【Python - 爬虫】爬取天气信息

    爬取提取旧金山天气页面的信息 输出结果如下: 参考链接:DC学院数据分析学习笔记(三):基于HTML的网页爬虫

  • 百度百聘-python爬虫实践

    这次是分析网页获得后台API的接口网址,然后直接进行爬取。随着学习深入,可将爬取内容直接写入数据库。

  • 爬虫作业2

    分析要爬取目标的网页的网页结构与元素标签位置信息 任务回顾 1.爬取网页:看准网 http://www.kanzh...

  • python语法基础 requests库 lxml库,用lxml中的 etree 进行网页数据定位爬取 通过pip...

  • 简单的爬虫例子

    爬取的数据存入Excel表格 分析要爬取的内容的网页结构: 执行:python demo.py 效果 生成一个q...

  • python爬虫中遇到的乱码问题

    一.问题背景 最近因为做数据分析需要用到py去爬取数据,然后学习了py爬虫的基础。笔者爬取的是LPL春季赛的战队比...

  • Python ☞ day 14

    Python学习笔记之 爬虫 urllib 模块提供了一系列用于操作URL的功能 urllib 爬取网页 将爬取的...

网友评论

    本文标题:【基础】学习笔记62-Python3爬取与分析网页中的数据

    本文链接:https://www.haomeiwen.com/subject/ewtmoktx.html