Python爬虫编码

Python爬虫编码

作者: 鹊南飞_ | 来源:发表于2020-07-29 09:40 被阅读0次

Python爬虫编码
python爬虫：地理编码
python抓取简单爬虫01
好文推荐
解决使用request库爬取内容出现乱码的问题
3分钟带你了解世界第一语言Python 入门上手也这么简单！
Python爬虫杂记 - 疑难小点
urlencode库编码
Python 原生爬虫小项目 -- 爬取熊猫TV 英雄联盟游
Python网络爬虫（八） - 利用有道词典实现一个简单翻译程序

问题

reponse.encoding 默认为 gb2312, 出现部分中文乱码

解决方法

将response.encoding 设置为 gbk
因为gb2312只支持六千多个汉字的编码，
而gbk支持1万多个汉字编码。

代码示例

import requests
url = .....
headers = .......
response = requests.get(url=url)
# response.encoding 默认为gb2312，出现部分中文乱码
# 通过以下方式设置编码方式
response.encoding = 'gbk'

编码方式的区别

gbk 一般用于繁体中文，
是国家标准gb2312基础上扩容后兼容gb2312的标准。
文字编码（中英文）用双字节编码，是国家编码，
通用性比utf8差，但utf8占用的数据库比gbk大
gb2312一般用于简体中文
gb2312只支持六千多个汉字的编码
而gbk支持1万多个汉字编码。
utf8 是全球通用，
用于解决国际上字符的一种多字节编码，
英文使用8位（一个字节），
中文使用28位（3个字节）。
现在一般都用utf8编码。
允许含BOM，但一般不包含BOM。

相关文章

Python爬虫编码
问题 reponse.encoding 默认为 gb2312, 出现部分中文乱码解决方法将response.e...
python爬虫：地理编码
背景音乐：背景平时在做数据分析的时候，我们往往只能拿到地址信息，并不方便直接进行可视化。我们需要将地址转成经...
python抓取简单爬虫01
python抓取简单爬虫时，如果抓取的网页爬虫数据里面，有不能够utf-8编码的（例如html里面的简体中文）， ...
好文推荐
python GIL全局解释器锁的理解爬虫实战项目合集 python的字符编码问题计算机的ip地址与MAC地址...
解决使用request库爬取内容出现乱码的问题
刚开始爬虫经常会被编码问题坑，今天看了python的requests库的官方文档和几种常见编码的关系,在这里做个简...
3分钟带你了解世界第一语言Python 入门上手也这么简单！
一、Python入门 1. Python爬虫入门一之综述 Python爬虫入门二之爬虫基础了解 Python爬虫入...
Python爬虫杂记 - 疑难小点
疑难杂项这篇的文章没有归类，也不太好归类。在爬虫中经常用到的问题点。比如说编码问题，编码问题在Python...
urlencode库编码
在学习Python爬虫的时候，有疑惑urllib中的urlencode()编码吧，其实就是模拟浏览器发送数据，因...
Python 原生爬虫小项目 -- 爬取熊猫TV 英雄联盟游
编写这个原生爬虫项目的3个主要目的: 1.巩固 python 基础知识2.了解合理的编码规范和方式3.了解爬虫基本...
Python网络爬虫（八） - 利用有道词典实现一个简单翻译程序
目录： Python网络爬虫（一）- 入门基础Python网络爬虫（二）- urllib爬虫案例Python网络爬...

网友评论

Python

本文标题：Python爬虫编码

本文链接：https://www.haomeiwen.com/subject/fdzcrktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

Python

关于我们|服务条款|联系我们|Python爬虫编码|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！