美文网首页
Python编码问题

Python编码问题

作者: 胃痛的香蕉1 | 来源:发表于2018-08-04 20:17 被阅读0次

默认编码

字符串

python2 文本字符串默认编码是ASCII,中文默认UTF-8
python3 文本字符串默认编码是Unicode

解释器

python2 解释器编码默认是ASCII
python3 解释器编码默认是UTF-8

encode\decode

非Unicode 进行 decode 返回Unicode
Unicode 进行 encode 返回非Unicode


写入文件

"w"

python3

  • "w"只能写Unicode

python2

  • "w" 方法可以写入Unicode和非Unicode
  • "w" 方法如果写入Unicode会自动转成解释器的默认编码。

想使用python2写入中文
必须是Unicode的中文
1.修改解释器编码为utf-8,这样就可以处理包含中文的Unicode字符串写入了

# coding:utf-8
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
a = u"世界"
with open('utf8.txt','w') as f:
    f.write(a)

注意:使用这种方法请不要使用pycharm,原生python2.7中会有这个方法,但是pycharm把这个方法屏蔽了

  1. 使用codecs模块写入文件,将Unicode字符串按encoding参数指定的编码写入:
# coding:utf-8
import codecs
unicode_str = u"世界"
with codecs.open("hello.txt", "w", encoding="utf-8") as :
    f.write(unicode_str)

"w" 方法写入非Unicode,英文会直接写入,中文只能在使用上面的方法一才能写入。
例如已经将Unicode.decode("utf-8"),就写入utf-8。


"wb"

python3

  • "wb" 方法只能写入非Unicode

python2

  • "wb"方法只能写入非Unicode字符串("utf-8"、"GBK"等)

读取文件

"r"

  • python3 r 读出来的是Unicode
  • python2 r读出来的是非Unicode

"rb"

  • python3 rb 读出来的非Unicode
  • python2 rb 读出来的是非Unicode

查看系统默认编码

import sys
# 打印出系统默认编码方式
print(sys.getdefaultencoding())

修改默认编码

# 修改系统默认编码
sys.setdefaultencoding('utf8')

类Unicode字符串转换成Unicode字符串

将一个类Unicode字符串(长得像Unicode,但是它是个普通字符串),解码为真正的Unicode

# python2中
s = "\u4f60\u597d\u4e16\u75c"
# 这样操作它就变成真正的Unicode
unicodee_str = s.decode("unicode-escape")
print(unicodee_str) # u"\u4f60\u597d\u4e16\u75c"

注意:不管python2还是python3 遇到类Unicode码(类似于这种"\u4f60\u597d\u4e16\u75c")它其实是长得像Unicode码的Unicode码;
先变成非Unicode,之后再decode("unicode-escape"),可以将类Unicode变成Unicode码。

Json化写入文件

将字典json化保存成系统指定编码
如果python2会将unicode字符串编码成ascii保存成文件,这时候就需要两步

  1. 指定编码写入
  2. json.dumps(字典,ensure_ascii=False)
# coding:utf-8
class TencentPipeline(object):
    def open_spider(self,spider):
    # 按指定编码保存文件
        self.f = codecs.open("tencent.json", "w",encoding='utf-8')

    def process_item(self,item,spider):
        # ensure_ascii=False不以ascii编码保存文件
        json_str = json.dumps(dict(item),ensure_ascii=False) + ',\n'
        self.f.write(json_str)
        return item

    def close_spider(self,spider):
        self.f.close()

相关文章

  • python 编码问题总结记录

    Python2的默认编码ASCII,这是python编码问题的根本原因,可以想象,python3的编码问题肯定没有...

  • Python优秀博客笔记汇总(持续更新)

    还在烦编码问题? Python 编码错误的本质原因 Python 编码为什么那么蛋疼? Python3 是如何解决...

  • learning

    python在终端进行文件的运行在终端输入 python test.py 时间时间的转换 编码python编码问题

  • Python程序的中文在cmd中乱码问题

    刚开始学python遇到的问题,编码的问题。程序编码是UTF-8,cmd默认是GBK编码

  • 学习资料

    简明python教程Python2字符编码问题小结stackoverflow about python

  • 【python报错】UnicodeDecodeError: &#

    一、问题 二、原因 编码问题:整个Python文件的编码以及文件读取的编码 三、解决方案 1、编码设置 第一行没有...

  • python 编码问题

    以前python2.x版本的编码问题较多,所以这里只针对python3.x版本的问题进行讨论。 Unicode 编...

  • python编码问题

    1. python2中关于utf-8编码问题解决方法: 或者开头加# -*- coding: utf-8 -*-但...

  • Python编码问题

    默认编码 字符串 python2 文本字符串默认编码是ASCII,中文默认UTF-8python3 文本字符串默认...

  • python 编码问题

    1、一些概念 比特 / bit:计算机中最小的数据单位,是单个的二进制数值 0 或 1 字节 / byte:计算机...

网友评论

      本文标题:Python编码问题

      本文链接:https://www.haomeiwen.com/subject/wpgpvftx.html