5. Python3源码—字符串（str）对象

5. Python3源码—字符串（str）对象

作者: 阿里云云栖号 | 来源:发表于2018-06-11 15:18 被阅读118次

5. Python3源码—字符串（str）对象
聊聊Python 3 的字符串：str 和 bytes 的区别
encode，decode
Python 3 字符串中的 STR 和 Bytes 究竟有什么
字符串判空
python2/3的差异
python3中各种编码问题
python3就没有编码问题了吗？
js对象与字符串相互转换
2019-10-26

5.1. 字符串对象

字符串对象是“变长对象”。

5.1.1. Python中的创建

Python中字符串（strs）对象最重要的创建方法为PyUnicode_DecodeUTF8Stateful，如下Python语句最终会调用到PyUnicode_DecodeUTF8Stateful：

5.1.2. PyUnicode_DecodeUTF8Stateful的C调用栈

词法解析，最终调到PyUnicode_DecodeUTF8Stateful，调用顺序如下：

5.1.3. PyUnicode_DecodeUTF8Stateful源码

可以看到：

1、空串缓存：空串（unicode_empty）为同一个地址，第二次需要空串时，只是将计数加1，在_PyUnicodeWriter_Finish中实现空串缓存。

2、字符缓冲池：字符（unicode_latin1）为同一个地址，第二次需要该字符时，只是将计数加1，在get_latin1_char中实现字符缓存。

5.2. 常量字符串池

由上例可以看出Python对常量字符串做了缓存。缓存的关键性实现在PyUnicode_InternInPlace方法中。

5.2.1. PyUnicode_InternInPlace的C调用堆栈

5.2.2. PyUnicode_InternInPlace源码

其中最关键的方法为PyDict_SetDefault，该方法存在于字典对象dictobject.c中。如果没有相同的key（此处为s），则返回defaultobject（此处也为s），否则如果有相同的key则返回对应的value。所以如果t与s不同，则说明字典中有相应的key，此时将t的计数加1，并且将之前常量字符串的对象指向t。

如此一来，常量字符串的对象地址就一致了，此时s的计数会被消除，如果s的计数为0，则会被释放。值得注意的是，常量字符串的对象每次仍旧会被多分配一次内存，只是如果之前有分配过，且如果此次分配的对象计数为0，则会被释放。

有些情况下（字符串包含非0-9a-zA-Z）不会放到字典里，这时候可以通过sys.intern进行性能优化：

具体可以参考：memory - What does python sys.intern do, and when should it be used? - Stack Overflow

5.3. 字符串对象的特性

支持tp_as_number、tp_as_sequence、tp_as_mapping这三种操作。

5.3.1. 数值操作

5.3.2. 序列操作

因为没有实现PySequenceMethods中的设置方法，所以字符串不可变。

其中：

1、unicode_length

2、PyUnicode_Concat

多个字符串相加效率低于join，join只分配一次内存；

1、unicode_repeat

效率要高于同个字符串相加；

1、unicode_getitem：暂时没有找到相应Python语句；

2、PyUnicode_Contains

5.3.3. 关联操作

其中：

1、unicode_subscript

test[1]会走unicode_subscript方法的index分支，test[0:5]会走slice分支；

5.3.4. to string

5.3.5. hash

5.3.6. 比较

5.3.7. 内置方法

5.4 参考

Python源码剖析

本文作者：whj0709

本文为云栖社区原创内容，未经允许不得转载。

相关文章

5. Python3源码—字符串（str）对象
5.1. 字符串对象字符串对象是“变长对象”。 5.1.1. Python中的创建 Python中字符串（str...
聊聊Python 3 的字符串：str 和 bytes 的区别
Python2的字符串有两种：str 和 unicode，Python3的字符串也有两种：str 和 bytes。...
encode，decode
在Python3中，str类型的对象都是Unicode，因此对于str类型的对象只有encode（）方法，没有de...
Python 3 字符串中的 STR 和 Bytes 究竟有什么
Python2的字符串有两种：str和Unicode，Python3的字符串也有两种：str和Bytes。Pyth...
字符串判空
字符串最好的判空： if(null == str || str.length() <=0) { } 源码直接取长度...
python2/3的差异
python3的改进 print 成为函数 python3 不再有Unicode对象，默认str就是Unicode...
python3中各种编码问题
python3 字符串str编码是unicode所以下面两个字符串是等价的 python3中unicode是没有d...
python3就没有编码问题了吗？
python2中默认使用ascii，python3中默认使用utf-8，python3字符串的类型是str，且都是...
js对象与字符串相互转换
1 对象转为字符串JSON.stringify(obj) 2\json字符串转为对象 JSON.parse(str)
2019-10-26
编码 python3源码文件默认以UTF-8编码，所有字符串都是unicode字符串。也可以为源码文件指定不同的编...

网友评论

本文标题：5. Python3源码—字符串（str）对象

本文链接：https://www.haomeiwen.com/subject/vxcheftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

大数据爬虫Python AI Sql

我是程序员

热点阅读

大数据爬虫Python AI Sql

我是程序员

我爱编程

关于我们|服务条款|联系我们|5. Python3源码—字符串（str）对象|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！