美文网首页
python 可变类型踩雷记(1)

python 可变类型踩雷记(1)

作者: ChZ_CC | 来源:发表于2017-06-05 21:27 被阅读52次

可变类型是个神奇的存在。神奇的东西都比较容易让人懵逼。
本篇主要内容:本人干的一件蠢事和可变类型的复制问题。

前阵子遇到个有点儿麻烦的额外任务,要从一万多条网址的返回信息中提取某个字段。费了半天劲儿搞通了网络连接之后,发现速度极慢,一条就要两三秒。完整走下来得十多个小时,根本行不通。于是我就想弄个多线程同时爬。

以我的笨蛋程度,能想到就是把所有的网址分成几十份儿,然后用多线程同时处理。然后,就出问题了。二十个线程跑了起来,但处理的是同一条数据,依旧龟速!百思不得其解的我,折腾了一个下午之后,检查了一下被分成二十份儿的网址列表,结果,每 一 个 都 是 一 万 多 条 ! ! !

呼~ 等我平息一下想抽自己的冲动。呼~~好了,下面正式给大家介绍一下我干的傻缺事儿。

*号惨案的始末

所有的网址放在一个dict(字典)中,key是递增的整型,value是网址字串。(事后想想,要是直接放在list里屁事儿都没有了。之所以用dict是惯性使然啊。)通过循环把整个字典分成多个字典的过程中,出现了下面的灵异事件。

>>> li
[{}, {}, {}, {}, {}]
>>> li[2]
{}
>>> li[2].update({2:'hehe'})
>>> li
[{2: 'hehe'}, {2: 'hehe'}, {2: 'hehe'}, {2: 'hehe'}, {2: 'hehe'}]

明明只是给第三个dict增加元素,为什么其他几个也都被改变了?想不通的二傻子第一次带着工作上的问题回家了。在家里的电脑上照原样试了一遍,结果是正常的!像这样:

>>> li2
[{}, {}, {}, {}, {}]
>>> li2[3].update({3:'hehehe'})
>>> li2
[{}, {}, {}, {3: 'hehehe'}, {}]

懵逼状态又持续了一个早上。

对一个dict操作,同时改变了其他几个,那说明它们指向的肯定同一个地址。我突然想起前面刚看过的一遍介绍python对象的博文,用id()可以查看对象的身份,也就是它的存储地址。于是我进行了如下操作。

>>> for i in li:
...     print(id(i))
... 
4321485256
4321485256
4321485256
4321485256
4321485256

哑_巴里!一毛一样啊,我*[允悲]。几乎与此同时,我反应过来问题出在创建list的地方。本傻子是这样做的:

>>> li = [{}]*5
>>> li
[{}, {}, {}, {}, {}]
#python的乘`*`很神奇,字符也可以用。
>>> 'a~~'+'pei!'*3
'a~~pei!pei!pei!'
#它是单纯的克隆n倍,所以对可变dict做*就出问题了。

而在家实验的时候,是这样创建:

>>> li2 = []
>>> for i in range(5):
...     li2.append({})
>>> for i in li2:
...     print(id(i))
... 
4321485192
4324359240
4324359816
4324214216
4324360008

[生无可恋.jpg]*666

前一个用乘的方式,是将同一个dict重复5遍,所有这5个其实是同一个。反应过来之后,很快改掉初始的赋值方式,中午吃饭的时间就爬到了所有数据。但是这个不为外人知晓的蠢事萦绕脑中久久无法释怀,必须得说出来,请大家尽情的嘲笑我一秒钟...

唉,这种二笔错误估计就我会犯。借鉴性不大,稍微再说一下可变类型的复制吧。

等号=拷贝

python可变类型数据的复制向来是个麻烦事。简单的用等号“=”赋值给新变量的话,新变量以及它的各个元素和原来的变量是完全一致的。不,它们根本就是同一个东西。

>>> li3 = li2
>>> for i in range(5):
...     print(id(li2[i]),id(li3[i]))
... 
4321485192 4321485192
4324359240 4324359240
4324359816 4324359816
4324214216 4324214216
4324360008 4324360008
>>> print(id(li2),id(li3))
4324199240 4324199240
>>> li2
[{}, {}, {}, {3: 'hehehe'}, {}]
>>> li3
[{}, {}, {}, {3: 'hehehe'}, {}]
>>> li3.append('hhhh')
>>> li3
[{}, {}, {}, {3: 'hehehe'}, {}, 'hhhh']
>>> li2
[{}, {}, {}, {3: 'hehehe'}, {}, 'hhhh']

看到没,两个list的地址相同,每个元素的地址也都相同。这种情况下对li3或它的元素做增减替换等操作,结果li和li3都会变。

copy.copy() & copy.deepcopy()

想要复制出一个不同的变量,就要用copy模块。copy又有浅拷贝和深拷贝之分,主要是对于可变类型的影响比较大。

>>> import copy
>>> li4 = copy.copy(li2)
>>> print(id(li2),id(li4))
4324199240 4324371016
>>> for i in range(5):
...     print(id(li2[i]),id(li4[i]))
... 
4321485192 4321485192
4324359240 4324359240
4324359816 4324359816
4324214216 4324214216
4324360008 4324360008

上面这个就是浅拷贝,两个list的地址不同,但是它们中的元素地址相同。所以对元素进行操作还是会影响两个。但是如果是对list操作,比如append(),extend()等,就不会改变原来。效果如下。

>>> li2
[{}, {}, {}, {3: 'hehehe'}, {}, 'hhhh']
>>> li4
[{}, {}, {}, {3: 'hehehe'}, {}, 'hhhh']
>>> li4[0].update({0:'zero'})
>>> li4
[{0: 'zero'}, {}, {}, {3: 'hehehe'}, 'hhhh']
>>> li2
[{0: 'zero'}, {}, {}, {3: 'hehehe'}, 'hhhh']
>>> li4.append(444)
>>> li4
[{0: 'zero'}, {}, {}, {3: 'hehehe'}, 'hhhh', 444]
>>> li2
[{0: 'zero'}, {}, {}, {3: 'hehehe'}, 'hhhh']

但是如果是深拷贝的话,新创建的list和它的元素就都相互不影响了。如下:

>>> li5 = copy.deepcopy(li2)
>>> li5
[{0: 'zero'}, {}, {}, {3: 'hehehe'}, {}]
>>> li5.pop(-1)
'hhhh'
>>> li5[2]='aho'
>>> li5
[{0: 'zero'}, {}, 'aho', {3: 'hehehe'}, {}]
>>> li2
[{0: 'zero'}, {}, {}, {3: 'hehehe'}, {}, 'hhhh']

如果用id()查看的话,它们的地址也都不一样。就不再重复做了。

总之呢,用list和dict的时候,再小心都不为过。


原文地址:卖蠢日志 | 一个*号引发的惨案,来自我家微信公号,欢迎关注。

相关文章

  • python 可变类型踩雷记(1)

    可变类型是个神奇的存在。神奇的东西都比较容易让人懵逼。本篇主要内容:本人干的一件蠢事和可变类型的复制问题。 前阵子...

  • python可变类型踩雷记(2)

    列表和字典的增删操作是没有返回值的,None!!!。这是个很显而易见的常识。对list进行append、inser...

  • Python可变类型与不可变类型

    Python可变类型与不可变类型 1、可变类型:List(列表),Dic(字典),Set(集合) 2、不可变类型:...

  • python混点总结

    1 list是可变类型2 dict的key是不可变类型,而value是可变类型3 python class级别的变...

  • python中哪些类型不能作为字典的key

    python中的类型分可以分为两类,可变类型和不可变类型 可变类型:dict、list、set 不可变类型:int...

  • python笔记

    不可变类型:1.字符串str'python'2.元组tupletup=1,2,3 可变类型:1.列表list['p...

  • Python面试基础整理

    Python可变类型与不可变类型不可变类型:数字、字符串、元组可变类型:列表、字典 浅拷贝和深拷贝浅拷贝:新旧对象...

  • Python中的可变类型,不可变类型,以及变量引用

    Python中的可变类型,不可变类型,以及变量引用 可变与不可变 不可变类型:即一旦定义不支持修改的类型,在Py中...

  • python可变类型与不可变类型

    python可变类型与不可变类型 [TOC] 不可变类型 因为int类型是不可变类型,所有其实是j复制了一份到新的...

  • python面试题(二)

    1、列出python中可变数据类型和不可变数据类型,并简述 不可变数据类型:数值型、字符串型string和元组tu...

网友评论

      本文标题:python 可变类型踩雷记(1)

      本文链接:https://www.haomeiwen.com/subject/dpewfxtx.html