pandas重新索引

作者: 云间书吏 | 来源:发表于2017-06-01 11:27 被阅读1432次

pandas之重新索引

pandas有一个很重要的方法是reindex,它的作用是创建一个适应新索引的新对象。

对于Series

直接上代码:

import numpy as np

from pandas import Series,DataFrame

ser = Series([-2.4, -1.4, 1.8, 2.8],['z','c','x','d'])

ser
Out[6]: 
z   -2.4
c   -1.4
x    1.8
d    2.8
dtype: float64

ser.reindex(['a','z','x','b','c','d'])
Out[8]: 
a    NaN
z   -2.4
x    1.8
b    NaN
c   -1.4
d    2.8
dtype: float64

可以观察到,reindex根据索引进行了重排,并且,如果所以不存在的话就会引入缺失值NaN。

我们可以指定索引所指向的值,使用fill_value参数:

ser.reindex(['a','z','x','b','c','d'],fill_value = 0)
Out[10]: 
a    0.0
z   -2.4
x    1.8
b    0.0
c   -1.4
d    2.8
dtype: float64

而对于一些有序数据,我们有事可能需要进行插值,进而补充确实数据,这样的话,我们可以使用method参数:

ser1 = Series(['Y','P','Z','X'],index = [0, 2, 5, 7])

ser1
Out[12]: 
0    Y
2    P
5    Z
7    X
dtype: object

ser1.reindex(range(8),method='ffill')#前向填充
Out[13]: 
0    Y
1    Y
2    P
3    P
4    P
5    Z
6    Z
7    X
dtype: object

ser1.reindex(range(8),method='bfill')#后向填充
Out[14]: 
0    Y
1    P
2    P
3    Z
4    Z
5    Z
6    X
7    X
dtype: object

可以注意到:

**ffill就是把前面的值向后填充,另外参数pad的作用与其一致。

bfill的作用是把后面的值向前填充,参数backfill的作用与其一致。**

对于DataFrame

reindex可以修改行和列的索引。如果只传入一个序列,就会重新索引行

不知道,你有没有注意到,在pandas中如果只传入一个序列,或者索引,一般默认是修改行,或者索引行。

frame = DataFrame(np.arange(9).reshape(3,3),index = ['x','y','z'],columns=['BJ','TJ','HEB'])

frame
Out[18]: 
   BJ  TJ  HEB
x   0   1    2
y   3   4    5
z   6   7    8

frame1 = frame.reindex(['x','z','s','y'])#重新索引行

frame1
Out[20]: 
    BJ   TJ  HEB
x  0.0  1.0  2.0
z  6.0  7.0  8.0
s  NaN  NaN  NaN
y  3.0  4.0  5.0

frame.reindex(columns=['TJ','SJZ','BJ','HEB'])#重新索引列
Out[21]: 
   TJ  SJZ  BJ  HEB
x   1  NaN   0    2
y   4  NaN   3    5
z   7  NaN   6    8

frame.reindex(index=['a','b','c','d'],method = 'ffill',columns=['BJ','SD','HEB','TJ'])#重新索引列和行,并插值
Out[34]: 
   BJ  SD  HEB  TJ
a   0 NaN    2   1
b   0 NaN    2   1
c   3 NaN    5   4
d   6 NaN    8   7

可以注意到,进行行列一起索引的时候,行也必须指定参数index,而插值的结果,只会沿着行应用。

但是没有想明白,为什么会出现以下的状况:


frame.reindex(index = ['x','z','s','y'],method = 'ffill',columns=['TJ','SJZ','BJ','HEB'])
Out[23]: 
    TJ  SJZ   BJ  HEB
x  1.0  NaN  0.0  2.0
z  7.0  NaN  6.0  8.0
s  NaN  NaN  NaN  NaN
y  4.0  NaN  3.0  5.0

frame.reindex(index = ['x','z','s','y'],method = 'ffill',columns=['TJ','SJZ','BJ'])
Out[24]: 
    TJ  SJZ   BJ
x  1.0  NaN  0.0
z  7.0  NaN  6.0
s  NaN  NaN  NaN
y  4.0  NaN  3.0

frame.reindex(index = ['x','z','s','y'],method = 'ffill')
Out[26]: 
    BJ   TJ  HEB
x  0.0  1.0  2.0
z  6.0  7.0  8.0
s  NaN  NaN  NaN
y  3.0  4.0  5.0

frame.reindex(index = ['x','z','s','y'],method = 'bfill')
Out[28]: 
   BJ  TJ  HEB
x   0   1    2
z   6   7    8
s   0   1    2
y   3   4    5

求解。

标签ix可以使重新索引变得很简便,不需要指定index和columns参数。

frame.ix[['a','b','c','d'],['BJ','TJ','SD','HEB']]
Out[37]: 
    BJ   TJ  SD  HEB
a  0.0  1.0 NaN  2.0
b  NaN  NaN NaN  NaN
c  3.0  4.0 NaN  5.0
d  6.0  7.0 NaN  8.0

但是经过试验,好像reindex不指定也可以,


frame.reindex(['a','b','c','d'],['BJ','TJ','SD','HEB'])
Out[35]: 
    BJ   TJ  SD  HEB
a  0.0  1.0 NaN  2.0
b  NaN  NaN NaN  NaN
c  3.0  4.0 NaN  5.0
d  6.0  7.0 NaN  8.0

但是,如果要进行插值,就必须指定参数。

相关文章

  • pandas重新索引

    pandas之重新索引 pandas有一个很重要的方法是reindex,它的作用是创建一个适应新索引的新对象。 对...

  • Pandas常用功能

    Pandas重新索引 reindex 算数运算和数据对齐 pandas的一个重要功能,就是可以对不同索引的对象进行...

  • Pandas 重新排列行索引

    pandas dataframe 去重或者去除某些行数据后导致行索引 index 不连续,重新排列行索引 index:

  • pandas学习-3

    Pandas数据结构Series:基本技巧 数据查看 / 重新索引 / 对齐 / 添加、修改、删除值

  • 利用Python进行数据分析(六)之pandas基本功能

    pandas的基本功能 重新索引 不存在的索引都用同一个值填充: 对于有序索引,range(6)或者['a','b...

  • pandas笔记(Essential Functionality

    Reindexing 处理pandas对象的一个重要的方法是reindex,就是把索引重新命名。比如: 在重新命名...

  • Pandas的基本功能(一)

    重新索引 Pandas对象含有一个重要的函数——reindex()函数,其作用是创建一个适应新索引的新对象。rei...

  • 笔记|数据分析之pandas基础----Series与DataF

    重新索引 pandas对象的一个重要方法,其作用是创建一个适应新索引的新对象。 reindex在Series上的应...

  • Pandas数据操作

    Pandas数据操作 Series索引 行索引 切片索引 不连续索引 布尔索引 DataFrame索引 列索引 不...

  • pandas学习-2

    Pandas数据结构Series:索引 位置下标 / 标签索引 / 切片索引 / 布尔型索引

网友评论

    本文标题:pandas重新索引

    本文链接:https://www.haomeiwen.com/subject/gagsfxtx.html