美文网首页
Pandas3——统计,运算,文件读取

Pandas3——统计,运算,文件读取

作者: 蜘蛛鱼 | 来源:发表于2020-03-10 13:03 被阅读0次

1. 基本统计分析函数

  • data.describe()
    综合分析,计算平均值,标准差,最大值,最小值,各种分位数
单个统计函数
  • sum()
  • mean()
  • mad() : mean absolute deviation
  • median()
  • min()
  • max()
  • mode()
  • abs()
  • prod()
  • std()
  • var() : unbiased variance
  • idxmax() : compute the index labels with the maximum
  • idxmim() : compute the index labels of the minimum
    (注意:在numpy当中是argmax和argmin)
累计统计分析函数
  • cumsum() :计算前n个的和
  • cummax():计算前n个的最大值
  • cummin() :计算前n哥的最小值
  • cumprod() :计算前n个的积

2. 画图

  • data.plot()
    详见官方API reference

3. 逻辑与算术运算

  • 使用<, >等进行筛选
    data[data['p_change']>2]
  • 使用|, &完成复合的逻辑
    data[(data['p_change'] > 2) & (data['open'] > 15)]
  • 使用data.query()完成复合逻辑运算
    data.query("p_cha
    nge > 2 & open > 15")
  • isin()
    判断值是否存在,决定是否保留
  • 算术运算:.sub/.add
#加上具体的一个数字
data['open'].add(1)
#筛选两列的差值
close = data['close']
open1=data['open']
data['a_new_column']=close.sub(open1)
  • .apply() : 自定义运算函数
data([['open', 'close']].apply(lambda x:x.max() - x.min(), axis = 0)

4. 文件读取

  • pandas.read_csv(filepath, sep =',' , delimiter = None, index_col)
    usecols: 指定读取的列名
  • DataFrame.to_csv(path, sep = ',', header = True, index_label = None, mode = 'w', encoding = None)
    header:是否写进列索引值 True/False
    index:是否写进行索引 True/False
    mode:‘w' 重写 ’a' 追加
  • pandas.read_hdf(path, key = None, **kwargs)
    从h5文件当中读取数据
    key:读取的建
    mode:打开文件的模式
    return:Theselected object
  • a.to_hdf("./test.h5", key='x')
    h5文件是一种设计用于存储和组织大量数据的文件格式,比csv快,占的内存小。而且是跨平台的,可以轻松迁移到hadoop上面。一个h5文件可以放入多个key,来实现三维结构。将不同指标存储在不同文件当中

相关文章

网友评论

      本文标题:Pandas3——统计,运算,文件读取

      本文链接:https://www.haomeiwen.com/subject/smqbdhtx.html