from pandas import Series,DataFrame
import pandas as pd
import numpy as np
# 数据加载,存储于文件格式
# 都好分割的文本集
# a,b,c,d,message
# 1,2,3,4,hello
# 5,6,7,8,world
df = pd.read_csv('ch06/ex1.csv')
df = pd.read_table('cho5/ex1.csv',split=',')
# a b c d message
# 0 1 2 3 4 hello
# 1 5 6 7 8 world
# 不指定列名
df = pd.read_csv('ch05/ex1.csv',header=None)
# 自定义列名
df = pd.read_csv('ch06/ex1.csv',names=['a','b','c','d','message'])
# 指定列名和行名
df = pd.read_csv('ch06/ex1.csv',names=['a','b','c''d','message'],index_col='message')
#接受一组用于表示确实缺失值的字符串
result = pd.read_csv('ch06/ex1.csv',na_values=['NULL'])
# 可以用一个字典为各列指定不同的NA标记
sentinels = {'message':['foo','NA'],'something':['two']}
pd.read_csv('ch06/ex5.csv',na_values=sentinels)
# 逐块读取文本文件
# 读取5行文本
result = pd.read_csv('ch06/ex1.csv',nrows=5)
chunker = pd.read_csv('ch06/ex1.csv',chunksize=1000)
tot = Series([])
for piece in chunker:
tot = tot.add(piece['key'].value_counts(),fill_value=0)
# 将数据写出到文本格式
data = pd.read_csv('ch06/ex1.csv')
data.to_csv('ch06/out.csv')
data.to_csv('chp6/out.csv',sep='|')
#缺失值在输出结果中会被表示为空字符串,表示为其他的值
data.to_csv('ch06/ex1.csv',na_rep='NULL')
# 可以写出一部分列,并按照指定的顺序
data.to_csv('file_path',index=False,columns=['a','b','c','d'])
网友评论