数据加载、存储与文件格式

作者: Geeker工作坊 | 来源:发表于2018-12-01 13:08 被阅读0次

4.1数据加载，存储与文件格式---读写文本格式
数据加载、存储与文件格式
数据加载、存储与文件格式
数据加载\存储与文件格式
数据加载、存储与文件格式
利用Python进行数据分析第二版复现（五）
利用Python进行数据分析（八）
数据加载、存储于文件格式
pandas-数据加载、存储与文件格式
Embulk 安装和配置

from pandas import Series,DataFrame
import pandas as pd
import numpy as np


# 数据加载，存储于文件格式
# 都好分割的文本集
# a,b,c,d,message
# 1,2,3,4,hello
# 5,6,7,8,world

df = pd.read_csv('ch06/ex1.csv')
df = pd.read_table('cho5/ex1.csv',split=',')
#   a b c d message
# 0 1 2 3 4 hello
# 1 5 6 7 8 world

# 不指定列名
df = pd.read_csv('ch05/ex1.csv',header=None)
# 自定义列名
df = pd.read_csv('ch06/ex1.csv',names=['a','b','c','d','message'])
# 指定列名和行名
df = pd.read_csv('ch06/ex1.csv',names=['a','b','c''d','message'],index_col='message')
#接受一组用于表示确实缺失值的字符串
result = pd.read_csv('ch06/ex1.csv',na_values=['NULL'])
# 可以用一个字典为各列指定不同的NA标记
sentinels = {'message':['foo','NA'],'something':['two']}
pd.read_csv('ch06/ex5.csv',na_values=sentinels)
# 逐块读取文本文件
# 读取5行文本
result = pd.read_csv('ch06/ex1.csv',nrows=5)
chunker =  pd.read_csv('ch06/ex1.csv',chunksize=1000)
tot = Series([])
for piece in chunker:
    tot = tot.add(piece['key'].value_counts(),fill_value=0)

# 将数据写出到文本格式
data = pd.read_csv('ch06/ex1.csv')
data.to_csv('ch06/out.csv')
data.to_csv('chp6/out.csv',sep='|')
#缺失值在输出结果中会被表示为空字符串，表示为其他的值
data.to_csv('ch06/ex1.csv',na_rep='NULL')
# 可以写出一部分列，并按照指定的顺序
data.to_csv('file_path',index=False,columns=['a','b','c','d'])