1.使用Pandas获取网页中的表格数据并转化为EXCEL电子表格
# 导入NBA球员的薪资数据
import pandas as pd
df = pd.DataFrame()
url_list = ['http://www.espn.com/nba/salaries/_/seasontype/4']
for i in range(2, 4):
url = 'http://www.espn.com/nba/salaries/_/page/%s/seasontype/4' % i
url_list.append(url)
for url in url_list:
df = df.append(pd.read_html(url), ignore_index=True)
df = df[[x.startswith('$') for x in df[3]]]
# print(df)
df.to_excel('NBA.xlsx',header=['RK','NAME','TEAM','SALARY'],index=False)
2.数据抽取
# loc属性:以列名和行名作为参数,当只有一个参数时,默认是行名,即抽取整行数据,包括所有列,如df.loc['a']
# iloc属性:以行和列位置索引(即0,1,2...)作为参数,0表示第一行,1表示第二行,以此类推。当只有一个参数时,默认是行索引,即抽取整行数据,包括所有列,如df.iloc[0]
# 抽取一行考试成绩
import pandas as pd
pd.set_option('display.unicode.east_asian_width',True)
data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115]]
name = ['明日', '七月流火', '高袁圆', '二月二']
columns = ['语文', '数学', '英语']
df = pd.DataFrame(data=data, index=name, columns=columns)
print(df.loc['明日'])
print(df.iloc[0])
语文 110.0
数学 105.0
英语 99.0
Name: 明日, dtype: float64
【抽取多行数据】
import pandas as pd
pd.set_option('display.unicode.east_asian_width',True)
data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115]]
name = ['明日', '七月流火', '高袁圆', '二月二']
columns = ['语文', '数学', '英语']
df = pd.DataFrame(data=data, index=name, columns=columns)
print(df.loc[['明日','高袁圆']])
print(df.iloc[[0,2]])
语文 数学 英语
明日 110 105 99.0
高袁圆 109 120 130.0
【抽取连续几个学生的考试成绩】
import pandas as pd
pd.set_option('display.unicode.east_asian_width',True)
data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115]]
name = ['明日', '七月流火', '高袁圆', '二月二']
columns = ['语文', '数学', '英语']
df = pd.DataFrame(data=data, index=name, columns=columns)
print(df.loc['明日':'高袁圆']) # 从明日到高袁圆
print(df.loc[:'七月流火':]) # 从第1行到七月流火
print(df.iloc[0:3]) # 从第1行到第3行
print(df.iloc[1::]) # 从第2行到最后一行
语文 数学 英语
明日 110 105 99.0
七月流火 105 88 115.0
高袁圆 109 120 130.0
语文 数学 英语
明日 110 105 99.0
七月流火 105 88 115.0
语文 数学 英语
明日 110 105 99.0
七月流火 105 88 115.0
高袁圆 109 120 130.0
语文 数学 英语
七月流火 105 88 115.0
高袁圆 109 120 130.0
二月二 112 115 NaN
【抽取指定列数据】
import pandas as pd
pd.set_option('display.unicode.east_asian_width',True)
data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115]]
name = ['明日', '七月流火', '高袁圆', '二月二']
columns = ['语文', '数学', '英语']
df = pd.DataFrame(data=data, index=name, columns=columns)
print(df[['语文', '数学']])
语文 数学
明日 110 105
七月流火 105 88
高袁圆 109 120
二月二 112 115
【抽取指定学科的考试成绩】
import pandas as pd
pd.set_option('display.unicode.east_asian_width',True)
data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115]]
name = ['明日', '七月流火', '高袁圆', '二月二']
columns = ['语文', '数学', '英语']
df = pd.DataFrame(data=data, index=name, columns=columns)
print(df.loc[:,['语文','数学']]) # 抽取“语文”和“数学”
print(df.iloc[:,[0,1]]) # 抽取第1列和第2列
语文 数学
明日 110 105
七月流火 105 88
高袁圆 109 120
二月二 112 115
print(df.loc[:,'数学':]) # 抽取从“数学”开始到最后一列
数学 英语
明日 105 99.0
七月流火 88 115.0
高袁圆 120 130.0
二月二 115 NaN
print(df.iloc[:,:2]) # 连续抽取从1列开始到第3列,但不包括第3列
语文 数学
明日 110 105
七月流火 105 88
高袁圆 109 120
二月二 112 115
【按指定条件抽取数据】
# 取其中一个元素 .iat[x,x]
# 基于位置的查询 .iloc[] iloc[2,1]
# 基于行列名称的查询 .loc[x]
# 抽取指定学科和指定分数,如抽取语言成绩大于105分,数学成绩大于88分的数据
import pandas as pd
pd.set_option('display.unicode.east_asian_width',True)
data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115]]
name = ['明日', '七月流火', '高袁圆', '二月二']
columns = ['语文', '数学', '英语']
df = pd.DataFrame(data=data, index=name, columns=columns)
print(df.loc[(df['语文']>105) & (df['数学']>88)])
语文 数学 英语
明日 110 105 99.0
高袁圆 109 120 130.0
二月二 112 115 NaN
3.增加数据
【增加一列数据】
import pandas as pd
pd.set_option('display.unicode.east_asian_width',True)
data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115, 140]]
name = ['明日', '七月流火', '高袁圆', '二月二']
columns = ['语文', '数学', '英语']
df = pd.DataFrame(data=data, index=name, columns=columns)
df['物理'] = [88, 79, 60, 50]
print(df)
语文 数学 英语 物理
明日 110 105 99 88
七月流火 105 88 115 79
高袁圆 109 120 130 60
二月二 112 115 140 50
# 在第一列的后面插入“物理”,其值为w1的数值
import pandas as pd
pd.set_option('display.unicode.east_asian_width',True)
data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115, 140]]
name = ['明日', '七月流火', '高袁圆', '二月二']
columns = ['语文', '数学', '英语']
df = pd.DataFrame(data=data, index=name, columns=columns)
w1 = [88, 79, 60, 50]
df.insert(1, '物理', w1)
print(df)
语文 物理 数学 英语
明日 110 88 105 99
七月流火 105 79 88 115
高袁圆 109 60 120 130
二月二 112 50 115 140
【按行增加多行数据】
import pandas as pd
pd.set_option('display.unicode.east_asian_width',True)
data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115, 140]]
name = ['明日', '七月流火', '高袁圆', '二月二']
columns = ['语文', '数学', '英语']
df = pd.DataFrame(data=data, index=name, columns=columns)
df_insert = pd.DataFrame({'语文':[100, 123, 138], '数学':[99, 142, 60], '英语':[98, 139, 99]}, index=['钱多多', '童年', '无名'])
df1 = df.append(df_insert)
print(df1)
语文 数学 英语
明日 110 105 99
七月流火 105 88 115
高袁圆 109 120 130
二月二 112 115 140
钱多多 100 99 98
童年 123 142 139
无名 138 60 99
4.修改数据
【修改列标题】
import pandas as pd
pd.set_option('display.unicode.east_asian_width',True)
data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115, 140]]
name = ['明日', '七月流火', '高袁圆', '二月二']
columns = ['语文', '数学', '英语']
df = pd.DataFrame(data=data, index=name, columns=columns)
df.columns = ['语文', '数学(上)', '英语']
print(df)
语文 数学(上) 英语
明日 110 105 99
七月流火 105 88 115
高袁圆 109 120 130
二月二 112 115 140
【修改多个学科的列名】
import pandas as pd
pd.set_option('display.unicode.east_asian_width',True)
data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115, 140]]
name = ['明日', '七月流火', '高袁圆', '二月二']
columns = ['语文', '数学', '英语']
df = pd.DataFrame(data=data, index=name, columns=columns)
df.rename(columns = {'语文':'语文(上)', '数学':'数学(上)', '英语':'英语(上)'}, inplace=True)
print(df)
inplace=True,直接修改df,如果不设置,就是只返回原始数据
语文(上) 数学(上) 英语(上)
明日 110 105 99
七月流火 105 88 115
高袁圆 109 120 130
二月二 112 115 140
【修改行标题】
import pandas as pd
pd.set_option('display.unicode.east_asian_width',True)
data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115, 140]]
name = ['明日', '七月流火', '高袁圆', '二月二']
columns = ['语文', '数学', '英语']
df = pd.DataFrame(data=data, index=name, columns=columns)
df.index = list('1234')
print(df)
语文 数学 英语
1 110 105 99
2 105 88 115
3 109 120 130
4 112 115 140













网友评论