美文网首页
python数据分析3:数据抽取

python数据分析3:数据抽取

作者: 0清婉0 | 来源:发表于2021-01-06 20:33 被阅读0次

1.使用Pandas获取网页中的表格数据并转化为EXCEL电子表格

# 导入NBA球员的薪资数据

import pandas as pd

df = pd.DataFrame()

url_list = ['http://www.espn.com/nba/salaries/_/seasontype/4']

for i in range(2, 4):

    url = 'http://www.espn.com/nba/salaries/_/page/%s/seasontype/4' % i

    url_list.append(url)

for url in url_list:

    df = df.append(pd.read_html(url), ignore_index=True)

df = df[[x.startswith('$') for x in df[3]]]

# print(df)

df.to_excel('NBA.xlsx',header=['RK','NAME','TEAM','SALARY'],index=False)

2.数据抽取

# loc属性:以列名和行名作为参数,当只有一个参数时,默认是行名,即抽取整行数据,包括所有列,如df.loc['a']

# iloc属性:以行和列位置索引(即0,1,2...)作为参数,0表示第一行,1表示第二行,以此类推。当只有一个参数时,默认是行索引,即抽取整行数据,包括所有列,如df.iloc[0]

# 抽取一行考试成绩

import pandas as pd

pd.set_option('display.unicode.east_asian_width',True)

data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115]]

name = ['明日', '七月流火', '高袁圆', '二月二']

columns = ['语文', '数学', '英语']

df = pd.DataFrame(data=data, index=name, columns=columns)

print(df.loc['明日'])

print(df.iloc[0])

语文    110.0

数学    105.0

英语    99.0

Name: 明日, dtype: float64

【抽取多行数据】

import pandas as pd

pd.set_option('display.unicode.east_asian_width',True)

data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115]]

name = ['明日', '七月流火', '高袁圆', '二月二']

columns = ['语文', '数学', '英语']

df = pd.DataFrame(data=data, index=name, columns=columns)

print(df.loc[['明日','高袁圆']])

print(df.iloc[[0,2]])

        语文  数学  英语

明日    110  105  99.0

高袁圆  109  120  130.0

【抽取连续几个学生的考试成绩】

import pandas as pd

pd.set_option('display.unicode.east_asian_width',True)

data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115]]

name = ['明日', '七月流火', '高袁圆', '二月二']

columns = ['语文', '数学', '英语']

df = pd.DataFrame(data=data, index=name, columns=columns)

print(df.loc['明日':'高袁圆'])  # 从明日到高袁圆

print(df.loc[:'七月流火':])  # 从第1行到七月流火

print(df.iloc[0:3])  # 从第1行到第3行

print(df.iloc[1::])  # 从第2行到最后一行

          语文  数学  英语

明日      110  105  99.0

七月流火  105    88  115.0

高袁圆    109  120  130.0

          语文  数学  英语

明日      110  105  99.0

七月流火  105    88  115.0

          语文  数学  英语

明日      110  105  99.0

七月流火  105    88  115.0

高袁圆    109  120  130.0

          语文  数学  英语

七月流火  105    88  115.0

高袁圆    109  120  130.0

二月二    112  115    NaN

【抽取指定列数据】

import pandas as pd

pd.set_option('display.unicode.east_asian_width',True)

data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115]]

name = ['明日', '七月流火', '高袁圆', '二月二']

columns = ['语文', '数学', '英语']

df = pd.DataFrame(data=data, index=name, columns=columns)

print(df[['语文', '数学']])

          语文  数学

明日      110  105

七月流火  105    88

高袁圆    109  120

二月二    112  115

【抽取指定学科的考试成绩】

import pandas as pd

pd.set_option('display.unicode.east_asian_width',True)

data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115]]

name = ['明日', '七月流火', '高袁圆', '二月二']

columns = ['语文', '数学', '英语']

df = pd.DataFrame(data=data, index=name, columns=columns)

print(df.loc[:,['语文','数学']])  # 抽取“语文”和“数学”

print(df.iloc[:,[0,1]])  # 抽取第1列和第2列

          语文  数学

明日      110  105

七月流火  105    88

高袁圆    109  120

二月二    112  115

print(df.loc[:,'数学':])  # 抽取从“数学”开始到最后一列

          数学  英语

明日      105  99.0

七月流火    88  115.0

高袁圆    120  130.0

二月二    115    NaN

print(df.iloc[:,:2])  # 连续抽取从1列开始到第3列,但不包括第3列

          语文  数学

明日      110  105

七月流火  105    88

高袁圆    109  120

二月二    112  115

【按指定条件抽取数据】

# 取其中一个元素 .iat[x,x]

# 基于位置的查询 .iloc[]  iloc[2,1]

# 基于行列名称的查询  .loc[x]

# 抽取指定学科和指定分数,如抽取语言成绩大于105分,数学成绩大于88分的数据

import pandas as pd

pd.set_option('display.unicode.east_asian_width',True)

data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115]]

name = ['明日', '七月流火', '高袁圆', '二月二']

columns = ['语文', '数学', '英语']

df = pd.DataFrame(data=data, index=name, columns=columns)

print(df.loc[(df['语文']>105) & (df['数学']>88)])

        语文  数学  英语

明日    110  105  99.0

高袁圆  109  120  130.0

二月二  112  115    NaN

3.增加数据

【增加一列数据】

import pandas as pd

pd.set_option('display.unicode.east_asian_width',True)

data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115, 140]]

name = ['明日', '七月流火', '高袁圆', '二月二']

columns = ['语文', '数学', '英语']

df = pd.DataFrame(data=data, index=name, columns=columns)

df['物理'] = [88, 79, 60, 50]

print(df)

          语文  数学  英语  物理

明日      110  105    99    88

七月流火  105    88  115    79

高袁圆    109  120  130    60

二月二    112  115  140    50

# 在第一列的后面插入“物理”,其值为w1的数值

import pandas as pd

pd.set_option('display.unicode.east_asian_width',True)

data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115, 140]]

name = ['明日', '七月流火', '高袁圆', '二月二']

columns = ['语文', '数学', '英语']

df = pd.DataFrame(data=data, index=name, columns=columns)

w1 = [88, 79, 60, 50]

df.insert(1, '物理', w1)

print(df)

          语文  物理  数学  英语

明日      110  88  105  99

七月流火  105    79    88  115

高袁圆    109    60  120  130

二月二    112    50  115  140

【按行增加多行数据】

import pandas as pd

pd.set_option('display.unicode.east_asian_width',True)

data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115, 140]]

name = ['明日', '七月流火', '高袁圆', '二月二']

columns = ['语文', '数学', '英语']

df = pd.DataFrame(data=data, index=name, columns=columns)

df_insert = pd.DataFrame({'语文':[100, 123, 138], '数学':[99, 142, 60], '英语':[98, 139, 99]}, index=['钱多多', '童年', '无名'])

df1 = df.append(df_insert)

print(df1)

          语文  数学  英语

明日      110  105    99

七月流火  105    88  115

高袁圆    109  120  130

二月二    112  115  140

钱多多    100    99    98

童年      123  142  139

无名      138    60    99

4.修改数据

【修改列标题】

import pandas as pd

pd.set_option('display.unicode.east_asian_width',True)

data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115, 140]]

name = ['明日', '七月流火', '高袁圆', '二月二']

columns = ['语文', '数学', '英语']

df = pd.DataFrame(data=data, index=name, columns=columns)

df.columns = ['语文', '数学(上)', '英语']

print(df)

          语文  数学(上)  英语

明日      110        105    99

七月流火  105          88  115

高袁圆    109        120  130

二月二    112        115  140

【修改多个学科的列名】

import pandas as pd

pd.set_option('display.unicode.east_asian_width',True)

data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115, 140]]

name = ['明日', '七月流火', '高袁圆', '二月二']

columns = ['语文', '数学', '英语']

df = pd.DataFrame(data=data, index=name, columns=columns)

df.rename(columns = {'语文':'语文(上)', '数学':'数学(上)', '英语':'英语(上)'}, inplace=True)

print(df)

inplace=True,直接修改df,如果不设置,就是只返回原始数据

          语文(上)  数学(上)  英语(上)

明日            110        105          99

七月流火        105          88        115

高袁圆          109        120        130

二月二          112        115        140

【修改行标题】

import pandas as pd

pd.set_option('display.unicode.east_asian_width',True)

data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115, 140]]

name = ['明日', '七月流火', '高袁圆', '二月二']

columns = ['语文', '数学', '英语']

df = pd.DataFrame(data=data, index=name, columns=columns)

df.index = list('1234')

print(df)

  语文  数学  英语

1  110  105    99

2  105    88  115

3  109  120  130

4  112  115  140

相关文章

网友评论

      本文标题:python数据分析3:数据抽取

      本文链接:https://www.haomeiwen.com/subject/ujjooktx.html