python数据分析3：数据抽取

作者: 0清婉0 | 来源:发表于2021-01-06 20:33 被阅读0次

电力窃电用户自动识别
python数据分析3：数据抽取
python电子书汇总
爬虫脚本--pdf处理思路
某网价值1800元的Python课程分享
Python 抽取PDF、DOCX文档内容
Python数据分析基础--Pandas数据抽取（二）
销售数据分析 (python)
对比Excel轻松学习python数据分析PDF免费下载|3年没
(九)数据的学习|python数据分析与展示(学习笔记)

1.使用Pandas获取网页中的表格数据并转化为EXCEL电子表格

# 导入NBA球员的薪资数据

import pandas as pd

df = pd.DataFrame()

url_list = ['http://www.espn.com/nba/salaries/_/seasontype/4']

for i in range(2, 4):

url = 'http://www.espn.com/nba/salaries/_/page/%s/seasontype/4' % i

url_list.append(url)

for url in url_list:

df = df.append(pd.read_html(url), ignore_index=True)

df = df[[x.startswith('$') for x in df[3]]]

# print(df)

df.to_excel('NBA.xlsx',header=['RK','NAME','TEAM','SALARY'],index=False)

2.数据抽取

# loc属性：以列名和行名作为参数，当只有一个参数时，默认是行名，即抽取整行数据，包括所有列，如df.loc['a']

# iloc属性：以行和列位置索引（即0，1，2...）作为参数，0表示第一行，1表示第二行，以此类推。当只有一个参数时，默认是行索引，即抽取整行数据，包括所有列，如df.iloc[0]

# 抽取一行考试成绩

import pandas as pd

pd.set_option('display.unicode.east_asian_width',True)

data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115]]

name = ['明日', '七月流火', '高袁圆', '二月二']

columns = ['语文', '数学', '英语']

df = pd.DataFrame(data=data, index=name, columns=columns)

print(df.loc['明日'])

print(df.iloc[0])

语文 110.0

数学 105.0

英语 99.0

Name: 明日, dtype: float64

【抽取多行数据】

import pandas as pd

pd.set_option('display.unicode.east_asian_width',True)

data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115]]

name = ['明日', '七月流火', '高袁圆', '二月二']

columns = ['语文', '数学', '英语']

df = pd.DataFrame(data=data, index=name, columns=columns)

print(df.loc[['明日','高袁圆']])

print(df.iloc[[0,2]])

语文数学英语

明日 110 105 99.0

高袁圆 109 120 130.0

【抽取连续几个学生的考试成绩】

import pandas as pd

pd.set_option('display.unicode.east_asian_width',True)

data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115]]

name = ['明日', '七月流火', '高袁圆', '二月二']

columns = ['语文', '数学', '英语']

df = pd.DataFrame(data=data, index=name, columns=columns)

print(df.loc['明日':'高袁圆']) # 从明日到高袁圆

print(df.loc[:'七月流火':]) # 从第1行到七月流火

print(df.iloc[0:3]) # 从第1行到第3行

print(df.iloc[1::]) # 从第2行到最后一行

语文数学英语

明日 110 105 99.0

七月流火 105 88 115.0

高袁圆 109 120 130.0

语文数学英语

明日 110 105 99.0

七月流火 105 88 115.0

语文数学英语

明日 110 105 99.0

七月流火 105 88 115.0

高袁圆 109 120 130.0

语文数学英语

七月流火 105 88 115.0

高袁圆 109 120 130.0

二月二 112 115 NaN

【抽取指定列数据】

import pandas as pd

pd.set_option('display.unicode.east_asian_width',True)

data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115]]

name = ['明日', '七月流火', '高袁圆', '二月二']

columns = ['语文', '数学', '英语']

df = pd.DataFrame(data=data, index=name, columns=columns)

print(df[['语文', '数学']])

语文数学

明日 110 105

七月流火 105 88

高袁圆 109 120

二月二 112 115

【抽取指定学科的考试成绩】

import pandas as pd

pd.set_option('display.unicode.east_asian_width',True)

data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115]]

name = ['明日', '七月流火', '高袁圆', '二月二']

columns = ['语文', '数学', '英语']

df = pd.DataFrame(data=data, index=name, columns=columns)

print(df.loc[:,['语文','数学']]) # 抽取“语文”和“数学”

print(df.iloc[:,[0,1]]) # 抽取第1列和第2列

语文数学

明日 110 105

七月流火 105 88

高袁圆 109 120

二月二 112 115

print(df.loc[:,'数学':]) # 抽取从“数学”开始到最后一列

数学英语

明日 105 99.0

七月流火 88 115.0

高袁圆 120 130.0

二月二 115 NaN

print(df.iloc[:,:2]) # 连续抽取从1列开始到第3列，但不包括第3列

语文数学

明日 110 105

七月流火 105 88

高袁圆 109 120

二月二 112 115

【按指定条件抽取数据】

# 取其中一个元素 .iat[x,x]

# 基于位置的查询 .iloc[] iloc[2,1]

# 基于行列名称的查询 .loc[x]

# 抽取指定学科和指定分数，如抽取语言成绩大于105分，数学成绩大于88分的数据

import pandas as pd

pd.set_option('display.unicode.east_asian_width',True)

data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115]]

name = ['明日', '七月流火', '高袁圆', '二月二']

columns = ['语文', '数学', '英语']

df = pd.DataFrame(data=data, index=name, columns=columns)

print(df.loc[(df['语文']>105) & (df['数学']>88)])

语文数学英语

明日 110 105 99.0

高袁圆 109 120 130.0

二月二 112 115 NaN

3.增加数据

【增加一列数据】

import pandas as pd

pd.set_option('display.unicode.east_asian_width',True)

data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115, 140]]

name = ['明日', '七月流火', '高袁圆', '二月二']

columns = ['语文', '数学', '英语']

df = pd.DataFrame(data=data, index=name, columns=columns)

df['物理'] = [88, 79, 60, 50]

print(df)

语文数学英语物理

明日 110 105 99 88

七月流火 105 88 115 79

高袁圆 109 120 130 60

二月二 112 115 140 50

# 在第一列的后面插入“物理”，其值为w1的数值

import pandas as pd

pd.set_option('display.unicode.east_asian_width',True)

data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115, 140]]

name = ['明日', '七月流火', '高袁圆', '二月二']

columns = ['语文', '数学', '英语']

df = pd.DataFrame(data=data, index=name, columns=columns)

w1 = [88, 79, 60, 50]

df.insert(1, '物理', w1)

print(df)

语文物理数学英语

明日 110 88 105 99

七月流火 105 79 88 115

高袁圆 109 60 120 130

二月二 112 50 115 140

【按行增加多行数据】

import pandas as pd

pd.set_option('display.unicode.east_asian_width',True)

data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115, 140]]

name = ['明日', '七月流火', '高袁圆', '二月二']

columns = ['语文', '数学', '英语']

df = pd.DataFrame(data=data, index=name, columns=columns)

df_insert = pd.DataFrame({'语文':[100, 123, 138], '数学':[99, 142, 60], '英语':[98, 139, 99]}, index=['钱多多', '童年', '无名'])

df1 = df.append(df_insert)

print(df1)

语文数学英语

明日 110 105 99

七月流火 105 88 115

高袁圆 109 120 130

二月二 112 115 140

钱多多 100 99 98

童年 123 142 139

无名 138 60 99

4.修改数据

【修改列标题】

import pandas as pd

pd.set_option('display.unicode.east_asian_width',True)

data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115, 140]]

name = ['明日', '七月流火', '高袁圆', '二月二']

columns = ['语文', '数学', '英语']

df = pd.DataFrame(data=data, index=name, columns=columns)

df.columns = ['语文', '数学（上）', '英语']

print(df)

语文数学（上）英语

明日 110 105 99

七月流火 105 88 115

高袁圆 109 120 130

二月二 112 115 140

【修改多个学科的列名】

import pandas as pd

pd.set_option('display.unicode.east_asian_width',True)

data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115, 140]]

name = ['明日', '七月流火', '高袁圆', '二月二']

columns = ['语文', '数学', '英语']

df = pd.DataFrame(data=data, index=name, columns=columns)

df.rename(columns = {'语文':'语文（上）', '数学':'数学（上）', '英语':'英语（上）'}, inplace=True)

print(df)

inplace=True，直接修改df,如果不设置，就是只返回原始数据

语文（上）数学（上）英语（上）

明日 110 105 99

七月流火 105 88 115

高袁圆 109 120 130

二月二 112 115 140

【修改行标题】

import pandas as pd

pd.set_option('display.unicode.east_asian_width',True)

data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115, 140]]

name = ['明日', '七月流火', '高袁圆', '二月二']

columns = ['语文', '数学', '英语']

df = pd.DataFrame(data=data, index=name, columns=columns)

df.index = list('1234')

print(df)

语文数学英语

1 110 105 99

2 105 88 115

3 109 120 130

4 112 115 140

网友评论

本文标题：python数据分析3：数据抽取

本文链接：https://www.haomeiwen.com/subject/ujjooktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

python数据分析3：数据抽取

相关文章

电力窃电用户自动识别