美文网首页机器学习之路
数据处理Project_2工业蒸汽量预测

数据处理Project_2工业蒸汽量预测

作者: Nefelibatas | 来源:发表于2022-02-23 12:37 被阅读0次

背景

在梳理处理之前我们先了解下火力发电原理,便于明白最终需要做什么。

燃料加热水 => 生成蒸汽 => 推动汽轮机旋 => 带动发电机旋转 => 产生电能

在这个过程中,影响发电效率的核心是锅炉的燃烧效率。

  • 锅炉的可调参数:如燃烧给量、一二次风、引风、返料风、给水水量

  • 锅炉的工况,比如锅炉床温、床压、炉膛温度、压力、过热器的温度

image-20220214000956723.png

可视化数据探索

  • 对v0制作箱线图,观察数据分布的特征
image-20220214001208951.png
  • 单个字段数据分布绘制后,我们可以对所有字段进行箱线图绘制
image-20220214001251812.png

对所有的特征,查看训练集和测试集的分布是否一致,用直方图进行绘制。

使用kde图进行绘制,KDE(kernel density estimation)核心密度估计是在概率论中用来估计未知的密度函数。

image-20220214001536028.png
  • 线性回归关系图

使用线性回归分析变量之间的相关性

sns.regplot() :绘图数据和线性回归模型拟合

image-20220214001730984.png

对于所有的特征与Target的线性回归关系

image-20220214001815705.png
  • 绘制相关热力图

对角线上的数值为1,相关性=1

Q : 如何通过相关性系数对特征变量进行筛选?

特征数量有限的情况下,相关性不大的可以不入模,比如设定threshold=0.5

Q: 要选取corr > 0.5吗?

需要对相对系数的绝对值进行判断。

image-20220214002126731.png

筛选出来与Target相关性系数>0.5的特征,并对这些特征进行相关性系数热力图呈现。

image-20220214002241177.png

总结

  • 数据探索EDA,帮我们对数据进行宏观分析,数据缺失、数据重复、异常值检测、方柏霓后续的数据清洗、特征选择工作。
  • visualization可以让我们更好的理解数据
  • 可视化的图表有很多,关键是对业务的理解,才能转化为图表的语言

相关文章

网友评论

    本文标题:数据处理Project_2工业蒸汽量预测

    本文链接:https://www.haomeiwen.com/subject/amlglrtx.html