数据处理Project_2工业蒸汽量预测

作者: Nefelibatas | 来源:发表于2022-02-23 12:37 被阅读0次

数据处理Project_2工业蒸汽量预测
线性回归：工业蒸汽量预测
机器学习算法——多元线性回归
强大的神经网络：再战工业蒸汽量预测
技术、产业与管理（向欣悦组第二部分）
AAA学习攻略14:9图读懂《工业1.0到工业4.0》的发展历程
腰斩！飘红！下线！币圈投资者还好么？
什么叫工业4.0
蒸汽机和煤
阿里云蒸汽量预测新人赛赛题解析

背景

在梳理处理之前我们先了解下火力发电原理，便于明白最终需要做什么。

燃料加热水 => 生成蒸汽 => 推动汽轮机旋 => 带动发电机旋转 => 产生电能

在这个过程中，影响发电效率的核心是锅炉的燃烧效率。

锅炉的可调参数：如燃烧给量、一二次风、引风、返料风、给水水量
锅炉的工况，比如锅炉床温、床压、炉膛温度、压力、过热器的温度

image-20220214000956723.png

可视化数据探索

对v0制作箱线图，观察数据分布的特征

image-20220214001208951.png

单个字段数据分布绘制后，我们可以对所有字段进行箱线图绘制

image-20220214001251812.png

对所有的特征，查看训练集和测试集的分布是否一致，用直方图进行绘制。

使用kde图进行绘制，KDE(kernel density estimation)核心密度估计是在概率论中用来估计未知的密度函数。

image-20220214001536028.png

线性回归关系图

使用线性回归分析变量之间的相关性

sns.regplot() ：绘图数据和线性回归模型拟合

image-20220214001730984.png

对于所有的特征与Target的线性回归关系

image-20220214001815705.png

绘制相关热力图

对角线上的数值为1，相关性=1

Q : 如何通过相关性系数对特征变量进行筛选？

特征数量有限的情况下，相关性不大的可以不入模，比如设定threshold=0.5

Q: 要选取corr > 0.5吗？

需要对相对系数的绝对值进行判断。

image-20220214002126731.png

筛选出来与Target相关性系数>0.5的特征，并对这些特征进行相关性系数热力图呈现。

image-20220214002241177.png

总结

数据探索EDA，帮我们对数据进行宏观分析，数据缺失、数据重复、异常值检测、方柏霓后续的数据清洗、特征选择工作。
visualization可以让我们更好的理解数据
可视化的图表有很多，关键是对业务的理解，才能转化为图表的语言

网友评论

机器学习之路

本文标题：数据处理Project_2工业蒸汽量预测

本文链接：https://www.haomeiwen.com/subject/amlglrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

数据处理Project_2工业蒸汽量预测

背景

可视化数据探索

总结

相关文章