美文网首页
kaggle-Predict Future Sales

kaggle-Predict Future Sales

作者: 第二人生lzy | 来源:发表于2020-09-01 09:59 被阅读0次

一、概述

1 预测目的

预测测试集在每个商店中出售的产品总数。

2 预测方法

2.1平稳性检测

假定某个时间序列由某一随机过程(stochastic process)生成,即假定时间序列{Xt}(t=1, 2, …)的每一个数值都是从一个概率分布中随机得到的。
如果经由该随机过程所生成的时间序列满足下列条件:

  • 均值E(Xt)=m是与时间t 无关的常数;
  • 方差Var(Xt)=s^2是与时间t 无关的常数;
  • 协方差Cov(Xt,Xt+k)=gk 是只与时期间隔k有关,与时间t 无关的常数;

则称经由该随机过程而生成的时间序列是(弱)平稳的(stationary)。该随机过程便是一个平稳的随机过程(stationary stochastic process)。平稳性检测的目的就是保证时间序列的某种趋势是可以延续的,这样未来的数据才可以被预测。白噪声(white noise)过程就是平稳的。

2.2白噪声检测

白噪声是一个只包含随机因素的时间序列,他平稳的随机波动,但是不具有被预测的价值,所以对时间序列进行白噪声检测也是必要的,这决定了是否有必要进行下面的预测。

2.3时间序列包含的因素

1、长期趋势
长期趋势指的是统计指标在相当长的一段时间内,受到长期趋势影响因素的影响,表现出持续上升或持续下降的趋势,通常用字母T表示。例如,随着国家经济的发展,人均收入将逐渐提升;随着科学技术的发生,劳动生产率也不断提高。

2、季节因素
季节因素是指由于季节的转变使得指标数值发生周期性变动。由此可见,指标数值的季节变动是以年为周期的,一般以月、季、周为时间单位,不能以年作单位,通常用S表示。引起季节变动的因素有自然因素,也有人为因素。例如,蔬菜食品价格,棉衣销售量都会随着季节气温的变化而周期变化;每年的长假(五一、十一、春节)都会引起出行人数的大量增加。

3、周期因素
周期因素与季节因素不同,周期性因素通常以若干年为周期,在曲线图上表现为波浪式的周期变动。这种周期变动的特征变现为增加和减少交替出现。最典型的周期案例就是市场经济的商业周期。

4、随机因素
由某些随机因素导致的数值变化,这些因素的作用是不可预知和没有规律性的,因此对数值的变化影响变形为随机的。

2.4时间序列分析方法

1、传统的时间序列分析方法,研究时间序列是否能被分解成上面介绍的四种变动,并解析引起每种变动的影响因素。看因素之间是否有叠加效果,采用加法模型或者乘法模型。

  • yt=St + Tt + Et
  • yt=St x Tt x Et

2、时间序列的模型解析法,常用时间序列模型有自回归(AR)模型、滑动平均(MA)模型、自回归滑动平均(ARMA)模型等。

二、数据准备

1 数据处理

1.1 数据写入

因为我比较习惯在数据库操作,将数据写入数据库

#!/usr/bin/python3
# -*- encoding: utf-8 -*-
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import random as rd # generating random numbers
import datetime # manipulating date formats
import pandas as pd
import sqlalchemy
from sqlalchemy import create_engine

def append_csv():
    engine = create_engine('mysql+pymysql://root:Lzy814841@localhost:3306/kaggle')
    #数据写入数据库
    sales=pd.read_csv("/Users/lizhongyao/Desktop/mysite/data/sales_train.csv")
    #日期格式转换
    sales.date=sales.date.apply(lambda x:datetime.datetime.strptime(x, '%d.%m.%Y'))
    sales.to_sql('sales', engine, index= False)

    item_cat=pd.read_csv("/Users/lizhongyao/Desktop/mysite/data/item_categories.csv")
    item_cat.to_sql('item_cat', engine, index= False)

    item=pd.read_csv("/Users/lizhongyao/Desktop/mysite/data/items.csv")
    item.to_sql('item', engine, index= False)

    shops=pd.read_csv("/Users/lizhongyao/Desktop/mysite/data/shops.csv")
    shops.to_sql('shops', engine, index= False)

    test=pd.read_csv("/Users/lizhongyao/Desktop/mysite/data/test.csv")
    test.to_sql('test', engine, index= False)
数据已经存入数据库

1.2 清洗数据

数据清洗思路

(1)异常值

销量数item_cnt_day为负数7356条
#状态改为删除
update sales  set status =0 where item_cnt_day <0 

  • (2)离群点
update sales  set status =0  where  item_price >=100000
update sales  set status =0  where  item_cnt_day >=1001

  • (3)异常值

item_price 为负数,用均值修正

select AVG(item_price) from sales where shop_id=32 and item_id=2973  and date_block_num=4 and item_price>0

update sales set item_price=1874 where item_price<0
  • (4)去除/修正不正常的数据
    检查商店月度销售数据(放在excel比较直观)
select
t.shop_id,s.shop_name,
GROUP_CONCAT(distinct date_block_num) as sale_month ,
if(t1.shop_id is null,'不需要预测' ,'预测')
from sales t
left join shops s
on t.shop_id=s.shop_id
left join test t1
on t.shop_id=t1.shop_id
group by t.shop_id

观察数据和商店名称

修正数据

update sales set shop_id=57 where shop_id=0

update sales set shop_id=58 where shop_id=1

update sales set shop_id=10 where shop_id=11

1.3 观察数据特征

1、商品汇总统计

三、数据预测

1、只有33月的商店,直接用33月的结果预测34

 select 
t.ID,t.item_id,t.shop_id,sum(item_cnt_day) as item_cnt_month
 from
 test t
 left join sales sa
 on t.item_id=sa.item_id
 and t.shop_id=sa.shop_id
 where t.shop_id=36
 and sa.date_block_num=33
 group by sa.date_block_num,t.ID,t.item_id,t.shop_id

相关文章

网友评论

      本文标题:kaggle-Predict Future Sales

      本文链接:https://www.haomeiwen.com/subject/pmgpsktx.html