线性模型（linear model ）

作者: 谁吃了我的薯条 | 来源:发表于2017-06-26 11:26 被阅读17次

逻辑斯蒂回归（Logistic Regression）
（翻译）TensorFlow 线性模型教程
regression
HLM（分层线性模型）处理“聚集性”问题！
Linear Model 线性模型
线性模型（linear model ）
3.1.1.1 线性模型
线性回归预测房价
线性模型
[机器学习入门] 李宏毅机器学习笔记-25（Sturctured

一、基本概念

针对给定变量集x={x...},线性模型，试图运用一组常量值w={w...}，来构造一个函数方程，即：

1.1

写成向量形式为：

1.2
即：

1.3
若，w及b给定后，该函数模型就固定了；

线性模型形式简单，已于建模，但是其蕴涵着机器学习中的一些重要基本思想，许多非线性结构引入到或映射到高维，可以转换为线性模型处理。而且，其对于不同变量的影响，可以直观的看出；

二、线性回归（linear regession）

a、公式推导（最小二乘法）：

令：（其中n=d,m=n，X11、XM1均为1）

化简即得：

此公式来源百度百科

但是，现实生活中

往往不是满秩矩阵，这个便引入了正则化项（regularization）

b、一个实例（Sample）

对于线性回归，使用最小二乘法的一个实例：
先给定一组数据，为某产品x与y之间的对应关系；

x/y

建立一元n次模型：
程序如下：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import csv
from numpy import matrix

plt.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False  # 解决保存图像是负号'-'显示为方块的问题

def data_get(link, n):
    file = pd.read_csv(link, dtype=float)
    X = []
    for i in range(n + 1):
        lists = []
        for j in range(len(file['x'])):
            lists.append(pow(file['x'][j], i))
        X.append(lists)
    X_ = matrix(X)
    Y_ = matrix(file['y'])
    X = matrix.getT(X_)
    Y = matrix.getT(Y_)
    s = matrix.getI(X_ * X) * X_ * Y
    plt.scatter(file['x'],file['y'],s=20,c='r')
    plt.plot(file['x'],X*s)
    plt.xlabel('n='+str(n))
    lable=['拟合图','散点图']
    plt.legend(lable)
    plt.show()

link = 'D:\Py\machina\data\data_one.csv'
n = 3
data_get(link, n)

拟合结果如下：
①、n=1:

n=1，欠拟合

②、n=2 和n=3：拟合较好

n-2

n=3

③、n=6：过度拟合

n=6，过度拟合

c、梯度下降法

原理如下：

Gradient descent
给定一组初始a=0,0,0,...
下降系数为b
给定不同（a,b），可以得到不同的拟合速度；同时，当b给定过大时，可能会超过最优点，b太小时，会导致下降速度过慢；

c-1、数据预处理：

1、Feature scaling，数据正则化
不同的特征量由于单位不同，可能在数值上相差较大，Feature Scaling可以<b>去量纲</b>，减少梯度下降法的迭代次数，提高速度，所以在算法执行前通常需要Feature Scaling。直观上来说，考虑两个特征量，规范化前的椭圆很瘪，可能导致收敛的路径变长，数据规范化后使得椭圆较均匀，缩短收敛路径，如下：

Feature scaling

2、Features and polynomial regression，合并特征量
比如，房子受面积影响较大，那么面积又有深度、长度、宽度等决定，则可以将3者统一为一个变量；

c-2、代码如下：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from numpy import matrix
import sys

sys.setrecursionlimit(200000)  # set the maximum depth as 200000
plt.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False  # 解决保存图像是负号'-'显示为方块的问题

def data_get(url,n):#数据获取及处理
    data = pd.read_csv(url, dtype=float)
    mean_x = np.mean(data['x'])
    #mean_y = np.mean(data['y'])
    segma_x = np.std(data['x'])
    #segma_y = np.std(data['y'])
    x = list(map(lambda x:(x-mean_x)/segma_x,data['x']))
    #data_y = list(map(lambda y: (y - mean_y) / segma_y, data['y']))
    data_x=[]
    for i in range(len(data['x'])):
        #data_x.append(list(map(lambda y: pow(data['x'][i], y), range(n))))
         data_x.append(list(map(lambda y:pow(x[i],y),range(n))))   #Feature scaling
    return x,data_x,data['y']
def ds(a,b):
    sum=0
    for l in range(len(a)):
        sum=pow(a[l]-b[l],2)+sum
    return pow(sum,0.5)

def coreFunction(url,a,b,n): #关键函数：a,b的赋值及求取
    x,data_x,data_y=data_get(url,n)
    result=[]
    for j in range(len(a)):
        sum=0
        for k in range(len(data_y)):
            sum=sum+(np.dot(data_x[k],a)-data_y[k])*data_x[k][j]
        result.append(a[j]-b/len(data_y)*sum)
    if result==a or ds(result,a)<=0.000001:
        plt.scatter(x,data_y)
        x=np.array(x)
        y=np.dot(data_x,result)
        plt.plot(x,y,'r')
        lable = ['拟合图', '散点图']
        plt.legend(lable)
        plt.show()
    else:
        for m in range(n):
            a[m]=result[m]
        coreFunction(url,a,b,n)
def main():#主函数
    url='D:\Py\machina\data\data_one.csv'
    n=3
    a=list(np.zeros(n))
    b=0.01
    coreFunction(url,a,b,n)

main()

拟合结果如下：