机器学习小白手推一元线性回归[附代码]

原创

已于 2022-12-10 16:44:35 修改 · 1.4k 阅读

标签

#线性回归 #python #最小二乘法

于 2022-12-10 16:43:51 首次发布

手推一元线性回归【机器学习小白】

手推一元线性回归（附代码）

手推一元线性回归（附代码）

引言

由于经常做运维和编程工作，线性代数知识已经多年没有用了，基本已还给老师，线性回归的思路也是机器学习的基本思路，所以打算复习一下。顺便做个一元线性笔记，忘记的时候可以拿出来回顾一下。

本文主要以手推为主，程序作为辅助，程序语言选用python。

线性回归

提出问题

根据下表内容，预测指定年龄的儿童体重。例如：预测表中没有的，19岁儿童的标准体重。
在这里插入图片描述

用例说明

为方便手工推算计算，我取表中标准体重的前5个数据：[10.05,12.54,14.65,16.64,18.98]，分别对应1岁到5岁年龄。

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression

#体重
weights=[10.05,12.54,14.65,16.64,18.98]
#年龄
ages=[1,2,3,4,5]
df=pd.DataFrame()
df['age']=ages
df['weight']=weights
# 散点图
df.plot(kind='scatter', x='age', y='weight', c=None, s=15) # s：点的大小  c：点的颜色 c =np.squeeze(colors)
plt.title(u'儿童年龄体重对照', fontsize=15,fontdict=dict(family='KaiTi')) #楷体
plt.show()

分布图如下,看上去像是某种线性关系：在这里插入图片描述

如果要预测儿童6岁时的体重，我们可以根据中学的知识，把这线散点拟合成直线方程：

y = ax + b

然后把6代入方程就可以预测出6岁时的体重。这就是线性回归。

一元线性回归就是找一条直线，并且让图中的散点尽可能靠近这条直线

我们先随手画直线：
在这里插入图片描述

这又面临另一个问题：到底是红色直线更能拟合图中的散点？还是黄色直线？又或是其他直线呢？
解决这个问题就需要引入最小二乘法

假设我们的拟合直线为： $f (x) = 2.25 x + 7.73$

根据上面的例子，把5个样本（即1岁到5岁标准体重）分别代入上述方程可以得出5个预测结果：
$\hat{y_1}=f(x_1)=2.25\times1+7.73=9.98$
$\hat{y_2}=f(x_2)=2.25\times2+7.73=12.23$
$\hat{y_3}=f(x_3)=2.25\times3+7.73=14.48$
$\hat{y_4}=f(x_4)=2.25\times4+7.73=16.73$
$\hat{y_5}=f(x_5)=2.25\times5+7.73=18.98$

数学中的估计值一般用上面带尖的符号表示，如： $\hat{\theta}$ , 读作theta hat。

##使用程序计算

上面为手算结果，很慢，且累。这才用了5个数据样本，现实中的数据远比这个多得多，所以需要程序辅助。
接上面的程序

y_head5_predict=([2.25*x+7.73 for x in df['age']]) #拟合结果

y_head5_predict的计算结果，即方程: $f (x) = 2.25 x + 7.73$ 的预测结果

[9.98, 12.23, 14.48, 16.73, 18.98]

与真实结果做个对比

[ 9.98, 12.23, 14.48, 16.73, 18.98]
[10.05, 12.54, 14.65, 16.64, 18.98]

最小二乘法

损失函数

可以发现上面的预测结果与真实数据存在误差，毕竟预测结果是方程算出的嘛，和真实值当然会不一样了。那么如何来恒量这个误差呢？

残差公式

$e=f(x_i)-y_i$

把预测值与真实值相减便得出了这个误差。也可以写成这样：
$\hat{y_i}-y_i=\epsilon$
但是这种算的结果有时是负数，计算起来不方便，于是就把它作平方处理。

损失函数原型

和方差（SSE）

$SSE=\sum_{i=1}^{m}(y_i-\hat{y_i})^2$

均方误差（MSE）

$MSE=\frac{SSE}{N}=\frac{1}{N}\sum_{i=1}^{m}(y_i-\hat{y_i})^2$

均方根（RMSE）

$\Large RMSE=\sqrt{MSE}=\sqrt{\frac{1}{N}\sum_{i=1}^{m}(y_i-\hat{y_i})^2}$

总之，这些公式的值最越小，说明损失越小，线性方程就能更好地拟合样本数据。

参数估计——最小二乘法

以上面例子的方程：
$f (x) = a x + b$
找出最合适的参数a和b，就是展开后：
$f(a,b)=\sum_{i=1}^{m}(y_i-\hat{y_i})^2=\sum_{i=1}^{m}(y_i-(ax_i+b))^2$

最低0.47元/天解锁文章