机器学习(四)高斯判别分析

高斯判别分析(GDA)是一种统计方法,用于基于连续特征值进行分类。它假设特征值服从多变量正态分布,每个类别有自己的均值向量和相同的协方差矩阵。GDA模型可以通过极大似然估计求解参数,并可以转化为逻辑回归形式。在实践中,尽管逻辑回归更为常见,但GDA在模型假设正确时能提供更好的拟合度。

高斯判别分析 GDA

多元高斯分布

正态分布X∼N(μ,σ2)X\sim N(\mu,\sigma^2)XN(μ,σ2),他的概率密度函数为,φ(x)\varphi(x)φ(x)
φ(x)=1σ2πe−(x−μ)22σ2\varphi(x) = \frac{1}{\sigma\sqrt{2\pi} }e^{\frac{-(x-\mu)^2}{2\sigma^2} }φ(x)=σ2π1e2σ2(xμ)2

假设变量XiX_iXi之间相互独立且 Xi∼N(μi,σi2)X_i\sim N(\mu_i, \sigma_i^2)XiN(μi,σi2)

x=[x1,x2,...,xn]T;u=[μ1,μ2,...,μn]T;σ=[σ1.σ2,...,σn]Tx = [x_1,x_2,...,x_n]^T; u = [\mu_1,\mu_2,...,\mu_n]^T ;\sigma = [\sigma_1.\sigma_2,...,\sigma_n]^Tx=[x1,x2,...,xn]T;u=[μ1,μ2,...,μn]T;σ=[σ1.σ2,...,σn]T
则多元高斯分布的密度函数可以表示为:
在这里插入图片描述
对于上述指数部分,设
在这里插入图片描述
对其转换为矩阵表示形式
在这里插入图片描述
由Xi相互独立可知
在这里插入图片描述
所以多元高斯分布X∼N(μ,∑)X\sim N(\mu,\sum)XN(μ,)的密度函数为
在这里插入图片描述
Mean向量μ∈Rn协方差矩阵∑马氏距离r2=(x−μ)T∑−1(x−μ)Mean向量\mu \in \mathbb{R}^n \\协方差矩阵\sum\\马氏距离r^2=(x-\mu)^T\sum^{-1}(x-\mu)MeanμRnr2=(xμ)T1(xμ)
二元高斯分布
在这里插入图片描述
在这里插入图片描述

高斯判别分析模型

如果特征值x是连续v的随机变量,可以使用高斯判别分析模型完成特征值测分类。
假设特征值是二分类,结果服从0-1分布,(如果是多分类就服从二向分布)
模型:
y∼Bernoulli(ϕ)x∣y=0∼N(μ0,∑)x∣y=1∼N(μ1,∑)y\sim Bernoulli(\phi)\\x|y = 0 \sim N(\mu_0,\sum) \\x|y=1\sim N(\mu_1,\sum)yBernoulli(ϕ)xy=0N(μ0,)xy=1N(μ1,)

概率密度函数为:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
模型待估计的参数为φ,∑,μ0,μ1\varphi,\sum,\mu_0,\mu_1φ,,μ0,μ1,模型有两个不同的期望,有一个相同的协方差。
给定m个样本,该模型的极大似然函数的对数方程为:
在这里插入图片描述
在这里插入图片描述
解析解:
在这里插入图片描述

GDA 和logistic回归

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
GDA可以写成逻辑回归的形式,但是GDA有更严格的模型假设,设p(x∣y)p(x|y)p(xy)为高斯混合分布的。如果混合高斯模型假设是正确的正确的,那么GDA有更高的拟合度。
实践中,逻辑回归比使用GDA更加普遍。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值