损失函数是一个非负实数函数,用来量化模型预测和真实标签之间的差异
0-1损失函数:
L(y,f(x,θ))=˙{0(ify=f(x,θ))1(else)L(y,f(x,\theta))\dot= \begin{cases} 0(if y=f(x,\theta))\\ 1 (else)\end{cases}L(y,f(x,θ))=˙{0(ify=f(x,θ))1(else)
0-1损失函数可以客观的评价模型的好坏,但缺点是数学性质不好,常用连续可微的损失函数替代
平方损失函数:
L(y,f(x,θ))=˙12(y−f(x,θ))2L(y,f(x,\theta))\dot=\frac{1}{2}(y-f(x,\theta))^2L(y,f(x,θ))=˙21(y−f(x,θ))2
平方损失函数一般不适用于分类问题
交叉熵损失函数:
假设样本的标签y∈1,...,Cy∈{1,...,C}y∈1,...,C为离散的类别,模型f(x;θ)∈[0,1]Cf(x;\theta)∈[0,1]^Cf(x;θ)∈[0,1]C的输出为类别标签的条件概率分布
即p(y=c∣x;θ)=fc(x;θ)p(y=c|x;\theta)=f_c(x;\theta)p(y=c∣x;θ)=fc(x;θ)
并满足fc(x;θ)∈[0,1],∑c=1Cfc(x;θ)=1f_c(x;\theta)∈[0,1],\sum_{c=1}^Cf_c(x;\theta)=1fc(x;θ)∈[0,1],∑c=1Cfc(x;θ)=1
用一个C维的one-hot向量y来表示样本标签,假设样本的标签为k,那么标签向量y只有第k维的值为1,其余元素全为0.
标签向量y可以看做样本标签的真实条件概率分布pr(y∣x)p_r(y|x)pr(y∣x),即第c维是类别为c的真实条件概率。
对于两个概率分布,一般用交叉熵来衡量差异。交叉熵L(y,f(x;θ))=−yTlogf(x;θ)=−∑c=1Clogfc(x;θ)L(y,f(x;\theta))=-y^Tlogf(x;\theta)=-\sum_{c=1}^{C}logf_c(x;\theta)L(y,f(x;θ))=−yTlogf(x;θ)=−∑c=1Clogfc(x;θ)
交叉熵损失函数一般用于分类问题
Hinge损失函数
Hinge损失函数用于二分类问题,假设y的取值为{-1,+1},f(x;θ)∈Rf(x;\theta)∈Rf(x;θ)∈R
L(y,f(x;θ))=max(0,1−yf(x;θ))L(y,f(x;\theta))=max(0,1-yf(x;\theta))L(y,f(x;θ))=max(0,1−yf(x;θ))
本文详细介绍了深度学习中常见的几种损失函数:0-1损失函数,由于其数学性质不佳,常被连续可微的损失函数替代;平方损失函数主要用于回归问题;交叉熵损失函数是分类问题的首选,尤其适用于多类别任务;最后,Hinge损失函数在二分类问题中发挥重要作用。通过理解这些损失函数,有助于优化模型性能。
764

被折叠的 条评论
为什么被折叠?



