【深度学习笔记】常见损失函数

最新推荐文章于 2025-08-28 09:00:00 发布

原创最新推荐文章于 2025-08-28 09:00:00 发布 · 943 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

收录于

深度学习

本文详细介绍了深度学习中常见的几种损失函数：0-1损失函数，由于其数学性质不佳，常被连续可微的损失函数替代；平方损失函数主要用于回归问题；交叉熵损失函数是分类问题的首选，尤其适用于多类别任务；最后，Hinge损失函数在二分类问题中发挥重要作用。通过理解这些损失函数，有助于优化模型性能。

损失函数是一个非负实数函数，用来量化模型预测和真实标签之间的差异

0-1损失函数：

$L(y,f(x,θ))=˙{0(ify=f(x,θ))1(else)L(y,f(x,\theta))\dot= \begin{cases} 0(if y=f(x,\theta))\\ 1 (else)\end{cases}$
0-1损失函数可以客观的评价模型的好坏，但缺点是数学性质不好，常用连续可微的损失函数替代

平方损失函数:

$L(y,f(x,θ))=˙12(y−f(x,θ))2L(y,f(x,\theta))\dot=\frac{1}{2}(y-f(x,\theta))^2$
平方损失函数一般不适用于分类问题

交叉熵损失函数:

假设样本的标签 $y∈{1,...,C}$ 为离散的类别，模型 $f(x;θ)∈[0,1]Cf(x;\theta)∈[0,1]^C$ 的输出为类别标签的条件概率分布
即 $p(y=c∣x;θ)=fc(x;θ)p(y=c|x;\theta)=f_c(x;\theta)$
并满足 $fc(x;θ)∈[0,1],∑c=1Cfc(x;θ)=1f_c(x;\theta)∈[0,1],\sum_{c=1}^Cf_c(x;\theta)=1$
用一个C维的one-hot向量y来表示样本标签，假设样本的标签为k，那么标签向量y只有第k维的值为1，其余元素全为0.
标签向量y可以看做样本标签的真实条件概率分布 $p_r(y|x)$ ，即第c维是类别为c的真实条件概率。
对于两个概率分布，一般用交叉熵来衡量差异。交叉熵 $L(y,f(x;θ))=−yTlogf(x;θ)=−∑c=1Clogfc(x;θ)L(y,f(x;\theta))=-y^Tlogf(x;\theta)=-\sum_{c=1}^{C}logf_c(x;\theta)$
交叉熵损失函数一般用于分类问题