46、基于DenseNet-121的面部表情识别技术解析

原创于 2025-09-26 13:04:51 发布 · 102 阅读

0 GEO检测

标签

#DenseNet-121 #面部表情识别 #敏感性

多混沌与人工智能前沿专栏收录该内容

56 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于DenseNet-121的面部表情识别技术解析

1. 网络敏感性与整体准确率计算

在网络实施 $x = 10$，$k = 10$ 后，敏感性和整体准确率（OA）的计算方式如下：
- 敏感性 $E(t)$：
- 公式为 $E(t)=\frac{X_{tt}(s = 10,k = 10)}{\sum_{i = 1}^{7}X_{ti}(s = 10,k = 10)}$。这里的 $E(t)$ 是类别 $t$（$t\in[1,7]$，$t\in N^+$）的敏感性，即 $X(s = 10,k = 10)$ 对角线上的第 $t$ 个元素除以第 $t$ 行的总和。
- 整体准确率 $OA$：
- 公式为 $OA=\frac{\sum_{i = 1}^{7}X_{ii}(s = 10,k = 10)}{\sum_{i = 1}^{7}\sum_{j = 1}^{7}X_{ij}(s = 10,k = 10)}$，它表示 $X(s = 10,k = 10)$ 对角元素的总和除以 $X(s = 10,k = 10)$ 的总和。

2. DenseNet-121网络结构与原理

2.1 与其他网络对比

ResNet ：通过在前后层之间建立“短路连接”，帮助训练过程中的梯度反向传播，从而可以训练更深的CNN网络。传统网络在第 $L$ 层的输出为 $x_l = H_l(x_{l - 1})$，而ResNet增加了一层输入，变为 $x_l = H_l(x_{l - 1})+x_{l - 1}$。
DenseNet ：采用密集连接机制，所有层相互连接，每一层在通道维度上与所有前层连接（拼接），以实现特征重用作为下一层的输入。其第 $L$ 层的输入为 $x_l = H_l([x_0,x_1,\cdots,x_{l - 1}])$。$H_l$ 代表非线性转换函数，可能由一系列批归一化（BN）、ReLU、池化和卷积操作组成。

2.2 DenseNet结构特点

DenseBlock ：
是由许多层组成的模块，每层的特征图大小相同，层间具有密集连接。假设输入层特征图的通道数为 $k_0$，DenseBlock中每层卷积后输出 $k$ 个特征图，那么第 $L$ 层的输入通道数为 $k_0+(L - 1)k$，$k$ 称为网络的增长率。通常使用较小的 $k$（如12），$k$ 实际代表该层新提取的特征。
DenseBlock采用激活函数在前、卷积层在后的顺序，即BN - ReLU - Conv，也称为预激活。实验发现采用后激活设计（Conv - BN - ReLU）性能会变差。
为减少计算量，DenseBlock可使用瓶颈层，结构为BN + ReLU + 1×1 Conv + BN + ReLU + 3×3 Conv，称为DenseNet - B结构。其中1×1卷积得到 $4k$ 个特征图，起到减少特征数量、提高计算效率的作用。
Transition层 ：
包括1×1卷积和2×2平均池化，结构为BN + ReLU + 1×1 Conv + 2×2平均池化，用于连接两个相邻的DenseBlock并通过池化减小特征图大小。

2.3 DenseNet - 121流程

DenseNet - 121先经过卷积和最大池化，然后通过一系列DenseBlock和Transition层，最后通过全局平均池化和全连接层输出分类结果，增长率 $k = 32$，每个“conv”层对应BN - ReLU - Conv序列。

3. DenseNet的优势

更强的梯度流 ：密集连接方式促进了梯度的反向传播，使网络更易训练，实现了隐式的“深度监督”，减少了梯度消失现象，让更深的网络训练不再困难。
减少参数数量 ：相比其他网络，DenseNet - 121网络更窄，参数更少。
保留低维特征 ：使用不同层次的特征，倾向于给出更平滑的决策边界，即使在训练数据稀缺时也能有良好表现。

4. 全连接层作用

全连接层中每个节点与前一层的所有节点相连，用于综合前一层提取的特征，在整个卷积神经网络中起到“分类器”的作用。它将学习到的“分布式特征表示”映射到样本标签空间。

5. 实验结果统计分析

Run	C1	C2	C3	C4	C5	C6	C7
1	98.00	95.00	97.00	97.00	95.00	96.00	94.00
2	96.00	94.00	98.00	95.00	97.00	96.00	97.00
3	96.00	95.00	98.00	98.00	97.00	98.00	98.00
4	97.00	94.00	95.00	94.00	98.00	97.00	92.00
5	97.00	98.00	98.00	98.00	97.00	97.00	98.00
6	98.00	98.00	98.00	98.00	98.00	98.00	97.00
7	96.00	97.00	96.00	96.00	96.00	96.00	97.00
8	95.00	97.00	96.00	93.00	96.00	96.00	97.00
9	97.00	96.00	96.00	95.00	94.00	96.00	94.00
10	98.00	96.00	97.00	94.00	94.00	95.00	95.00
Mean ± SD	96.80 ± 1.03	96.00 ± 1.49	96.90 ± 1.10	95.80 ± 1.87	96.20 ± 1.48	96.50 ± 0.97	95.90 ± 2.02

从数据可知，恐惧（C3）表情最敏感、最易识别，其次是愤怒（C1），第三是悲伤（C6）。系统经过10次运行后的整体平均准确率为 $96.30\pm0.91\%$。

下面通过mermaid流程图展示DenseNet - 121的大致运行流程：

graph LR
    A[输入层] --> B[卷积层]
    B --> C[池化层]
    C --> D{DenseBlock与Transition层循环}
    D --> E[全局平均池化层]
    E --> F[全连接层]
    F --> G[输出层]

6. 与其他方法对比

在实验中，将“DenseNet - 121”方法的OA与HOS、PCA + SVM、CSO、BBO和ResNet - 50进行了比较，结果如下表：
|方法|OA|
|----|----|
|HOS|$83.43\pm2.15\%$|
|PCA + SVM|$89.14\pm2.91\%$|
|CSO|$89.49\pm0.76\%$|
|BBO|$93.79\pm1.24\%$|
|ResNet - 50|$95.39\pm1.41\%$|
|DenseNet - 121|$96.30\pm0.91\%$|

可以看出，“DenseNet - 121”方法的准确率最高。其获得高OA主要是因为从特征出发，通过极致利用特征达到更好效果和更少参数，所有层直接连接，使特征和梯度传输更高效，网络更易训练。

7. 面部表情识别模型操作流程

正向传播 ：
1. 数据集的标注图像进入输入层。
2. 以矩阵形式的图像传递到卷积层，进行卷积操作提取图像特征，输出特征图进入池化层压缩图像大小。
3. 在DenseNet - 121中经过多次重复卷积和池化。
4. 前层输出进入全连接层，根据图像特征进行分类。
5. 分类结果进入输出层，转换为相应类别的输出值。输出层是一个7维向量，每个维度代表每种表情的概率。
反向传播 ：根据实际值和预测值之间的误差进行优化，使用梯度下降法逐层更新权重，以最小化误差。

8. 结论与展望

该面部表情识别系统采用基于密集连接神经网络的方法，避免了传统深度学习所需的复杂特征提取，节省了训练时间。DenseNet减少了梯度消失，加强了特征传输，有效利用了特征并减少了参数数量，提高了模型的泛化能力和分类效果。实验结果表明该方法具有较高的识别准确率、较强的鲁棒性和泛化能力。

然而，DenseNet需要进行多次拼接操作，数据需多次复制，显存增长快，需要一些显存优化技术。未来将尝试基于DenseNet网络的改进方法，以实现更好的面部表情识别模型，同时也会探索更好的识别方法来提高识别准确率和深度神经网络的性能。

基于DenseNet-121的面部表情识别技术解析

9. 敏感性与准确率深入分析

敏感性和整体准确率是衡量面部表情识别模型性能的重要指标。敏感性反映了模型对特定表情的识别能力，而整体准确率则体现了模型在所有表情类别上的综合表现。

从敏感性数据来看，不同表情的敏感性存在差异。恐惧（C3）表情的高敏感性可能是因为其面部特征较为独特，容易被模型捕捉。而一些表情敏感性相对较低，可能是由于其特征与其他表情存在一定的相似性，增加了识别的难度。

整体准确率达到 $96.30\pm0.91\%$，表明模型在大多数情况下能够准确识别面部表情。但这也意味着仍有一定比例的识别错误，可能是由于数据集中存在噪声、表情的多样性或者模型本身的局限性。

10. DenseNet结构优势的详细探讨

10.1 梯度流优势

在传统的卷积神经网络中，随着网络深度的增加，梯度消失问题变得愈发严重。这是因为输入信息和梯度信息需要在众多层之间传递，导致梯度在传递过程中逐渐减弱。而DenseNet的密集连接机制使得每一层都直接与输入和损失相连，相当于为梯度提供了多条直接的传播路径。这样，误差信号能够更容易地传播到较早的层，减少了梯度消失的现象，使得训练更深的网络成为可能。

例如，在一个非常深的网络中，如果采用传统的连接方式，梯度可能在传递到前面的层时已经变得非常小，导致前面的层几乎无法更新参数。而DenseNet的密集连接可以避免这种情况，让前面的层也能得到有效的训练。

10.2 参数减少优势

DenseNet通过特征重用减少了参数数量。在传统网络中，每一层都需要独立地学习特征，这会导致参数数量随着网络深度的增加而迅速增长。而DenseNet中，每一层都可以利用前面层已经学习到的特征，避免了重复学习，从而减少了参数的数量。

以一个简单的例子来说，假设传统网络的某一层需要学习100个特征，而DenseNet可以通过重用前面层的特征，只需要学习20个新的特征，这样就大大减少了参数的数量。

10.3 低维特征保留优势

标准的卷积网络通常只提取最高层次的特征，而忽略了低维特征。在实际应用中，低维特征往往包含了一些重要的信息，对于决策边界的形成具有重要作用。DenseNet利用了不同层次的特征，这些特征可以提供更平滑的决策边界。这也是为什么DenseNet在训练数据稀缺的情况下仍然能够表现良好的原因之一。

例如，在一个面部表情识别任务中，低维特征可能包含了一些面部的基本轮廓信息，这些信息对于区分不同的表情也非常重要。DenseNet能够保留这些低维特征，从而提高了模型的识别性能。

11. 显存优化需求与策略

DenseNet虽然具有诸多优势，但由于需要进行多次拼接操作，数据需要多次复制，导致显存增长较快。为了缓解这个问题，可以采用以下显存优化策略：
- 梯度检查点 ：梯度检查点是一种通过减少显存使用来训练深度神经网络的技术。它通过在反向传播过程中重新计算一些中间结果，而不是在正向传播过程中保存所有中间结果，从而减少了显存的占用。
- 模型量化 ：模型量化是将模型的参数从高精度数据类型（如32位浮点数）转换为低精度数据类型（如8位整数）的过程。这样可以减少模型的显存占用，同时在一定程度上保持模型的性能。
- 分块训练 ：将输入数据分成小块进行训练，每次只处理一小块数据，这样可以减少显存的压力。

12. 未来研究方向

未来的研究可以从以下几个方面展开：
- 模型改进 ：继续探索基于DenseNet的改进方法，进一步提高模型的性能。例如，可以尝试调整DenseBlock和Transition层的结构，或者引入新的模块来增强模型的特征提取能力。
- 数据增强 ：通过更多的数据增强技术，如旋转、翻转、缩放等，增加训练数据的多样性，提高模型的泛化能力。
- 多模态融合 ：结合其他模态的数据，如音频、文本等，进行多模态的面部表情识别，以提高识别的准确率。

下面通过mermaid流程图展示未来研究方向的关系：

graph LR
    A[模型改进] --> B[提高性能]
    C[数据增强] --> B
    D[多模态融合] --> B

13. 总结

基于DenseNet - 121的面部表情识别技术在敏感性和整体准确率方面表现出色。DenseNet的密集连接机制带来了梯度流增强、参数减少和低维特征保留等优势，使得模型在面部表情识别任务中具有较高的性能。

然而，该技术也存在显存增长快的问题，需要进行显存优化。未来的研究可以从模型改进、数据增强和多模态融合等方面入手，进一步提高面部表情识别的准确率和性能。

通过本文的介绍，我们对基于DenseNet - 121的面部表情识别技术有了更深入的了解，希望这些信息能够为相关领域的研究和应用提供参考。

以下是一个总结表格，展示了DenseNet - 121的优势、不足和未来方向：
|方面|描述|
|----|----|
|优势|梯度流强、参数减少、保留低维特征、识别准确率高、泛化能力强|
|不足|显存增长快|
|未来方向|模型改进、数据增强、多模态融合|