经典卷积神经网络详解（AlexNet、VGG、NiN、GoogLeNet、ResNet、DenseNet、CSPNet、Darknet、EfficientNet、SqueezeNet..）

最新推荐文章于 2026-05-19 15:15:16 发布

原创

最新推荐文章于 2026-05-19 15:15:16 发布 · 2.4w 阅读

336

标签

#深度学习 #卷积神经网络

经典网络

LeNet : 基础图像识别网络 (1998)

LeNet概述

📃Paper : Gradient-Based Learning Applied to Document Recognition
💻Code: Deci-AI/super-gradients

LeNet-5是Yann LeCun等人在多次研究后提出的最终卷积神经网络结构，一般LeNet即指代LeNet-5。LeNet-5是用来处理手写字符的识别问题的。LeNet-5阐述了图像中像素特征之间的相关性能够由参数共享的卷积操作所提取，同时使用卷积、下采样（池化）和非线性映射这样的组合结构，是当前流行的大多是深度图像识别网络的基础。

LeNet的网络结构
在这里插入图片描述
LeNet-5包含七层，不包括输入，每一层都包含可训练参数（权重），当时使用的输入数据是32*32像素的图像。下面逐层介绍LeNet-5的结构，并且，卷积层将用Cx表示，子采样层则被标记为Sx，完全连接层被标记为Fx，其中x是层索引。
LeNet-5结构：

输入：32x32的灰度图像，也就是一个通道，那么一个图像就是一个2维的矩阵，没有RGB三个通道。
Layer1：6个大小为5x5的卷积核，步长为1。因此，到这里的输出变成了28x28x6。
Layer2：2x2大小的池化层，使用的是average pooling，步长为2。那么这一层的输出就是14x14x6。
Layer3：16个大小为5x5的卷积核，步长为1。但是，这一层16个卷积核中只有10个和前面的6层相连接。也就是说，这16个卷积核并不是扫描前一层所有的6个通道。如下图，0 1 2 3 4 5这 6个卷积核是扫描3个相邻，然后是6 7 8这3个卷积核是扫描4个相邻，9 10 11 12 13 14这6个是扫描4个非相邻，最后一个15扫描6个。实际上前面的6通道每个都只有10个卷积核扫描到。

这么做的原因是打破图像的对称性，并减少连接的数量。如果不这样做的话，每一个卷积核扫描一层之后是10x10，一个核大小是5x5，输入6个通道，输出16个，所以是10x10x5x5x6x16=240000个连接。但实际上只有156000连接。训练参数的数量从2400变成了1516个。
Layer4：和第二层一样，2x2大小的池化层，使用的是average pooling，步长为2。
Layer5：全连接卷积层，120个卷积核，大小为1x1。
第四层结束输出为16x5x5，相当于这里16x5x5展开为400个特征，然后使用120神经元去做全连接，如下图所示：
Layer6：全连接层，隐藏单元是84个。
Layer7：输出层，输出单元是10个，因为数字识别是0-9。

最终，LeNet-5的总结如下：
在这里插入图片描述

LeNet小结

卷积网络使用一个3层的序列组合：卷积、下采样 (池化)、非线性映射 (LeNet-5最重要的特性，奠定了目前深层卷积网络的基础)
使用卷积提取空间特征
使用映射的空间均值进行下采样
使用tanh或sigmoid进行非线性映射
多层神经网络 (MLP) 作为最终的分类器
层间的稀疏连接矩阵以避免巨大的计算开销

AlexNet：深度卷积网络（2012）

AlexNet 概述：

📃Paper : 《ImageNet Classification with Deep Convolutional Neural Networks》
💻Code: alexnet-pytorch

Alex Krizhevsky等人在2012年提出了首个应用于图像分类的卷积神经网络变体AlexNet。他们认为特征本身应该被学习，而且特征应该由多个共同学习的神经网络层组成，每个层都有可学习的参数。

如下图，在网络的最底层，模型学习到了一些类似于传统滤波器的特征抽取器。
在这里插入图片描述

AlexNet的更高层建立在这些底层表示的基础上，以表示更大的特征，如眼睛、鼻子、草叶等等。而更高的层可以检测整个物体，如人、飞机、狗或飞盘。最终的隐藏神经元可以学习图像的综合表示，从而使属于不同类别的数据易于区分。
AlexNet使用GPU代替CPU进行运算，使得在可接受的时间范围内模型结构能够更加复杂，它的出现证明了深层卷积神经网络在复杂模型下的有效性。

AlexNet的网络架构：
AlexNet和LeNet的架构非常相似，如下图所示。左侧是LeNet, 右侧是AlexNet。
在这里插入图片描述

AlexNet由八层组成：五个卷积层、两个全连接隐藏层和一个全连接输出层。其次，AlexNet使用ReLU而不是sigmoid作为其激活函数。下面，让我们深入研究AlexNet的细节。

模型设计

在AlexNet的第一层，卷积窗口的形状是11×11。由于ImageNet中大多数图像的宽和高比MNIST图像的多10倍以上，因此，需要一个更大的卷积窗口来捕获目标。第二层中的卷积窗口形状被缩减为5×5，然后是3×3。此外，在第一层、第二层和第五层卷积层之后，加入窗口形状为3×3、步幅为2的最大汇聚层。而且，AlexNet的卷积通道数目是LeNet的10倍。
在最后一个卷积层后有两个全连接层，分别有4096个输出。这两个巨大的全连接层拥有将近1GB的模型参数。由于早期GPU显存有限，原版的AlexNet采用了双数据流设计，使得每个GPU只负责存储和计算模型的一半参数。幸运的是，现在GPU显存相对充裕，所以我们现在很少需要跨GPU分解模型（因此，我们的AlexNet模型在这方面与原始论文稍有不同）。
最大池化
在CNN中使用重叠的最大池化。此前CNN中普遍使用平均池化，AlexNet全部使用最大池化，避免平均池化的模糊化效果。并且AlexNet中提出让步长比池化核的尺寸小，这样池化层的输出之间会有重叠和覆盖，提升了特征的丰富性。
激活函数
此外，AlexNet将sigmoid激活函数改为更简单的ReLU激活函数。一方面，ReLU激活函数的计算更简单，它不需要如sigmoid激活函数那般复杂的求幂运算。另一方面，当使用不同的参数初始化方法时，ReLU激活函数使训练模型更加容易。当sigmoid激活函数的输出非常接近于0或1时，这些区域的梯度几乎为0，因此反向传播无法继续更新一些模型参数。相反，ReLU激活函数在正区间的梯度总是1。因此，如果模型参数没有正确初始化，sigmoid函数可能在正区间内得到几乎为0的梯度，从而使模型无法得到有效的训练。
使用ReLU作为CNN的激活函数，并验证其效果在较深的网络超过了Sigmoid，成功解决了
Sigmoid在网络较深时的梯度弥散问题，此外，加快了训练速度，因为训练网络使用梯度下降法，非饱和的非线性函数训练速度快于饱和的非线性函数。虽然ReLU激活函数在很久之前就被提出了，但是直到AlexNet的出现才将其发扬光大。
Dropout
AlexNet通过暂退法（dropout）控制全连接层的模型复杂度，而LeNet只使用了权重衰减。
Dropout虽有单独的论文论述，但是AlexNet将其实用化，通过实践证实了它的效果。在AlexNet中主要是最后几个全连接层使用了Dropout。
数据增强
随机地从 $256 \times 256$ 的原始图像中截取 $224 \times 224$ 大小的区域(以及水平翻转的镜像)，相当于增加了 $256 \times 224) 2 \times 2=2048$ 倍的数据量。如果没有数据增强，仅靠原始的数据量，参数众多的CNN会陷入过拟合中，使用了数据增强后可以大大减轻过拟合，提升泛化能力。进行预测时，则是取图片的四个角加中间共 5 个位置，并进行左右翻转，一共获得10张图片，对他们进行预测并对10次结果求均值。
使用CUDA加速深度卷积网络的训练
利用GPU强大的并行计算能力，处理神经网络训练时大量的矩阵运算。AlexNet使用了两块GTX580GPU进行训练，单个GTX580只有3GB显存，这限制了可训练的网络的最大规模。因此作者将AlexNet分布在两个GPU上，在每个GPU的显存中储存一半的神经元的参数。

AlexNet的代码实现

import torch
from torch import nn
from d2l import torch as d2l

net = nn.Sequential(
    # 这里，我们使用一个11*11的更大窗口来捕捉对象。
    # 同时，步幅为4，以减少输出的高度和宽度。
    # 另外，输出通道的数目远大于LeNet
    nn.Conv2d(1, 96, kernel_size=11, stride=4, padding=1), nn.ReLU(),
    nn.MaxPool2d(kernel_size=3, stride=2),
    # 减小卷积窗口，使用填充为2来使得输入与输出的高和宽一致，且增大输出通道数
    nn.Conv2d(96, 256, kernel_size=5, padding=2), nn.ReLU(),
    nn.MaxPool2d(kernel_size=3, stride=2),
    # 使用三个连续的卷积层和较小的卷积窗口。
    # 除了最后的卷积层，输出通道的数量进一步增加。
    # 在前两个卷积层之后，汇聚层不用于减少输入的高度和宽度
    nn.Conv2d(256, 384, kernel_size=3, padding=1), nn.ReLU(),
    nn.Conv2d(384, 384, kernel_size=3, padding=1), nn.ReLU(),
    nn.Conv2d(384, 256, kernel_size=3, padding=1), nn.ReLU(),
    nn.MaxPool2d(kernel_size=3, stride=2),
    nn.Flatten(),
    # 这里，全连接层的输出数量是LeNet中的好几倍。使用dropout层来减轻过拟合
    nn.Linear(6400, 4096), nn.ReLU(),
    nn.Dropout(p=0.5),
    nn.Linear(4096, 4096), nn.ReLU(),
    nn.Dropout(p=0.5),
    # 最后是输出层。由于这里使用Fashion-MNIST，所以用类别数为10，而非论文中的1000
    nn.Linear(4096, 10))

我们构造一个高度和宽度都为224的单通道数据，来观察每一层输出的形状。

X = torch.randn(1, 1, 224, 224)
for layer in net:
    X=layer(X)
    print(layer.__class__.__name__,'output shape:\t',X.shape)

Conv2d output shape:         torch.Size([1, 96, 54, 54])
ReLU output shape:   torch.Size([1, 96, 54, 54])
MaxPool2d output shape:      torch.Size([1, 96, 26, 26])
Conv2d output shape:         torch.Size([1, 256, 26, 26])
ReLU output shape:   torch.Size([1, 256, 26, 26])
MaxPool2d output shape:      torch.Size([1, 256, 12, 12])
Conv2d output shape:         torch.Size([1, 384, 12, 12])
ReLU output shape:   torch.Size([1, 384, 12, 12])
Conv2d output shape:         torch.Size([1, 384, 12, 12])
ReLU output shape:   torch.Size([1, 384, 12, 12])
Conv2d output shape:         torch.Size([1, 256, 12, 12])
ReLU output shape:   torch.Size([1, 256, 12, 12])
MaxPool2d output shape:      torch.Size([1, 256, 5, 5])
Flatten output shape:        torch.Size([1, 6400])
Linear output shape:         torch.Size([1, 4096])
ReLU output shape:   torch.Size([1, 4096])
Dropout output shape:        torch.Size([1, 4096])
Linear output shape:         torch.Size([1, 4096])
ReLU output shape:   torch.Size([1, 4096])
Dropout output shape:        torch.Size([1, 4096])
Linear output shape:         torch.Size([1, 10])

读取数据集

batch_size = 128
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, resize=224)

训练

lr, num_epochs = 0.01, 10
d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())

loss 0.327, train acc 0.881, test acc 0.885
4149.6 examples/sec on cuda:0

在这里插入图片描述

AlexNet小结：

使用ReLU作为CNN的激活函数。
训练时使用Dropout随机忽略一部分神经元，以避免模型过拟合。
在CNN中使用重叠的最大池化。
提出了LRN层，对局部神经元的活动创建竞争机制，使得其中响应比较大的值变得相对更大，并抑制其他反馈较小的神经元，增强了模型的泛化能力。此方法在之后的VGG中被认为是无效的。
AlexNet在训练时增加了大量的图像增强数据，如翻转、裁切和变色。这使得模型更健壮，更大的样本量有效地减少了过拟合。
使用CUDA加速深度卷积网络的训练

ZFNet ：大型卷积网络 (2013)

ZFNet概述

📃Paper :《Visualizing and Understanding Convolutional Networks 》
💻Code: pytorch/captum

ZFNet在2013年 ILSVRC 图像分类竞赛获得冠军，错误率11.19% ，比2012年的AlexNet降低了5%，ZFNet是由 Matthew D.Zeiler 和 Rob Fergus 在 AlexNet 基础上提出的大型卷积网络。ZFNet解释了为什么卷积神经网络可以在图像分类上表现的如此出色，以及研究了如何优化卷积神经网络。ZFNet提出了一种可视化的技术，通过可视化，我们就可以了解卷积神经网络中间层的功能和分类器的操作，这样就就可以找到较好的模型。ZFNet还进行消融实验来研究模型中的每个组件，它会对模型有什么影响。

ZFNet的网络结构
$t=(\text { conv }+\text { relu }+\text { maxpooling }) \times 2+(\text { conv }+\text { relu }) \times 3+f c \times 2+\text { softmax }$
ZFNet 仅仅是在 AlexNet 上做了一些调参：
改变了 AlexNet 的第一层，即将卷积核的尺寸大小 11x11 变成 7x7，并且将步长 4 变成了 2。
在这里插入图片描述
ZFNet实际上是微调（Fine-tuning）了AlexNet, 并通过反卷积（Deconvolution） 的方式可视化各层的输出特征图，进一步解释了卷积操作在大型网络中效果显著的原因。

对卷积结果的可视化
作者将卷积核的计算结果（feature maps）映射回原始的像素空间（映射的方法为反卷积，反池化）并进行可视化。例如，下图Layer1区域最左上角的九宫格代表第一层卷积计算得到的前九张feature maps映射回原图像素空间后的可视化（称为f9）。第一层卷积使用96个卷积核，这意味着会得到96张feature maps，这里的前九张feature maps是指96个卷积核中值最大的9个卷积核对应生成的feature maps（这里称这9个卷积核为k9，即，第一层卷积最关注的前九种特征）。可以发现，这九种特征都是颜色和纹理特征，即蕴含语义信息少的结构性特征。
为了证明这个观点，作者又将数据集中的原始图像裁剪成小图，将所有的小图送进网络中，得到第一层卷积计算后的feature maps。统计能使k9中每个kernel输入计算结果最大的前9张输入小图，即9*9=81张，如下图红框中右下角所示。结果表明刚刚可视化的f9和这81张小图表征的特征是相似的，且一一对应的。由此证明卷积网络在第一层提取到的是一些颜色，纹理特征。

同理，观察Layer2和Layer3的可视化发现，第二次和第三次卷积提取到的特征蕴含的语义信息更丰富，不再是简单的颜色纹理信息，而是一些结构化的特征，例如蜂窝形状，圆形，矩形等等。那么网络的更深层呢？我们看下图：

在网络的深层，如第四层，第五层卷积提取到的是更高级的语义信息，如人脸特征，狗头特征，鸟腿鸟喙特征等等。
最后，越靠近输出端，能激活卷积核的输入图像相关性越少（尤其是空间相关性），例如Layer5中，最右上角的示例：feature map中表征的是一种绿色成片的特征，可是能激活这些特征的原图相关性却很低（原图是人，马，海边，公园等，语义上并不相干）；其实这种绿色成片的特征是‘草地’，而这些语义不相干的图片里都有‘草地’。‘草地’是网络深层卷积核提取的是高级语义信息，不再是低级的像素信息，空间信息等等。
网络中对不同特征的学习速度
如下图所示，横轴表示训练轮数，纵轴表示不同层的feature maps映射回像素空间后的可视化结果：

由此可以看出，low-level的特征(颜色，纹理等)在网络训练的训练前期就可以学习到，即更容易收敛；high-level的语义特征在网络训练的后期才会逐渐学到。由此展示了不同特征的进化过程。这也是一个合理的过程，毕竟高级的语义特征，要在低级特征的基础上学习提取才能得到。
图像的平移、缩放、旋转对CNN的影响
下图是探究图片平移对卷积模型影响的实验，a1是五张不同的图片经过不同大小的左右平移后的结果。
a2是原始图片与经过平移后的图片分别送进卷积网络后，第一层卷积计算得到的feature maps之间的欧氏距离，可以看出当图片平移0个像素时（即图中横轴=0处），距离最小（等于0）。其他位置随着左右平移，得到的距离都会陡增或陡减。五条彩色曲线分别代表五张不同的原始图片。
a3是原始图片与经过平移后的图片分别送进卷积网络后，第七层卷积计算得到的feature maps之间的欧氏距离，可以看出趋势与a2类似；但是，增减的曲线变换更平缓，这一定程度上说明了网络的深层提取的是高级语义特征，而不是低级的颜色，纹理，空间特征。这种语义信息不会随着平移操作而轻易改变，例如狗的图片平移后还是狗。
这个性质叫做：卷积拥有良好的平移不变性。
最后，a4表示的是原始图片与经过平移后的图片分别送进卷积网络后，卷积网络最后的识别结果。可以看出识别准确率是相对平稳的，且在横轴x=0时，识别准确率较高（此时，图片不平移，识别物体基本在图片中心位置）。

下图探究图片缩放对卷积模型影响的实验，实验方法和表述与上面探讨平移时的设置类似。结果表明，网络的浅层相较于网络的深层对缩放操作更敏感；且最终的识别准确率较平稳。这个趋势跟探究平移操作对卷积模型影响的趋势类似，即：卷积操作也具有良好的缩放不变性。

下图是探究图片旋转对卷积模型影响的实验，可以看出旋转操作对卷积的影响正好与平移和缩放相反：卷积第一层对旋转的敏感程度较低，第七层对旋转的敏感程度高。这是因为颜色，纹理这些低级特征旋转前后还是相似的特征；但是目标级别的高级语义特征却不行，例如“特征9”旋转180°后变成了“特征6”. 看最终的识别准确率曲线也能发现旋转0°和350°时模型的识别准确率最高，因为此时旋转后模型最接近原始图片。对于某些存在对称性质的特征，例如原图中的电视，在旋转90°，180°，270°时都有不错的识别准确率。因此，卷积操作不具有良好的旋转不变性。

总结：
卷积的平移不变性是从滑动遍历这个操作带来的，不管一个特征出现在图中的什么位置，卷积核都可以通过滑动的方式，滑动到特征上面做识别。
卷积的缩放不变性则是从网络的层级结构中获得，不同层的卷积操作拥有不同尺寸的计算感受野。至于旋转不变性缺失找不到对应的操作。
那么，为什么现在的一些成熟项目，例如人脸识别，图像分类等依然可以对旋转的图片做识别呢？这是因为我们用大量的训练数据，旋转不变性可以从大量的训练数据中得到。其实，不仅是旋转不变性，卷积本身计算方法带来的平移不变性和缩放不变性也是脆弱的，大部分也是从数据集中学习到的。深度学习是一种基于数据驱动的算法。
改变卷积核的大小
ZFNet通过对AelxNet可视化发现，由于第一层的卷积核尺寸过大导致某些特征图失效（失效指的是一些值太大或太小的情况，容易引起网络的数值不稳定性，进而导致梯度消失或爆炸。图中的体现是（a）中的黑白像素块）。

此外，由于第一层的步长过大，导致第二层卷积结果出现棋盘状的伪影（例如（d）中第二小图和倒数第三小图）。因此ZFNet做了对应的改进。即将第一层 11X11步长为4的卷积操作变成 7X7步长为2的卷积。

遮挡对卷积模型的影响
ZFNet通过对原始图像进行矩形遮挡来探究其影响，如下图所示：

b表示计算遮挡后的图像经过第五个卷积层后得到的feature map 值的总和。红色代表更大的值。由此可以看出来卷积计算后的特征图也是保留了原始数据中不同类别对象在图像中的空间信息。
c左上角的小图是经过第五个卷积后值最大的特征图的deconv可视化结果。由此实例2（可视化结果为英文字母或汉字，但原图的标签是“车轮”）可以看出卷积后值最大的特征图不一定是对分类最有作用的。c中的其他小图是统计数据集中其他图像可以使该卷积核输出最大特征图的deconv可视化结果。
d表示灰色滑块所遮挡的位置对图像正确分类的影响，红色代表分类成功的可能性大。例如博美犬的图像，当灰色滑块遮挡到博美犬的面部时，模型对博美犬的识别准确率大幅度下降。
e表示模型对遮挡后的图像的分类结果是什么。还拿博美犬的例子，灰色遮挡在图片中非狗脸的位置时，都不影响模型将其正确分类为博美犬（大部分都是蓝色标签，除了遮挡滑动到狗脸位置时）。
这个遮挡实验证明，深层的网络提取的是语义信息（例如狗的类属），而不是low-level的空间特征。因此对随机遮挡可以不敏感。

ZFNet的实现代码

import torch.nn as nn
import torch 

# 与AlexNet有两处不同： 1. 第一次的卷积核变小，步幅减小。 2. 第3，4，5层的卷积核数量增加了。
class ZFNet(nn.Module):
    def __init__(self, num_classes=1000, init_weights=False):
        super(ZFNet, self).__init__()
        self.features = nn.Sequential(
            nn.Conv2d(3, 96, kernel_size=7, stride=2, padding=2),  # input[3, 224, 224]  output[96, 111, 111]
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),                  # output[96, 55, 55]

            nn.Conv2d(96, 256, kernel_size=5, padding=2),           # output[256, 55, 55]
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),                  # output[256, 27, 27]

            nn.Conv2d(256, 512, kernel_size=3, padding=1),          # output[512, 27, 27]
            nn.ReLU(inplace=True),

            nn.Conv2d(512, 1024, kernel_size=3, padding=1),          # output[1024, 27, 27]
            nn.ReLU(inplace=True),

            nn.Conv2d(1024, 512, kernel_size=3, padding=1),          # output[512, 27, 27]
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),                  # output[512, 13, 13]
        )
        self.classifier = nn.Sequential(
            nn.Dropout(p=0.5),
            nn.Linear(512 * 13 * 13, 4096),
            nn.ReLU(inplace=True),

            nn.Dropout(p=0.5),
            nn.Linear(4096, 4096),
            nn.ReLU(inplace=True),
            
            nn.Linear(4096, num_classes),
        )
        if init_weights:
            self._initialize_weights()

    def forward(self, x):
        x = self.features(x)
        x = torch.flatten(x, start_dim=1)
        x = self.classifier(x)
        return x

    def _initialize_weights(self):
        for m in self.modules():
            if isinstance(m, nn.Conv2d):
                nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu')
                if m.bias is not None:
                    nn.init.constant_(m.bias, 0)
            elif isinstance(m, nn.Linear):
                nn.init.normal_(m.weight, 0, 0.01)
                nn.init.constant_(m.bias, 0)

def zfnet(num_classes): 
    model = ZFNet(num_classes=num_classes)
    return model

VGGNet：使用块的网络 (2014)

VGGNet概述

📃Paper : 《Very Deep Convolutional Networks for Large-Scale Image Recognition》
💻Code: pytorch/vision

VGGNet由牛津大学计算机视觉组合和Google DeepMind公司研究员一起研发的深度卷积神经网络。它探索了卷积神经网络的深度和其性能之间的关系，通过反复的堆叠33的小型卷积核和22的最大池化层，成功的构建了16~19层深的卷积神经网络。VGGNet获得了ILSVRC 2014年比赛的亚军和定位项目的冠军，在top5上的错误率为7.5%。目前为止，VGGNet依然被用来提取图像的特征。
VGGNet全部使用3*3的卷积核和2*2的池化核，通过不断加深网络结构来提升性能。网络层数的增长并不会带来参数量上的爆炸，因为参数量主要集中在最后三个全连接层中。同时，两个3*3卷积层的串联相当于1个5*5的卷积层，3个3*3的卷积层串联相当于1个7*7的卷积层，即3个3*3卷积层的感受野大小相当于1个7*7的卷积层。但是3个3*3的卷积层参数量只有7*7的一半左右，同时前者可以有3个非线性操作，而后者只有1个非线性操作，这样使得前者对于特征的学习能力更强。
VGGNet作者总结出LRN层作用不大，越深的网络效果越好，1*1的卷积也是很有效的，但是没有3*3的卷积效果好，因为3*3的网络可以学习到更大的空间特征。

VGGNet的网络结构
在这里插入图片描述
VGGNet一共有六种不同的网络结构A(VGG11)、A-LRN（VGG11-LRN）、B(VGG13)、C(VGG16-1)、D(VGG16-3)、E(VGG-19)，这6种网络结构相似，都是由5层卷积层、3层全连接层组成，其中区别在于每个卷积层的子层数量不同，从A至E依次增加（子层数量从1到4），总的网络深度从11层到19层（添加的层以粗体显示）。
VGG11-LRN表示在第一层中采用了LRN的VGG-11;VGG16-1表示后三组卷积块中最后一层卷积采用卷积核尺寸为1x1, 相应的VGG16-3表示卷积核尺寸为3x3。
表格中的卷积层参数表示为“conv⟨感受野大小⟩-通道数⟩”，例如con3-128，表示使用3x3的卷积核，通道数为128。为了简洁起见，在表格中不显示ReLU激活功能。

以VGG-16为例，架构图如下：
在这里插入图片描述
VGG-16架构：13个卷积层+3个全连接层，前5段卷积网络（标号1-5），最后一段全连接网络（标号6-8），网络总共参数数量大约138M左右。。

(1) 输入层(Input)：图像大小为224×224×3

(2) 卷积层1+ReLU：conv3 - 64（卷积核的数量）：kernel size:3 stride:1 pad:1
像素：（224-3+2×1）/1+1=224 输出为224×224×64 64个feature maps
参数：（3×3×3）×64+64=1792

(3) 卷积层2+ReLU：conv3 - 64：kernel size:3 stride:1 pad:1
像素：（224-3+1×2）/1+1=224 输出为224×224×64 64个feature maps
参数： (3×3×64×64)+64=36928

(4) 最大池化层： pool2： kernel size:2 stride:2 pad:0
像素：（224-2）/2 = 112 输出为112×112×64，64个feature maps
参数： 0

(5) 卷积层3+ReLU：.conv3-128:kernel size:3 stride:1 pad:1
像素：（112-3+2×1）/1+1 = 112 输出为112×112×128，128个feature maps
参数： (3×3×64×128)+128=73856

(6) 卷积层4+ReLU：conv3-128:kernel size:3 stride:1 pad:1
像素：（112-3+2×1）/1+1 = 112 输出为112×112×128，128个feature maps
参数： (3×3×128×128)+128=147584

(7) 最大池化层：pool2: kernel size:2 stride:2 pad:0
像素：（112-2）/2+1=56 输出为56×56×128，128个feature maps。
参数： 0

(8) 卷积层5+ReLU：conv3-256: kernel size:3 stride:1 pad:1
像素：（56-3+2×1）/1+1=56 输出为56×56×256，256个feature maps
参数： (3×3×128×256)+256=295168

(9) 卷积层6+ReLU：conv3-256: kernel size:3 stride:1 pad:1
像素：（56-3+2×1）/1+1=56 输出为56×56×256，256个feature maps，
参数： (3×3×256×256)+256=590080

(10) 卷积层7+ReLU：conv3-256: kernel size:3 stride:1 pad:1
像素：（56-3+2×1）/1+1=56 输出为56×56×256，256个feature maps
参数： (3×3×256×256)+256=590080

(11) 最大池化层：pool2: kernel size:2 stride:2 pad:0
像素：（56 - 2）/2+1=28 输出为28×28×256，256个feature maps
参数： 0

(12) 卷积层8+ReLU：conv3-512:kernel size:3 stride:1 pad:1
像素：（28-3+2×1）/1+1=28 输出为28×28×512，512个feature maps
参数： (3×3×256×512)+512=1180160

(13) 卷积层9+ReLU：conv3-512:kernel size:3 stride:1 pad:1
像素：（28-3+2×1）/1+1=28 输出为28×28×512，512个feature maps
参数： (3×3×512×512)+512=2359808

(14) 卷积层10+ReLU：conv3-512:kernel size:3 stride:1 pad:1
像素：（28-3+2×1）/1+1=28 输出为28×28×512，512个feature maps
参数： (3×3×512×512)+512=2359808

(15) 最大池化层：pool2: kernel size:2 stride:2 pad:0，输出为14×14×512，512个feature maps。
像素：（28-2）/2+1=14 输出为14×14×512
参数： 0

(16) 卷积层11+ReLU：conv3-512:kernel size:3 stride:1 pad:1
像素：（14-3+2×1）/1+1=14 输出为14×14×512，512个feature maps
参数： (3×3×512×512)+512=2359808

(17) 卷积层12+ReLU：conv3-512:kernel size:3 stride:1 pad:1
像素：（14-3+2×1）/1+1=14 输出为14×14×512，512个feature maps
参数： (3×3×512×512)+512=2359808

(18) 卷积层13+ReLU：conv3-512:kernel size:3 stride:1 pad:1
像素：（14-3+2×1）/1+1=14 输出为14×14×512，512个feature maps，
参数： (3×3×512×512)+512=2359808

(19) 最大池化层：pool2:kernel size:2 stride:2 pad:0
像素：（14-2）/2+1=7 输出为7×7×512，512个feature maps
参数： 0

(20) 全连接层1+ReLU+Dropout：有4096个神经元或4096个feature maps
像素：1×1×4096
参数：7×7×512×4096 = 102760448

(21) 全连接层2+ReLU+Dropout：有4096个神经元或4096个feature maps
像素：1×1×4096
参数：4096×4096 = 16777216

(22) 全连接层3：有1000个神经元或1000个feature maps
像素：1×1×1000
参数：4096×1000=4096000

(23) 输出层(Softmax)：输出识别结果，看它究竟是1000个可能类别中的哪一个。

VGGNet的代码实现
经典卷积神经网络的基本组成部分是下面的这个序列：

带填充以保持分辨率的卷积层；
非线性激活函数，如ReLU；
汇聚层，如最大汇聚层。
作者使用了带有3×3卷积核、填充为1（保持高度和宽度）的卷积层，和带有2×2汇聚窗口、步幅为2（每个块后的分辨率减半）的最大汇聚层。在下面的代码中，我们定义了一个名为vgg_block的函数来实现一个VGG块。

该函数有三个参数，分别对应于卷积层的数量num_convs、输入通道的数量in_channels和输出通道的数量out_channels

import torch
from torch import nn
from d2l import torch as d2l

def vgg_block(num_convs, in_channels, out_channels):
    layers = []
    for _ in range(num_convs):
        layers.append(nn.Conv2d(in_channels, out_channels,
                                kernel_size=3, padding=1))
        layers.append(nn.ReLU())
        in_channels = out_channels
    layers.append(nn.MaxPool2d(kernel_size=2,stride=2))
    return nn.Sequential(*layers)

VGG网络可以分为两部分：第一部分主要由卷积层和汇聚层组成，第二部分由全连接层组成。
在这里插入图片描述

VGG神经网络连接几个VGG块（在vgg_block函数中定义）。其中有超参数变量conv_arch。该变量指定了每个VGG块里卷积层个数和输出通道数。全连接模块则与AlexNet中的相同。

原始VGG网络有5个卷积块，其中前两个块各有一个卷积层，后三个块各包含两个卷积层。第一个模块有64个输出通道，每个后续模块将输出通道数量翻倍，直到该数字达到512。由于该网络使用8个卷积层和3个全连接层，因此它通常被称为VGG-11。

conv_arch = ((1, 64), (1, 128), (2, 256), (2, 512), (2, 512))

下面的代码实现了VGG-11。可以通过在conv_arch上执行for循环来简单实现。

def vgg(conv_arch):
    conv_blks = []
    in_channels = 1
    # 卷积层部分
    for (num_convs, out_channels) in conv_arch:
        conv_blks.append(vgg_block(num_convs, in_channels, out_channels))
        in_channels = out_channels

    return nn.Sequential(
        *conv_blks, nn.Flatten(),
        # 全连接层部分
        nn.Linear(out_channels * 7 * 7, 4096), nn.ReLU(), nn.Dropout(0.5),
        nn.Linear