[Pytorch框架] 5.3 从Fashion MNIST到实战：构建高效CNN分类器的关键步骤

最新推荐文章于 2026-06-26 09:33:21 发布

原创

最新推荐文章于 2026-06-26 09:33:21 发布 · 936 阅读

标签

#PyTorch #Fashion MNIST #CNN #图像分类

开发板推荐：天空星STM32F407VET6开发板

超高性价比 STM32主控 | 超高主频 | 一板兼容百芯 | 比赛神器 | 沉金彩色丝印

点击查看

1. 从“Hello World”到实战：为什么选择Fashion MNIST？

如果你刚开始接触深度学习，尤其是图像分类，那你一定听说过MNIST手写数字数据集。它就像编程界的“Hello World”，简单直接，能让你快速跑通一个模型。但说实话，MNIST太“干净”了，数字的笔画结构相对固定，模型很容易就能达到99%以上的准确率，这容易给人一种“深度学习不过如此”的错觉。等你真正去处理现实中的图片，比如识别猫狗、区分商品，就会发现根本不是一回事。

所以，我们今天的主角是 Fashion MNIST。它可以说是MNIST的“升级版”或“实战预演版”。它包含了10个类别的时尚单品灰度图像，比如T恤、裤子、外套、凉鞋等，每张图片也是28x28像素。听起来好像只是换了个内容？差别可大了。

我刚开始用它的时候，就踩过坑。用MNIST上表现很好的简单模型，直接套到Fashion MNIST上，准确率可能连85%都不到。为什么？因为时尚单品的图像复杂度高多了。一件“衬衫”（Shirt）和一件“外套”（Coat）在轮廓上可能很像；一个“手提包”（Bag）在图片里可能只占一小块区域，特征不明显。这些挑战，才是你未来在真实项目中会遇到的。

因此，用Fashion MNIST来学习构建卷积神经网络（CNN），是一个绝佳的起点。它既保留了数据规整、易于加载的优点，又引入了足够的真实世界复杂性，迫使你去思考网络设计、调参和优化。通过PyTorch这个框架，我们可以一步步地把数据变成模型，再把模型训练成一个可靠的“时尚品鉴师”。整个过程，你会清晰地看到每个环节的作用，这才是真正“上手”的感觉，而不是仅仅复制粘贴代码。

接下来，我们就从零开始，手把手构建一个高效的CNN分类器。我会分享我在这个过程中总结的关键步骤和容易翻车的地方，保证你跟着做一遍，不仅能跑通代码，更能理解背后的“所以然”。

2. 数据准备：不仅仅是加载，更是理解

万事开头难，但好的开始是成功的一半。在深度学习里，“好的开始”就是处理好你的数据。对于Fashion MNIST，我们首先要把它“请”到我们的代码环境里，并以一种PyTorch“喜欢”的方式喂给模型。

2.1 获取与初探数据

Fashion MNIST数据集非常友好，你可以直接从Kaggle官网下载，或者更简单，利用PyTorch内置的torchvision.datasets模块来在线获取。我强烈推荐后者，因为它帮你处理好了下载、解压等一系列琐事。

import torch
import torchvision
import torchvision.transforms as transforms

# 定义数据预处理转换：将图像数据转换为Tensor，并做归一化
transform = transforms.Compose([
    transforms.ToTensor(), # 将PIL图像或numpy数组转换为Tensor，并自动缩放到[0,1]
    transforms.Normalize((0.5,), (0.5,)) # 对单通道灰度图进行归一化，使其分布接近均值为0，标准差为1
])

# 下载并加载训练集和测试集
train_dataset = torchvision.datasets.FashionMNIST(root='./data', train=True, download=True, transform=transform)
test_dataset = torchvision.datasets.FashionMNIST(root='./data', train=False, download=True, transform=transform)

运行上面几行代码，数据就自动下载到./data目录下了。这里的transform是关键。ToTensor()不仅转换格式，还把像素值从0-255压缩到0-1之间，这是神经网络训练的常规操作。Normalize则进一步将数据分布调整到均值为0、标准差为1附近，这能大大加速模型的收敛速度。你可以把它想象成给数据“瘦身”和“标准化”，让模型学习起来更轻松。

数据加载进来后，别急着往模型里塞。先看看它长什么样，心里有个数。

import matplotlib.pyplot as plt
import numpy as np

# 数据集的类别标签
classes = ('T-shirt/top', 'Trouser', 'Pullover', 'Dress', 'Coat',
           'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle boot')

# 随机查看一些训练图片
figure = plt.figure(figsize=(8, 8))
cols, rows = 4, 4
for i in range(1, cols * rows + 1):
    sample_idx = torch.randint(len(train_dataset), size=(1,)).item()
    img, label = train_dataset[sample_idx]
    figure.add_subplot(rows, cols, i)
    plt.title(classes[label])
    plt.axis("off")
    # 注意：img是Tensor，形状为[C, H, W]，显示前需要转换维度并取消归一化
    plt.imshow(img.squeeze(), cmap='gray')
plt.show()

这段代码会显示一个4x4的图片网格。多运行几次，你会发现同一个类别（比如“衬衫”）的图片，角度、款式、明暗都有差异。这就是我们模型要学习的“多样性”。同时，你也能直观感受到“衬衫”和“外套”确实容易混淆，这暗示了我们可能需要一个更有辨别力的网络。

2.2 构建数据管道：DataLoader的核心作用

有了数据集，我们还需要一个高效的数据供给管道。这就是torch.utils.data.DataLoader的用武之地。它负责三件大事：批处理（Batching）、打乱顺序（Shuffling）和多进程加载（Multiprocessing）。

BATCH_SIZE = 64

train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True, num_workers=2)
test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=BATCH_SIZE, shuffle=False, num_workers=2)

batch_size: 这是最重要的超参数之一。它决定了一次喂给模型多少张图片。设得太小（比如4、8），模型更新频繁，但波动大，训练慢；设得太大，可能内存（GPU显存）扛不住，而且可能陷入局部最优。对于Fashion MNIST，64或128是个不错的起点。如果你的程序报“CUDA out of memory”错误，第一反应就是减小batch_size。
shuffle=True: 只在训练集上使用。它会在每个epoch开始时，随机打乱数据的顺序。这非常重要，能防止模型学习到数据顺序带来的虚假规律，让训练更充分、泛化能力更强。测试集不需要打乱。
num_workers: 设置用于加载数据的子进程数。大于0可以加速数据从硬盘到内存的读取，尤其是在数据预处理复杂时。但也不是越大越好，通常设置为CPU核心数附近。

现在，数据就像流水线上的零件，被DataLoader整齐地分批、打包，准备送入模型的生产线。这个环节看似简单，但设置不当会直接影响训练效率和最终效果。我刚开始就曾因为shuffle

开发板推荐：天空星STM32F407VET6开发板

超高性价比 STM32主控 | 超高主频 | 一板兼容百芯 | 比赛神器 | 沉金彩色丝印

点击查看