1. 环境准备:从零开始的硬件与软件基础
想在 Ubuntu 22 上跑通 Qwen3 32B 这样的大模型,第一步不是急着敲命令,而是得把“地基”打好。我见过太多朋友兴冲冲地开始,结果卡在环境问题上,一折腾就是大半天。所以,咱们先花点时间,把系统、驱动、依赖这些基础工作做扎实,后面部署起来才能一路畅通。
1.1 硬件要求与系统检查
首先,你得清楚自己要“喂”的是什么级别的模型。Qwen3 32B,光看名字就知道是个大家伙。32B 指的是 320 亿参数,这可不是普通家用电脑能轻松驾驭的。我实测下来,想获得流畅的推理体验,硬件门槛是真实存在的。
核心硬件建议:
- GPU(重中之重):这是性能的瓶颈。显存是关键,模型权重加载、KV Cache(一个用于加速推理的内存缓存)都需要大量显存。强烈建议使用至少 24GB 显存的显卡,比如 NVIDIA RTX 4090。如果你想用多卡并行来提升速度或处理更长文本,那么两张甚至四张 24G 卡会是更稳妥的选择。用
nvidia-smi命令可以快速查看你的显卡型号和显存。 - 内存(RAM):系统内存是第二道保障。即使模型主要放在 GPU 显存里,系统在加载模型、处理数据流时也需要足够的内存。32GB 是起步线,64GB 或以上会让你更从容,尤其是在处理复杂任务或同时运行其他服务时。
- 存储(硬盘):模型文件本身就有几十个 GB(比如 Qwen3-32B 的权重文件大约 60-70GB)。你需要为模型、Python 环境、可能的交换空间(Swap)预留充足空间。准备 200GB 以上的可用固态硬盘(SSD)空间是明智的,SSD 的读写速度能显著加快模型加载过程。
检查你的 Ubuntu 22.04 系统版本:
lsb_release -a
确保系统是最新的,运行 sudo apt update && sudo apt upgrade -y 进行更新。一个干净、更新的系统能避免很多奇怪的依赖冲突。
1.2 安装必备的系统工具与驱动
基础系统工具是编译和安装其他软件的前提。打开终端,一次性安装好它们:
sudo apt update
sudo apt install -y python3-pip python3-dev git build-essential libssl-dev libffi-dev curl wget
这里 python3-dev 和 build-essential 包含了编译 Python 扩展(比如后面某些依赖)所需的头文件和工具链,非常重要。
接下来是 NVIDIA 驱动和 CUDA。这是 GPU 加速的基石。我推荐通过系统自带的“附加驱动”或 NVIDIA 官方仓库来安装,比从官网下载 runfile 更省心。
- 首先,添加 NVIDIA 官方仓库并安装驱动(以 CUDA 12.1 为例,这是目前较稳定的版本):
注意:驱动版本号(545)和 CUDA 版本(12-1)可能会随时间变化,你可以先搜索一下当前推荐的稳定组合。# 添加仓库密钥 curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg # 添加仓库 curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list sudo apt update # 安装驱动和 CUDA Toolkit(这会安装较新的驱动和CUDA) sudo apt install -y nvidia-driver-545 cuda-toolkit-12-1 - 安装完成后,重启系统。
- 重启后,验证安装:
nvidia-smi<

3525

被折叠的 条评论
为什么被折叠?



