1. 环境准备:从零开始的硬件与软件检查清单
想在Ubuntu 22上玩转Qwen3 32B这样的大模型,第一步不是急着敲命令,而是得先看看自家的“装备”够不够格。这就像你要跑一个大型3A游戏,总得先确认显卡和内存是不是达标,对吧?我刚开始接触大模型部署的时候,也犯过这个错误,兴冲冲地就开始装,结果跑到一半内存爆了,或者CUDA版本不兼容,折腾半天又得重头再来,非常浪费时间。所以,咱们先把准备工作做扎实。
首先,硬件是基础。Qwen3 32B模型本身参数规模就很大,加载到内存里就需要几十个GB的空间。官方推荐32GB以上的系统内存,这真不是说着玩的。我实测过,在只有16GB内存的机器上,光是加载模型权重就可能触发系统的OOM(内存溢出)杀手,直接把进程给终止了。所以,如果你的机器内存是16GB,我强烈建议先升级硬件,或者考虑用参数更小的模型版本。存储方面,除了模型文件本身(大概60-70GB),你还需要为虚拟环境、各种库以及运行时的缓存预留空间,准备200GB以上的可用磁盘空间是一个比较稳妥的选择。
至于GPU,这是性能的关键。vLLM的核心优势就是利用GPU进行高效的注意力计算和内存管理。对于Qwen3 32B,如果你想获得流畅的推理体验,一块显存足够大的NVIDIA显卡是必须的。像RTX 4090(24GB显存)算是当前性价比不错的“入场券”。如果你有多张卡,比如两张24GB显存的卡,那就可以通过后面会讲到的张量并行(Tensor Parallelism)来进一步提升速度。检查GPU驱动是否安装的最简单命令就是 nvidia-smi。如果这个命令能正常输出显卡信息,说明驱动基本OK。
1.1 系统依赖与Python环境搭建
硬件过关了,咱们就来搞定软件环境。Ubuntu 22.04 LTS本身是一个很稳定的基础,我们首先需要更新系统包并安装一些编译和开发工具。
sudo apt update
sudo apt upgrade -y
sudo apt install -y python3-pip python3-dev git build-essential libssl-dev libffi-dev
这里安装的 build-essential 和 python3-dev 非常重要,因为后续安装的一些Python包(比如vLLM本身)可能需要编译原生扩展。接下来,我强烈建议你使用 venv 创建一个独立的Python虚拟环境。这是Python开发中的最佳实践,可以避免不同项目间的包版本冲突。想象一下,你系统里原来有个项目用PyTorch 1.0,而vLLM需要PyTorch 2.0,如果不隔离,就会一团糟。
python3 -m venv qwen_vllm_env
source qwen_vllm_env/bin/activate
激活虚拟环境后,你的命令行提示符前面通常会显示环境名 (qwen_vllm_env),这表示你后续的所有pip安装都只影响这个独立环境。
1.2 CUDA与PyTorch的“对齐”艺术
这是新手最容易踩坑的地方。vLLM、PyTorch和你的NVIDIA驱动、CUDA版本之间必须保持兼容。我个人的经验是:先去PyTorch官网查看当前稳定版推荐的CUDA版本。比如,在撰写本文时,PyTorch 2.3推荐安装CUDA 12.1。但你的显卡驱动能支持的最高CUDA版本是有限的,用 nvidia-smi 命令查看右上角的“CUDA Version”信息,那指的是驱动支持的最高CUDA运行时版本。
我的建议是,如果你不是特别需要某个新特性,选择一个经过广泛验证的稳定组合。例如,PyTorch 2.1 + CUDA 11.8就是非常经典的组合,社区支持好,遇到问题也容易搜到解决方案。安装PyTorch时,一定要使用官网提供的、对应你CUDA版本的命令。不要简单地 pip install torch,那样会装CPU版本。
# 例如,安装支持CUDA 11.8的PyTorch 2.1
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
安装完成后,务必进入Python交互环境验证一下:
import torch
print(torch.__version__) # 查看PyTorch版本
print(torch.cuda

65

被折叠的 条评论
为什么被折叠?



