1. 为什么你需要自己编译ONNX Runtime?
如果你正在玩AI模型,尤其是想把训练好的模型部署到各种设备上跑起来,那你肯定绕不开ONNX Runtime。它是一个高性能的推理引擎,能让你用PyTorch、TensorFlow等框架训练出的模型,在各种硬件上飞起来。官方提供了很多预编译的包,直接用pip install onnxruntime或者onnxruntime-gpu省事得很。那我为什么还要折腾源码编译呢?这事儿我踩过不少坑,也尝到了不少甜头。
首先,预编译的包不一定适合你的“独特”环境。比如,你手头有一台老当益壮的NVIDIA GTX 1070显卡,或者是在Jetson Nano、TX2这类边缘计算设备上做部署。官方的GPU包通常是针对较新的、主流的CUDA架构和版本编译的。如果你的硬件比较特殊,或者CUDA环境版本对不上,直接安装的包可能无法调用GPU,或者性能达不到最优。自己编译,就能针对你的显卡计算能力(Compute Capability)进行“量身定制”,榨干硬件的每一分性能。
其次,你需要一些“非主流”的功能。ONNX Runtime支持很多执行提供者(Execution Provider, EP),比如用Intel的DNNL来加速CPU推理,用TensorRT来做极致优化。但官方PyPI包可能只包含了最通用的CPU和CUDA EP。如果你想启用OpenVINO、DirectML、或者ARM NN这些针对特定平台的EP,自己编译几乎是唯一的选择。
最后,深度定制和调试需求。有时候你需要修改一些源码,或者想深入理解内部机制,甚至是为了排查某个诡异的问题。拥有一个从源码构建的环境,就像拥有了汽车的维修手册和全套工具,心里特别有底。我记得有一次在嵌入式设备上遇到一个内存对齐问题,要不是能自己编译并打开调试符号,根本不可能定位到问题所在。
所以,这篇指南就是为你准备的,无论你是想在Windows上为你的游戏本编译一个带CUDA的版本,还是在Linux服务器上为整个团队构建一个统一的推理环境,甚至是给Jetson系列这种ARM平台交叉编译,我都会手把手带你走一遍。咱们不搞那些云里雾里的理论,直接上命令、讲参数、说清楚每个选项背后的“坑”在哪里。
2. 编译前的战场准备:环境与依赖
编译就像打仗,兵马未动,粮草先行。把环境准备好,能避免80%的“编译已停止工作”这类令人崩溃的错误。
2.1 基础武器库:CMake、编译器和Python
无论哪个平台,这三样是基石。
- CMake:ONNX Runtime使用CMake作为构建系统。版本不能太低,建议使用3.18或更高版本。太老的CMake可能无法识别一些新的CUDA或交叉编译选项。去CMake官网下载最新版,或者用包管理器安装(如Ubuntu的
apt-get install cmake)。 - 编译器:
- Windows:主力是Visual Studio。官方推荐VS 2019或更高版本。注意,你需要安装的不是“Visual Studio Code”,而是完整的“Visual Studio” IDE,并在安装时勾选“使用C++的桌面开发”工作负载。编译时,我们需要用到它的MSVC编译器和
nmake或msbuild工具。 - Linux/macOS:主流是GCC或Clang。同样,版本不能太旧。在Ubuntu上,
gcc-9或gcc-10是比较安全的选择。
- Windows:主力是Visual Studio。官方推荐VS 2019或更高版本。注意,你需要安装的不是“Visual Studio Code”,而是完整的“Visual Studio” IDE,并在安装时勾选“使用C++的桌面开发”工作负载。编译时,我们需要用到它的MSVC编译器和
- Python:ONNX Runtime的编译脚本是用Python写的,而且最终生成的wheel包(
pip安装包)也需要Python环境。建议使用Python 3.8或3.9。别忘了安装pip和wheel包。
2.2 GPU战士的专属装备:CUDA与cuDNN
如果你要编译CUDA版本,这就是核心。
- CUDA Toolkit:这是NVIDIA的通用并行计算平台。版本匹配是重中之重! ONNX Runtime有明确的版本支持范围。根据官方文档和我的经验,CUDA 10.2、11.x系列是支持得比较好的。你需要确认两件事:
- 你的NVIDIA显卡驱动版本是否支持你想要安装的CUDA版本。(用
nvidia-smi命令可以查看驱动版本和支持的最高CUDA版本)。 - 你下载的ONNX Runtime源码分支是否支持该CUDA版
- 你的NVIDIA显卡驱动版本是否支持你想要安装的CUDA版本。(用

1万+

被折叠的 条评论
为什么被折叠?



