激光雷达点云与图像平面融合：几何变换与投影技术详解

最新推荐文章于 2026-02-23 00:49:46 发布

原创

最新推荐文章于 2026-02-23 00:49:46 发布 · 711 阅读

标签

#激光雷达 #点云 #图像融合 #自动驾驶

1. 为什么我们需要把激光雷达点云“贴”到图像上？

想象一下，你正在玩一个高级版的“大家来找茬”游戏。你面前有两张图：一张是普通的彩色照片，能清晰地看到路上的车、行人、红绿灯；另一张是密密麻麻的、由无数小点构成的3D“星空图”，这张图能告诉你每个物体离你有多远，但完全看不出颜色和纹理。前者就是相机拍的图像，后者就是激光雷达扫出来的点云。

在自动驾驶或者机器人三维重建这些领域，我们常常既需要“看得清”（图像），又需要“测得准”（距离和三维形状）。单靠相机，我们不知道一个物体到底离我们10米还是50米；单靠激光雷达，我们分不清那个红色的物体是消防栓还是可乐罐。这就好比一个高度近视但触觉敏锐的人，和一个视力5.0但不会估距的人，他们需要合作才能完美地感知世界。

激光雷达点云与图像平面融合，干的就是这件事：把激光雷达测得的每一个三维空间点，精准地“投射”或“贴”到相机拍摄的二维照片上。这样一来，照片上的每个像素，只要它对应着一个激光点，我们就立刻知道了这个像素在真实世界中的精确三维坐标。这个技术是自动驾驶环境感知、高精地图制作、乃至AR/VR等领域最核心的基石之一。

这个过程听起来简单，但做起来就像用一套复杂的数学公式，去完成一次跨越不同感官的“翻译”。核心的翻译官，就是几何变换与投影技术。下面，我就带你一步步拆解这个“翻译”过程，把我自己踩过的坑和总结的经验都分享给你。

2. 第一步：统一语言——坐标系转换（外参标定）

激光雷达和相机是两个独立的设备，它们看待世界的“原点”和“角度”完全不同。激光雷达点云记录的点，其坐标 [X_lidar, Y_lidar, Z_lidar] 是基于激光雷达自身中心的。而相机照片的像素，是基于相机光心的。第一步，就是要把所有点云数据，都转换到相机的“视角”下来说话。

这个转换关系，我们用一个 4x4的齐次变换矩阵 T 来表示，它也叫外参矩阵。这个矩阵包含了旋转（R，一个3x3矩阵）和平移（t，一个3x1向量）两部分信息。

T = [ R | t ]
    [ 0 | 1 ]

具体转换公式如下，这里用到了齐次坐标（在三维坐标后面加一个1），让旋转和平移能用一个矩阵乘法搞定：

[X_cam]   [ R | t ]   [X_lidar]
[Y_cam] = [---|---] * [Y_lidar]
[Z_cam]   [ 0 | 1 ]   [Z_lidar]
[ 1   ]               [   1   ]

这里有个我踩过的大坑：外参矩阵 T 的精度直接决定了后续所有步骤的成败。这个矩阵不是算出来的，而是“标定”出来的。你需要用一个同时能被激光雷达和相机清晰看到的标定板（比如棋盘格），分别采集点云和图像，通过算法反复优化，才能得到高精度的 T。如果标定不准，点云投影到图像上就会整体偏移或旋转，后续融合就无从谈起。我建议使用像Autoware或ROS里的lidar_camera_calibration这类成熟工具包来做，比自己从头写要稳得多。

3. 第二步：从3D世界到2D照片——相机投影模型（内参）

现在，我们有了相机坐标系下的点 [X_cam, Y_cam, Z_cam]。下一步就是把这个三维点，投射到相机的二维成像平面（也就是照片）上。这个过程模拟的是小孔成像原理，核心是相机内参矩阵 K。

内参矩阵 K 长这样：

K = [ f_x   0   c_x ]
    [  0   f_y  c_y ]
    [  0    0    1  ]

f_x, f_y：分别是x轴

最低0.47元/天解锁文章