多目标跟踪MOT技术演进：从SORT到Transformer的算法全景解析

最新推荐文章于 2026-06-29 23:17:35 发布

原创

最新推荐文章于 2026-06-29 23:17:35 发布 · 249 阅读

标签

#多目标跟踪 #计算机视觉 #算法演进 #Transformer

1. 多目标跟踪（MOT）到底是什么？从“找朋友”游戏说起

想象一下，你正在看一场热闹的校园运动会，跑道上同时有几十个运动员在奔跑。你的任务是，不仅要认出他们谁是谁，还要在整场比赛中，无论他们怎么穿插、遮挡，都能持续地喊出每个人的名字。这就是多目标跟踪（MOT）要解决的核心问题。

在计算机视觉里，MOT的定义很明确：给定一段视频，算法需要先在每一帧图像中检测出所有感兴趣的目标（比如人、车），然后为每个目标分配一个唯一的ID，最后在连续的帧之间，将同一个目标关联起来，形成一条完整的运动轨迹。简单说，就是“检测+认人（ID保持）+连线”。

这听起来好像只是目标检测的简单延伸？实则不然。我刚开始接触时也这么想，后来在实际项目中踩了坑才发现，MOT的难点和魅力远超检测。目标检测可以看作静态的“快照”，而MOT是动态的“电影”。电影里会出现各种戏剧冲突：两个目标擦肩而过，外观相似，ID会不会跟错？（这叫ID Switch）。一个人被广告牌完全挡住几秒钟后重新出现，你还能认出他吗？（这是长时遮挡）。摄像头本身在移动，目标运动也不规律，怎么预测他下一帧在哪？（涉及运动模型）。这些才是MOT真正要打的“硬仗”。

所以，MOT绝不仅仅是检测的附属品。它是自动驾驶感知系统判断车辆、行人意图的基础，是智慧安防中分析人员动线的关键，也是机器人理解动态环境的核心。接下来，我们就从最简单的规则讲起，看看算法是如何一步步进化，来应对这些复杂挑战的。

2. 奠基时代：从SORT到DeepSORT，规则派的智慧

早期的MOT算法，思路非常直接，可以概括为“分而治之”的**Tracking-by-Detection (TBD)**范式。这个范式把任务清晰地拆成两步：第一步，用现成的目标检测器（比如YOLO、Faster R-CNN）处理每一帧，得到一堆检测框；第二步，想方设法把这些框和上一帧预测的轨迹匹配起来。这里的核心就是“匹配”的策略。

2.1 SORT：简单即是美

2016年的SORT算法，堪称TBD范式的“教科书式”实现。它的核心思想简单到令人惊讶：

运动预测：对于已有的每条轨迹，用一个卡尔曼滤波器来预测它在当前帧可能出现的位置。卡尔曼滤波是一种高效的算法，可以根据目标过去的运动状态（位置、速度），结合一些运动规律（比如匀速模型），猜出它下一帧在哪。
数据关联：将预测的框和当前帧实际检测到的框放在一起，计算它们两两之间的交并比。如果两个框重叠面积很大（IOU值高），就认为它们很可能是同一个目标。
匹配指派：这是一个“相亲配对”问题：如何让预测框和检测框一一对应，使得总的匹配程度最高？SORT使用了经典的匈牙利算法来解决这个最优分配问题。

我最早复现SORT时，被它的简洁和速度震撼了。在CPU上跑，处理一路高清视频流都能接近实时。它证明了在线、实时的跟踪是可行的。但它的缺点也很快暴露出来：太依赖运动模型了。一旦目标被遮挡，卡尔曼滤波的预测就会“放飞自我”，等目标再出现时，预测框和检测框可能已经离得很远，IOU匹配不上，ID就切换了。而且，它对所有目标“一视同仁”，没法区分两个外观相似、运动轨迹交叉的人。

# 以简化的伪代码展示SORT核心流程
kalman_predictions = predict_next_positions_with_kalman(existing_tracks)
current_detections = detector(current_frame)

# 计算IOU代价矩阵
cost_matrix = compute_iou_matrix(kalman_predictions, current_detections)

# 匈牙利算法匹配
matched_indices, unmatched_tracks, unmatch

最低0.47元/天解锁文章