目标跟踪算法：SORT与DeepSORT的卡尔曼滤波与特征匹配

讲师博文

目标跟踪算法：SORT与DeepSORT的卡尔曼滤波与特征匹配 来源 : 华清远见 2026-04-28

引言

想象一下，你正在观看一段监控视频，视频中有多个人物在移动。你的任务是能够持续地识别出每个人物，即使他们互相遮挡或者暂时离开画面。这就是**目标跟踪**要解决的问题。

目标跟踪是计算机视觉领域的一个重要研究方向，广泛应用于视频监控、自动驾驶、人机交互等领域。今天，我们将深入探讨两个经典的多目标跟踪算法：**SORT**（Simple Online and Realtime Tracking）和它的进化版 **DeepSORT**，重点理解它们如何利用卡尔曼滤波和特征匹配来实现高效的目标跟踪。

什么是目标跟踪？

目标跟踪的核心任务是在视频序列中，为每个检测到的目标分配一个唯一的身份标识（ID），并在整个视频过程中保持这个ID的一致性。

简单来说，目标跟踪需要回答三个问题：

1.**在哪里？** - 目标当前的位置在哪里？

2.**是谁？** - 这个目标是之前跟踪过的哪一个？

3.**去哪里？** - 目标下一时刻可能出现在哪里？

SORT算法：简单而高效

SORT（Simple Online and Realtime Tracking）算法由Bewley等人于2016年提出，正如其名，它以简单、在线、实时著称。SORT的核心思想是结合目标检测与卡尔曼滤波，实现快速的多目标跟踪。

SORT的工作流程

SORT算法的工作流程可以概括为以下几个步骤：

目标跟踪流程示意图

4.**目标检测**：使用目标检测器（如Faster R-CNN、YOLO等）检测当前帧中的所有目标，得到检测框和置信度。

5.**卡尔曼滤波预测**：对已有的每个轨迹，使用卡尔曼滤波预测其在下一帧的位置。

6.**数据关联**：使用匈牙利算法，基于IOU（交并比）将预测的轨迹与当前帧的检测结果进行匹配。

7.**轨迹更新**：对于匹配成功的轨迹，使用卡尔曼滤波更新其状态；对于未匹配的检测结果，创建新轨迹；对于长时间未匹配的轨迹，将其删除。

卡尔曼滤波：预测的核心

卡尔曼滤波是SORT算法的核心组件之一。它是一种递归的估计算法，能够在存在噪声的情况下，对系统的状态进行最优估计。

卡尔曼滤波的基本原理

卡尔曼滤波通过两个关键步骤来工作：**预测**和**更新**。

卡尔曼滤波原理示意图

预测阶段

在预测阶段，卡尔曼滤波根据上一时刻的状态估计和系统的动态模型，预测当前时刻的状态：

公式: \hat{x}_{k|k-1} = F \hat{x}_{k-1|k-1} + B u_{k-1} $$

其中：

$\hat{x}_{k|k-1}$ 是对当前时刻状态的预测

$F$ 是状态转移矩阵，描述状态如何随时间变化

$\hat{x}_{k-1|k-1}$ 是上一时刻的状态估计

$B$ 是控制输入矩阵

$u_{k-1}$ 是控制输入向量

在目标跟踪中，状态通常包括目标的位置（中心坐标）和速度（在x和y方向上的速度）。通过预测，我们可以估计目标下一时刻可能出现在哪里。

更新阶段

在更新阶段，卡尔曼滤波将预测值与实际观测值（传感器数据）进行融合，得到更准确的状态估计：

公式: \hat{x}_{k|k} = \hat{x}_{k|k-1} + K_k (z_k - H_k \hat{x}_{k|k-1}) $$

其中：

$\hat{x}_{k|k}$ 是更新后的状态估计

$K_k$ 是卡尔曼增益，用于平衡预测值和观测值的权重

$z_k$ 是当前时刻的观测值（检测框的位置）

$H_k$ 是观测矩阵，将状态映射到观测空间

卡尔曼滤波的作用

卡尔曼滤波的核心作用是通过**预测值**和**观测值**进行融合的方式，来更新被追踪目标在**当前帧**的状态。这些状态通常包括：

**位置信息**：目标的中心坐标 $(x, y)$

**速度信息**：目标在 x、y 方向上的速度 $(v_x, v_y)$

**矩形区域参数**：检测框的宽度和高度 $(w, h)$

**卡尔曼滤波的工作流程：**

```

上一帧状态 → 预测 → 当前帧预测值

↓

与当前帧观测值融合

↓

当前帧最优状态估计

```

需要注意的是，卡尔曼滤波不是跨帧融合（不是"预测帧和观测帧"），而是在**同一帧**内，将基于历史信息预测的状态与当前帧实际检测到的观测值进行融合，从而得到更准确、更可靠的状态估计。这种融合机制使得目标跟踪能够在存在噪声和不确定性的情况下，仍然能够准确跟踪目标。

为什么卡尔曼滤波适合目标跟踪？

卡尔曼滤波非常适合目标跟踪，因为：

8.**递归性**：只需要上一时刻的状态和当前时刻的观测，不需要存储所有历史数据，计算效率高。

9.**不确定性建模**：能够建模和量化预测和观测的不确定性，通过卡尔曼增益自动调整权重。

10.**实时性**：计算复杂度低，适合实时应用。

11.**运动预测**：能够预测目标的运动轨迹，为数据关联提供依据。

DeepSORT：加入外观特征

虽然SORT算法简单高效，但它有一个明显的缺点：当目标被遮挡时，容易出现ID切换（ID Switch）的问题。为了解决这个问题，Wojke等人于2017年提出了DeepSORT算法。

DeepSORT在SORT的基础上，引入了**外观特征**（Appearance Feature），使得算法能够在目标被遮挡后重新识别出同一个目标。

DeepSORT的核心改进

DeepSORT的主要改进包括：

12.**外观特征提取**：使用深度学习模型提取目标的视觉特征。

13.**级联匹配**：结合运动信息（马氏距离）和外观信息（余弦距离）进行匹配。

14.**特征库维护**：为每个轨迹维护一个外观特征库，用于后续匹配。

外观特征匹配

特征匹配示意图

特征提取

DeepSORT使用深度神经网络（通常是CNN）提取目标的视觉特征。对于每个检测到的目标，网络会输出一个高维特征向量，这个向量捕捉了目标的视觉外观信息，如颜色、纹理、形状等。

余弦距离

为了衡量两个特征之间的相似度，DeepSORT使用余弦距离：

公式: d = 1 - \cos(A, B) = 1 - \frac{A \cdot B}{\|A\| \times \|B\|} $$

其中：

$A$ 和 $B$ 是两个特征向量

$\cos(A, B)$ 是余弦相似度

$\|A\|$ 和 $\|B\|$ 是向量的模

余弦距离的取值范围是[0, 2]，值越小表示两个特征越相似。

马氏距离

除了外观特征，DeepSORT还使用马氏距离来衡量运动的一致性：

公式: d^2 = (z - \hat{x})^T S^{-1} (z - \hat{x}) $$

其中：

$z$ 是观测值（实际检测到的目标位置）

$\hat{x}$ 是预测值（卡尔曼滤波预测的目标位置）

$T$ 表示矩阵的**转置**（Transpose）操作，将行向量转换为列向量，或将列向量转换为行向量

$S$ 是协方差矩阵

$S^{-1}$ 是协方差矩阵的逆矩阵

**什么是协方差矩阵？**

协方差矩阵是一个对称的方阵，用于描述多个随机变量之间的协方差关系。在目标跟踪中，协方差矩阵 S 表示**预测状态的不确定性**。

具体来说：

协方差矩阵的对角线元素表示各个状态变量（如x坐标、y坐标、x方向速度、y方向速度）的**方差**（Variance），即该变量的不确定程度

非对角线元素表示不同变量之间的**协方差**（Covariance），即它们之间的相关性

例如，在二维目标跟踪中，协方差矩阵可能为：

公式: S = \begin{bmatrix} \sigma_x^2 & \sigma_{xy} & \sigma_{xv_x} & \sigma_{xv_y} \\ \sigma_{yx} & \sigma_y^2 & \sigma_{yv_x} & \sigma_{yv_y} \\ \sigma_{v_xx} & \sigma_{v_xy} & \sigma_{v_x}^2 & \sigma_{v_xv_y} \\ \sigma_{v_yx} & \sigma_{v_yy} & \sigma_{v_yv_x} & \sigma_{v_y}^2 \end{bmatrix} $$

其中：

$\sigma_x^2$、$\sigma_y^2$ 表示位置的不确定性

$\sigma_{v_x}^2$、$\sigma_{v_y}^2$ 表示速度的不确定性

非对角线元素表示位置和速度之间的相关性

**马氏距离的优势：**

马氏距离考虑了预测的不确定性，能够更好地处理目标运动变化的情况。当协方差矩阵的值较大时（即预测不确定性高），马氏距离会对位置偏差更加宽容；当协方差矩阵的值较小时（即预测更准确），马氏距离会对位置偏差更加严格。

级联匹配策略

DeepSORT采用级联匹配策略，优先匹配长时间未更新的轨迹。这是因为长时间未更新的轨迹更可能已经丢失，应该优先尝试匹配，以减少ID切换。

级联匹配的步骤如下：

15.按照轨迹未更新的时间（年龄）对轨迹进行排序。

16.从年龄最大的轨迹开始，依次尝试与检测结果进行匹配。

17.匹配时综合考虑马氏距离和余弦距离：

- 首先使用马氏距离过滤掉运动不一致的匹配

- 然后使用余弦距离在剩余的匹配中选择最相似的

级联匹配策略流程图

SORT与DeepSORT的对比

实际应用示例

视频监控

在视频监控中，SORT/DeepSORT可以用于：

人员追踪：在人群中持续跟踪特定人员

异常行为检测：跟踪目标的行为模式

流量统计：统计特定区域的进出人数

自动驾驶

在自动驾驶中，目标跟踪用于：

车辆追踪：持续跟踪周围的车辆

行人检测：跟踪行人的运动轨迹

障碍物避让：预测障碍物的运动

体育分析

在体育赛事中，目标跟踪用于：

球员追踪：跟踪每个球员的跑动轨迹

战术分析：分析球员的配合模式

数据统计：统计跑动距离、速度等

总结

SORT和DeepSORT算法展示了如何将经典的滤波算法与现代深度学习技术相结合，解决实际的目标跟踪问题。

**SORT算法**以其简单高效著称，通过卡尔曼滤波和IOU匹配实现了快速的多目标跟踪，适合简单场景。

**DeepSORT算法**在SORT的基础上引入了外观特征，通过级联匹配策略结合运动信息和外观信息，显著提升了在复杂场景下的跟踪性能，特别是在处理目标遮挡方面表现优异。

卡尔曼滤波作为预测的核心，为算法提供了对目标运动的预测能力；而特征匹配则为算法提供了识别目标外观的能力。两者的结合使得SORT/DeepSORT能够在实时性和准确性之间取得良好的平衡。

随着深度学习技术的发展，目标跟踪算法也在不断演进。但SORT/DeepSORT作为经典算法，其核心思想仍然对现代算法设计具有重要的启发意义。

扫码申领本地嵌入式教学实录全套视频及配套源码

上一篇：功耗profiling 技术：电流监测、唤醒源追踪与电池寿命估算

下一篇：C 语言内存管理深度解析：malloc/free 与嵌入式堆栈分配策略