-
时空上下文模型将目标跟踪转化为估计目标在候选区域内各点出现的概率问题,其最大概率值对应的坐标点即为目标位置[8]。目标位置似然的置信图定义如公式(1)所示:
$$m(x) = P(x|o)$$ (1) 式中:
$x$ 为目标中心位置;$o$ 为包含目标的候选区域。当前帧中,假设目标中心坐标为${x^ * }$ ,那么它的上下文特征集合可以定义为${X^c} = \{ c({\textit{z}}) = (I({\textit{z}}),{\textit{z}})|{\textit{z}} \in {\Omega _c}({x^ * })\}$ ,其中$I({\textit{z}})$ 为位置${\textit{z}}$ 处的图像特征,${\Omega _c}({x^ * })$ 是围绕目标中心的局部上下文区域。根据贝叶斯估计理论可将公式(1)转换为:$$\begin{split} m(x) =& P(x|o) = \sum\limits_{c(z) \in {X^c}} {P(x,c({\textit{z}})|o)} = \\ &\sum\limits_{c({\textit{z}}) \in {X^c}} {P(x|c({\textit{z}}),o)P(c({\textit{z}})|o)} \end{split} $$ (2) 式中:
$P(x|c({\textit{z}}),o)$ 为空间上下文模型,表示了目标与其周围上下文区域的空间关系;$P(c({\textit{z}})|o)$ 为上下文先验模型,表示了上下文区域各点的先验概率,它的具体形式为:$$P(c({\textit{z}})|o) = I({\textit{z}}){\omega _\sigma }({\textit{z}} - {x^*})$$ (3) 式中:
$I({\textit{z}})$ 为位置${\textit{z}}$ 处的图像特征;${\omega _\sigma }({\textit{z}} - {x^*}) = a{{\rm e}^{ - \frac{{||{\textit{z}} - {x^*}|{|^2}}}{{{\sigma ^2}}}}}$ 为加权函数,其中$a$ 是归一化常数,$\sigma $ 为尺度参数。置信图模型
$m(x)$ 的具体定义如公式(4),它描述了目标在其周围上下文区域中出现的概率$$m(x) = P(x|o) = b{{\rm e}^{ - {{\left\| {\frac{{x - {x^*}}}{\alpha }} \right\|}^\beta }}}$$ (5) 式中:
$b$ 为归一化常数;$\alpha $ 为尺度参数;$\beta $ 为置信图模型的形状控制参数。空间上下文模型
$P(x|c({\textit{z}}),o)$ 表示的是目标与其上下文区域的空间关系,为避免场景中相似目标对跟踪的影响,定义了一个径向非对称的矢量函数,如公式(5)所示:$$P(x|c({\textit{z}}),o) = {h^{sc}}(x - {\textit{z}})$$ (6) 综合上述公式(2)~公式(5),可得:
$$\begin{split} m(x) =& b{{\rm e}^{ - {{\left\| {\frac{{x - {x^*}}}{\alpha }} \right\|}^\beta }}} =\\ & \sum\limits_{c({\textit{z}}) \in {X^c}} {{h^{sc}}(x - {\textit{z}})I({\textit{z}}){\omega _\sigma }({\textit{z}} - {x^*})} =\\ & {h^{sc}}(x) \otimes (I(x){\omega _\sigma }(x - {x^*})) \end{split}$$ (7) 式中:
$ \otimes $ 表示卷积运算。对公式(6)两边分别进行傅里叶变换可得:$${\cal{F}}(b{{\rm e}^{ - {{\left\| {\frac{{x - {x^*}}}{\alpha }} \right\|}^\beta }}}) = {\cal{F}}({h^{sc}}(x)) \odot {\cal{F}}(I(x){\omega _\sigma }(x - {x^*}))$$ (8) 这里
${\cal{F}}$ 表示傅里叶变换,$ \odot $ 代表点乘运算,由此可以获得空间上下文模型的表示形式为:$${h^{sc}}(x) = {{\cal{F}}^{ - 1}}\left( {\frac{{{\cal{F}}(b{{\rm e}^{ - {{\left\| {\frac{{x - {x^*}}}{\alpha }} \right\|}^\beta }}})}}{{{\cal{F}}(I(x){\omega _\sigma }(x - {x^*}))}}} \right)$$ (9) 式中:
${{\cal{F}}^{ - 1}}$ 表示傅里叶逆变换。在得到目标第t帧的空间上下文模型
$h_t^{sc}(x)$ 后,目标在第t+1帧的时空上下文模型为:$$H_{t + 1}^{stc}(x) = (1 - \rho )H_t^{stc}(x) + \rho h_t^{sc}(x)$$ (10) 式中:
$H_{t + 1}^{stc}(x)$ 和$H_t^{stc}(x)$ 分别为目标在第t和t+1帧的时空上下文模型;$\rho $ 为更新速率,其值越大表示时空上下文模型的更新速度越快。目标在第t+1帧的位置
$x_{t + 1}^*$ 则可以通过寻找它在第t+1帧置信图中的最大值得到,即:$$x_{t + 1}^* = \mathop {\arg \max }\limits_{x \in {\Omega _c}(x_t^*)} {m_{t + 1}}(x)$$ (11) 其中,
$${m_{t + 1}}(x) = {{\cal{F}}^{ - 1}}({\cal{F}}(H_{t + 1}^{stc}(x)) \odot {\cal{F}}({I_{t + 1}}(x){\omega _{{\sigma _t}}}(x - x_t^*)))$$ (12) 通过上述公式(9)和公式(11)的不断更新过程即可完成目标跟踪任务。
-
颜色特征是从全局角度对目标特征进行了描述,它在目标发生形状、姿态及旋转等变化时不敏感,被广泛应用于目标跟踪。相对于RGB、HSV和LAB特征,利用CN特征可以获得更好的跟踪性能[13]。由于目标跟踪算法的运行速度与其采用的特征维数密切相关,为提高算法的运行速度,保证目标跟踪的实时性,通过自适应降维技术将原始的11维CN特征降维,在保留重要信息的同时减少CN特征维数。
自适应降维技术的核心是主成分分析,它通过公式(13)所示的最小化代价函数
$\eta _t^{\rm total}$ 寻找满足$B_p^{\rm T}{B_p} = I$ 的${D_1} \times {D_2}$ 维投影矩阵${B_p}$ (${D_1}$ 和${D_2}$ 分别是降维前后的特征维数)进行降维。$$\eta _t^{\rm total} = {\gamma _t}\eta _t^{\rm data} + \sum\limits_{j = 1}^{t - 1} {{\gamma _j}\eta _j^{\rm smooth}} $$ (13) 式中:
$\eta _t^{\rm data} = \dfrac{1}{{MN}}{\displaystyle\sum\limits_{m,n} {\left\| {{I_{t,c}} - {B_p}B_p^{\rm T}{I_{t,c}}} \right\|} ^2}$ 是取决于第t帧的重构误差;$\eta _j^{\rm smooth} = \displaystyle\sum\limits_{k = 1}^{{D_2}} {\lambda _j^{(k)}{{\left\| {b_j^{(k)} - {B_p}B_p^{\rm T}b_j^{(k)}} \right\|}^2}}$ 是和第j帧相关的平滑项,它对应的平滑系数为${\gamma _j}$ ;$b_j^{(k)}$ 为投影矩阵${B_p}$ 中的基本向量,它的权重由$\lambda _j^{(k)}$ 决定,${I_{t,c}}$ 为降维前的第t帧CN特征矩阵;M和N为该矩阵的大小。在求解得到投影矩阵后,即可获得降维后的第t帧CN特征
${\tilde I_{t,c}} = B_p^{\rm T}{I_{t,c}} = \{ {\tilde I_{t,c1}},{\tilde I_{t,c2}}\}$ ,它由两个相互独立的二维特征${\tilde I_{t,c1}}$ 和${\tilde I_{t,c2}}$ 组成。当采用降维后的CN特征描述目标外观模型时可以将公式(11)转换为如下形式:$$\begin{split} x_{t + 1}^* =& \mathop {\arg \max }\limits_{x \in {\Omega _c}(x_t^*)} {m_{t + 1}}(x) = \\ &\mathop {\arg \max }\limits_{x \in {\Omega _c}(x_t^*)} {{\cal{F}}^{ - 1}}({\cal{F}}(H_{t + 1,c1}^{stc}(x)) \odot {\cal{F}}({{\tilde I}_{t + 1,c1}}(x){\omega _{{\sigma _t}}}(x - x_t^*)) +\\ & {\cal{F}}(H_{t + 1,c2}^{stc}(x)) \odot {\cal{F}}({{\tilde I}_{t + 1,c2}}(x){\omega _{{\sigma _t}}}(x - x_t^*))) \\[-10pt] \end{split} $$ (14) 式中:
${\tilde I_{t + 1,c1}}(x)$ 和${\tilde I_{t + 1,c2}}(x)$ 为第t+1帧时自适应降维后的两个相互独立的二维CN特征;$H_{t + 1,c1}^{stc}(x)$ 和$H_{t + 1,c2}^{stc}(x)$ 则是它们在第t+1帧所对应的时空上下文模型,分别由第t帧的时空上下文模型和空间上下文模型加权得到,如公式(14)所示:$$\begin{array}{l} H_{t + 1,c1}^{stc}(x) = (1 - \rho )H_{t,c1}^{stc}(x) + \rho h_{t,c1}^{sc}(x) \\ H_{t + 1,c2}^{stc}(x) = (1 - \rho )H_{t,c2}^{stc}(x) + \rho h_{t,c2}^{sc}(x) \end{array} $$ (15) 通过上述公式(13)和公式(14)即完成了基于自适应降维CN特征的目标定位。
-
在时空上下文模型中,通常将置信图响应的峰值坐标作为当前帧的目标位置,当目标没受到干扰时得到的置信图响应是不存在波动的单峰,跟踪效果良好。但在跟踪过程中会不可避免地受到光照变化、遮挡或者目标形变等干扰,图1为Coke序列在不同条件下的置信图响应对比,该序列存在较剧烈的光照变化和遮挡干扰。
图 1 在稳定跟踪和存在干扰情况下的置信图响应对比
Figure 1. Comparison of responses under stable tracking and interference conditions
从图1可以看出,在稳定跟踪(图1(a)所示)、光照变化(图1(b)所示)和目标被遮挡(图1(c)所示)3种情况下的置信图响应存在较大差异:不仅响应峰值在光照变化和被遮挡时出现明显下降,而且在光照变化时置信图响应的旁瓣较高,主峰不够明显,同时在目标被遮挡时,置信图表现出“多峰”形式,此时较容易导致错误跟踪。置信图响应的峰值旁瓣比(Peak-to-Sidelobe Rate, PSR)可以用来评估目标跟踪的状态以及受干扰的严重程度,当前帧中置信图响应在峰值位置
$x$ 处的PSR定义为:$$PS{R_t}(x) = \frac{{{{\max }_t}(x) - {\mu _t}(x)}}{{{\sigma _t}(x)}}$$ (16) 式中:
${\max _t}(x)$ 为该置信图响应的峰值;${\mu _t}(x)$ 和${\sigma _t}(x)$ 分别为它的均值和标准差。如图1所示,当目标未受外界干扰或者未被遮挡时,它的置信图响应是波动较小的尖锐单峰,对应的峰值和PSR值较大;反之,置信图响应则会出现较大波动甚至出现“多峰”,对应的峰值和PSR值也较小。综上分析,选择联合置信图响应的峰值
${\max _t}(x)$ 和$PS{R_t}(x)$ 对当前帧的目标跟踪置信度进行评估。考虑到目标的自身变化也会对置信图响应产生影响,为了对目标跟踪置信度的评估更加可靠,还参考了历史帧的响应峰值${\max _i}(x)$ 和峰值旁瓣比$PS{R_i}(x)$ ,只有在当前帧的${\max _t}(x)$ 值和$PS{R_t}(x)$ 值均以一定比例超过了历史帧的${\max _i}(x)$ 和$PS{R_i}(x)$ 均值时,才认为当前帧目标跟踪置信度较高,即:$$\left\{ {\begin{array}{*{20}{c}} {{{\max }_t}(x) > {\lambda _1}\dfrac{1}{n}\displaystyle\sum\limits_{i = t - n}^{t - 1} {{{\max }_i}(x)} ,t \geqslant n} \\ {PS{R_t}(x) > {\lambda _2}\dfrac{1}{n}\displaystyle\sum\limits_{i = t - n}^{t - 1} {PS{R_i}} (x),t \geqslant n} \end{array}} \right.$$ (17) 式中:
${\max _t}(x)$ 和$PS{R_t}(x)$ 、${\max _i}(x)$ 和$PS{R_i}(x)$ 分别为当前帧和历史帧响应的峰值和PSR值;$n$ 为参考的历史帧数;${\lambda _1}$ 和${\lambda _2}$ 为调节系数。当目标跟踪的置信度较高时,正常跟踪,否则将公式(14)的目标模型更新速度降为$\;\rho /2$ 。 -
在目标跟踪中,目标被场景中的其他物体遮挡是非常普遍的,如何有效地处理目标被遮挡问题,尤其是严重遮挡甚至完全遮挡对提升目标跟踪性能至关重要。在上一节根据置信图响应的峰值和PSR值完成了对目标跟踪置信度的评估后,还需进一步对目标是否被严重遮挡进行判断。
当目标被其他物体严重遮挡时,从“目标”区域获得的“目标模板”将会发生很大变化,这种变化可以通过目标被遮挡前后的目标模板的相关系数的变化来体现。通过公式(17)计算两帧目标模板的去均值归一化相关系数,进而判断目标是否被严重遮挡。
$$Corr({I_t},{I_{t - 1}}) = \frac{{\displaystyle\sum\limits_{m,n} {({I_t} - {{\bar I}_t})({I_{t - 1}} - {{\bar I}_{t - 1}})} }}{{\sqrt {\displaystyle\sum\limits_{m,n} {{{({I_t} - {{\bar I}_t})}^2}} \displaystyle\sum\limits_{m,n} {{{({I_{t - 1}} - {{\bar I}_{t - 1}})}^2}} } }}$$ (18) 式中:
${I_t}$ 和${I_{t - 1}}$ 分别表示第t帧和第t−1帧的目标模板;${\bar I_t}$ 和${\bar I_{t - 1}}$ 表示这两个目标模板的均值。图2(a)、(b)和(c)给出了Jogging1序列中目标被遮挡过程:目标在第63帧被轻微遮挡,随后目标被遮挡面积逐渐增加并在第73帧被完全遮挡,最后在第83帧脱离遮挡;图2(d)所示为该序列当前帧目标模板与第t−6帧目标模板的相关系数变化曲线。可以看出,当目标未被遮挡时,第t−6帧与当前帧的目标模板变化不大,它们的相关系数在小范围内波动;当目标的被遮挡面积逐渐增大时,此时目标模板与未被遮挡时目标模板的差异增加,它们的相关系数呈下降趋势;当目标被完全遮挡时,此时“目标模板”相对于未被遮挡时的目标模板变化最大,它们的相关系数达到了极小值。
综上,利用当前帧与历史帧的目标模板的相关系数的变化,可以判断目标是否被严重遮挡。为提高遮挡判别的可靠性,保存了6帧历史帧的目标模板信息,并依次计算第t−5帧、第t−4帧、第t−3帧、第t−2帧、第t−1帧及当前帧与第t−6帧目标模板的相关系数,如果这6个相关系数呈下降趋势且最大值小于设定阈值
$Cor{r_{\rm TH1}}$ ,则表示目标被严重遮挡,这时将停止更新目标模型,以便在脱离遮挡后重新捕获目标并进行跟踪,同时预测目标位置。 -
在目标跟踪中,由于目标在相邻帧的间隔通常为毫秒量级,在如此短的时间内可以认为目标的状态保持稳定,因此可以通过Kalman滤波对目标在短时间内的状态进行有效估计[14],用于在目标跟踪出现波动时修正目标位置,并在目标被严重遮挡时进行目标位置预测。
假设目标在t至
$t + \Delta t$ 这段时间内在X方向和Y方向上分别服从速度为${v_x}$ 和${v_y}$ 的匀速运动,则目标在第t帧的状态方程和观测方程可以分别由公式(18)和公式(19)表示:$${X_t} = A{X_{t - 1}} + {W_{t - 1}}$$ (19) $${Z_t} = H{X_t} + {V_t}$$ (20) 式中:
${X_t} = {\left[ {x(t),y(t),{v_x}(t),{v_y}(t)} \right]^{\rm T}}$ 和${Z_t} = {\left[ {x(t),y(t)} \right]^{\rm T}}$ 分别表示目标在第t帧的状态向量和观测向量;$x(t)$ 和$y(t)$ 是目标在第t帧的中心坐标;${v_x}(t)$ 和${v_y}(t)$ 是目标在第t帧的速度分量;$A = \left[ {\begin{array}{*{20}{c}} 1&0&{\Delta t}&0 \\ 0&1&0&{\Delta t} \\ 0&0&1&0 \\ 0&0&0&1 \end{array}} \right]$ 和$H = \left[ {\begin{array}{*{20}{c}} {\begin{array}{*{20}{c}} 1&0&0&0 \end{array}} \\ {\begin{array}{*{20}{c}} 0&1&0&0 \end{array}} \end{array}} \right]$ 分别是状态矩阵和观测矩阵;$\Delta t$ 为时间间隔;${W_{t - 1}}$ 和${V_t}$ 分别是均值为零的状态误差和观测误差。 -
算法的具体工作流程如下:
Step1:初始化。利用起始帧给出的目标信息完成时空上下文模型及相关参数的初始化。
Step2:位置估计。依次读取序列中的图像数据,提取目标及其上下文区域CN特征并进行自适应特征降维;根据公式(13)计算当前帧目标位置置信图,完成目标位置初始估计。
Step3:置信度评估。根据公式(16)计算当前帧目标跟踪置信度,若置信度较高,则正常跟踪,执行step7,否则执行step4。
Step4:严重遮挡判别。根据公式(17)分别计算当前帧与历史帧目标模板的相关系数,如果这些相关系数值呈下降趋势,并且最大值小于设定阈值
$Cor{r_{TH1}}$ ,说明目标被严重遮挡,执行step6;否则,说明仅出现跟踪波动但未被严重遮挡,执行step5。Step5:位置修正。通过Kalman滤波修正初始估计的目标位置,并将目标模型的更新速度降为
$\rho /2$ ,执行step7。Step6:位置预测。停止更新目标模型,根据Kalman滤波预测目标位置,并以预测的位置为中心重新搜索目标,并计算当前帧的“目标模板”与被遮挡前的目标模板之间的相关系数,如果大于设定阈值
$Cor{r_{TH2}}$ ,说明目标脱离遮挡,执行step2;否则继续执行step6。Step7:更新目标位置和模型,并判断跟踪是否完成,未完成则继续执行step2。
-
实现算法的计算机硬件配置为:CPU为Intel(R) Core(TM) i5-2500,主频3.30 GHz,内存8 GB;软件开发平台为Matlab R2016b。选取OTB数据集[15] 中36组具有多种挑战因素的彩色序列测试算法跟踪性能,实验采用的是一次性通过评估(One Pass Evaluation, OPE)方法和参考文献[15]中的中心位置误差(Center Location Error,CLE)、距离精度(Distance Precision,DP)、重叠精度(Overlap Precision,OP)和每秒跟踪帧数(Frames Per Second, FPS) 4种性能评价指标。
算法的具体参数设置为:公式(4) 中
$\alpha = 2.25$ ,$\;\beta = 1$ ,公式(14) 中$\;\rho = 0.075$ ,公式(16)中用于置信度评估的历史帧数$n$ 设置为6,调节系数分别设置为${\lambda _1} = 0.6$ ,${\lambda _2} = 0.8$ ,用于遮挡判别和脱离遮挡的相关系数阈值分别设置为$Cor{r_{\rm TH1}} = 0.82$ ,$Cor{r_{\rm TH2}} = 0.90$ 。 -
为验证算法的跟踪性能,首先在3种不同配置模式下对算法性能进行了测试,其中Proposed (Only CN2) 是仅使用自适应降维的CN特征,既没有置信度评估,也没有遮挡判别和Kalman滤波策略;Proposed (CN10) 则表示使用未降维的原始CN特征,其余设置与文中算法一致,表1为在OTB数据集中3种配置模式下的目标跟踪性能对比。
表 1 算法在不同配置模式下的跟踪性能评估
Table 1. Performance evaluation of proposed algorithm in different configuration modes
Tracker CLE DP OP FPS Proposed(only CN2) 17.6 63.3% 59.4% 89.2 Proposed 12.3 71.2% 64.6% 84.8 Proposed(CN10) 10.2 73.5% 67.4% 46.6 由表1可知,文中算法性能较Proposed (Only CN2)有较大提高,并且在DP和OP两种指标上与Proposed (CN10)算法相差不多,但平均速度约是它的2倍。由此可以看出,文中算法在提升目标跟踪性能的同时,实时性也得到很大提高,降低了目标跟踪算法对硬件资源的要求,有利于在资源受限的嵌入式系统中实现实时的目标跟踪。
为进一步定量评估算法的跟踪性能,在36组彩色视频序列中对比了32种算法,这些算法包括了文中算法、STC算法[8]、CN算法[13],以及在OTB数据集中表现出色的29种算法,如Struck算法、SCM算法、TLD算法、ASLA算法和CT算法等。
图3为这些算法在24组具有遮挡属性的彩色视频序列中的DP和OP指标对比结果,为简化显示,只列出了每种指标排名前10的算法。在图3(a)中,在CLE阈值为20 像素时,文中算法的DP 指标为0.708,相对于排名第2的SCM算法提高了18.8%,相对于原STC算法提高了19.6%;在图3(b)中,在OS阈值为0.5时,文中算法的OP 指标为0.622,相对于排名第2的SCM算法提高了9.9%,相对于原STC算法提高了18.3%。可以看出,相对于原始的STC算法和其他对比算法,文中算法具有较强的抗遮挡能力。
图 3 不同跟踪算法在遮挡属性下的距离精度和成功率
Figure 3. Distance precision and the success rate of different algorithms under occlusion attribute
图4为这些算法在所有36组彩色序列中的DP和OP指标对比结果,同样的,也只列出了每种指标排名前10的算法。在图4中,文中算法的DP 和OP指标相对于第2名的原STC算法分别提高了16.5%和9.7%。
图 4 不同跟踪算法的综合距离精度和成功率
Figure 4. Distance precision and the success rate of different tracking algorithms
表2为文中算法与其他5种跟踪性能较好的目标跟踪算法在测试视频序列中的平均跟踪速度对比。
表 2 6种不同算法的平均跟踪速度
Table 2. Average tracking speed of six different algorithms
Tracker Proposed STC CN Struck SCM TLD FPS 84.8 270.2 98.6 8.6 0.62 19.8 由表2可知,虽然STC算法和CN算法的平均跟踪速度都高于文中算法,但是其整体性能均与文中算法存在较大差距,其余3种算法则都不满足目标跟踪的实时性要求。
通过上述定量分析可以看出文中算法具有较强的抗遮挡能力,同时其整体跟踪性能也优于其他对比算法,并具有较高的实时性。
-
为了更直观地对文中算法的跟踪性能进行评估,分别在图5~图10中给出了文中算法与其他5种对比算法(具体包括STC算法、CN算法、Struck算法、SCM算法和TLD算法)在测试序列Coke、Jogging1、Human4、Shaking、Bolt和David3中的实际跟踪结果。
图 5 文中算法与其他5种对比算法在Coke序列中的跟踪结果
Figure 5. Tracking results of the proposed algorithm and other five comparison algorithms on Coke sequence
图 6 文中算法与其他5种对比算法在Jogging1序列中的跟踪结果
Figure 6. Tracking results of the proposed algorithm and other five comparison algorithms on Jogging1 sequence
图 7 文中算法与其他5种对比算法在Human4序列中的跟踪结果
Figure 7. Tracking results of the proposed algorithm and other five comparison algorithms on Human4 sequence
图 8 文中算法与其他5种对比算法在Shaking序列中的跟踪结果
Figure 8. Tracking results of the proposed algorithm and other five comparison algorithms on Shaking sequence
图 9 文中算法与其他5种对比算法在Bolt序列中的跟踪结果
Figure 9. Tracking results of the proposed algorithm and other five comparison algorithms on Bolt sequence
图 10 文中算法与其他5种对比算法在David3序列中的跟踪结果
Figure 10. Tracking results of the proposed algorithm and other five comparison algorithms on David3 sequence
图5为Coke序列跟踪结果,该序列的主要挑战包括光照变化和遮挡。目标在第36帧时逐渐被遮挡,CN算法、SCM算法和TLD算法的跟踪框在第40帧时包含了较多干扰信息,并且在第42帧时CN算法和TLD算法都跟踪到了错误目标;在后续的第44帧Struck算法跟踪框也包含了较多的干扰信息,而文中算法和STC算法由于充分利用了空间上下文信息,可以较好地跟踪目标,表现出一定的抗遮挡能力。
图6为 Jogging1序列跟踪结果,该序列中目标先被轻微遮挡,接着目标的被遮挡面积逐渐增加直至被完全遮挡。图6(d)中,在目标脱离遮挡后,只有文中算法和TLD算法可再次跟踪目标,其他算法都出现了跟踪失败的现象。这是由于文中算法通过置信图响应的峰值和PSR值对目标跟踪的状态进行了评估,并利用目标模板的相关系数变化进一步分析了目标被遮挡程度,在目标被严重遮挡时通过Kalman滤波预测了目标位置,如图6(c)所示,同时停止目标模型更新,使得在脱离遮挡后可以再次捕获目标;而TLD算法则是通过在线检测机制实现了目标丢失后的重定位。
图7为Human4序列跟踪结果,该序列的主要挑战包括光照变化、目标形变及遮挡,特别是目标在运动过程中出现了多次严重遮挡。如图7(a),在第90帧目标还未被遮挡时TLD算法已丢失目标,目标在第126帧时被轻微遮挡,这时所有算法都还能有效跟踪目标,后续随着目标被遮挡面积逐渐加大,其他算法跟踪框都停留在了遮挡物上,如图7(c)所示,但文中算法仍能跟踪目标,并在目标被多次严重遮挡后还能稳定跟踪目标,进一步验证了文中算法的抗遮挡能力。
图8 为Shaking序列跟踪结果,该序列中目标与周围背景的区分度较低,比较容易受到背景干扰,同时还存在光照变化。Struck算法在第30帧时出现跟踪漂移,CN算法和TLD算法的跟踪框在第78帧包含了较多背景信息,这种现象在第106帧进一步加剧,在第266帧时SCM算法也出现了跟踪漂移,文中算法和STC算法由于充分利用了目标周围的空间上下文信息,较好地适应了背景干扰,在整个过程中始终稳定地跟踪目标。
图9为Bolt序列跟踪结果,该序列的主要挑战是目标在快速运动时的外观变化。如图9(a),Struck算法在第5帧就已经跟踪在错误目标上,STC算法和SCM算法在第30帧时丢失了目标,在第120帧TLD算法也出现了跟踪失败,但文中算法和CN算法由于都采用了CN特征,对目标形变具有较好的适应性,能够一直稳定地跟踪目标。
图10为David3序列跟踪结果,该序列的主要挑战是复杂背景、遮挡和目标非平面旋转。如图10(a),TLD算法的跟踪框在第36帧停留在遮挡物体上,图10(b)中Struck算法和SCM算法在同时出现复杂背景和目标被遮挡时,也都出现了跟踪失败,第118帧当目标出现非平面旋转时,STC算法只跟踪到目标的局部,CN算法的跟踪框包含了较多非目标信息,在第146帧时,它们的跟踪框都包含了大量背景信息,已不能有效地跟踪目标,而文中算法则一直能较好地跟踪目标。
通过将文中算法与其他5种对比算法在Coke、Jogging1、Human4、Shaking、Bolt和David3序列中的实际跟踪结果进行对比,可以看出文中算法具有较强的抗遮挡能力,同时能有效克服复杂环境下的光照变化、背景干扰、目标形变以及非平面旋转等多种挑战。
Anti-occlusion real time target tracking algorithm employing spatio-temporal context
-
摘要: 针对目标跟踪算法在光照变化、背景干扰、目标形变及遮挡时出现的跟踪稳定性下降甚至失败的问题,提出了一种采用时空上下文的抗遮挡实时目标跟踪算法。首先,在时空上下文模型框架下采用自适应降维的颜色特征构建目标外观模型,提高算法在复杂场景中对目标的辨别能力;然后,联合置信图响应的峰值和峰值旁瓣比对目标跟踪的状态进行评估;接着,利用目标模板之间相关系数的变化进一步判断目标是否被严重遮挡;最后,当目标跟踪出现波动时,降低目标模型更新速度,并通过Kalman滤波修正目标位置,当目标被严重遮挡时,则根据Kalman滤波预测目标位置,同时停止更新目标模型,在脱离遮挡后重新捕获目标并进行跟踪。选取了36组具有多种挑战因素的彩色视频序列测试算法的跟踪性能,并与其他表现优异的目标跟踪算法进行了对比分析。实验结果表明,所提算法具有较强的抗遮挡能力,并且在光照变化、背景干扰和目标形变等不利因素影响下仍具有较好的跟踪鲁棒性,同时能够满足目标跟踪的实时性要求。Abstract: An anti-occlusion real time target tracking algorithm employing spatio-temporal context was proposed to solve the problems of tracking instability or even failure, which were caused by illumination variation, background clutters, target deformation or occlusion. Firstly, in the framework of spatio-temporal context model, the adaptive dimensionality reduced color features were adopted to describe the target to promote the distinguish ability in complex scene. Secondly, the peak and the peak-to-sidelobe ratio of confidence map response were combined to evaluate the target tracking status. Then, occlusion was discriminated by the correlation coefficient between target templates. Finally, when the target tracking status fluctuated, the update speed of target model was reduced, and the target coordinates were corrected by the Kalman filter. When the target was occluded seriously, the target coordinates was predicted according to the Kalman filter, and the target model was stopped to update for recapturing and tracking the target again after occlusion released. 36 color sequences with multiple challenging attributes were selected to evaluate the performance of the proposed algorithm, and it was compared with other excellent target tracking algorithms. The experimental results demonstrated that this algorithm has strong anti-occlusion ability, and improved the robustness of target tracking effectively under the influence of disturbance factors such as illumination variation, background clutters and target deformation. Meanwhile, it met the real time requirement of target tracking.
-
表 1 算法在不同配置模式下的跟踪性能评估
Table 1. Performance evaluation of proposed algorithm in different configuration modes
Tracker CLE DP OP FPS Proposed(only CN2) 17.6 63.3% 59.4% 89.2 Proposed 12.3 71.2% 64.6% 84.8 Proposed(CN10) 10.2 73.5% 67.4% 46.6 表 2 6种不同算法的平均跟踪速度
Table 2. Average tracking speed of six different algorithms
Tracker Proposed STC CN Struck SCM TLD FPS 84.8 270.2 98.6 8.6 0.62 19.8 -
[1] 罗海波, 许凌云, 惠斌, 等. 基于深度学习的目标跟踪方法研究现状与展望[J]. 红外与激光工程, 2017, 46(5): 0502002. Luo Haibo, Xu Lingyun, Hui Bin, et al. Status and prospect of target tracking based on deep learning [J]. Infrared and Laser Engineering, 2017, 46(5): 0502002. (in Chinese) [2] Henriques J F, Caseiro R, Martins P, et al. High-speed tracking with kernelized correlation filters [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583-596. [3] Chen Hongyu, Luo Haibo, Chen Faling, et al. Scale adaptive part-based tracking method using multiple correlation filters [J]. Optical Engineering, 2019, 58(5): 053106. [4] 房胜男, 谷小婧, 顾幸生. 基于自适应响应融合的相关滤波红外目标跟踪[J]. 红外与激光工程, 2019, 48(6): 0626003. Fang Shengnan, Gu Xiaojing, Gu Xingsheng. Infrared target tracking with correlation filter based on adaptive fusion of responses [J]. Infrared and Laser Engineering, 2019, 48(6): 0626003. (in Chinese) [5] Song Yibing, Ma Chao, Wu Xiaohe, et al. VITAL: Visual tracking via adversarial learning[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition, 2018: 8990-8999. [6] Bhat G, Johnander J, Danelljan M, et al. Unveiling the power of deep tracking[C]//Proceedings of the European Conference on Computer Vision, 2018: 493-509. [7] Gao Peng, Ma Yipeng, Yuan Ruyue, et al. Learning cascaded siamese networks for high performance visual tracking[C]//Proceeding of the IEEE International Conference on Image Processing, 2019: 3078-3082. [8] Zhang Kaihua, Zhang Lei, Yang Minghsuan, et al. Fast visual tracking via dense spatio-temporal context learning[C]//Proceedings of the European Conference on Computer Vision, 2014: 127-141. [9] Wei X G, Zhang S, Chan S C. A novel visual object tracking algorithm using multiple spatial context models and Bayesian Kalman filter[C]//Proceeding of the IEEE International Symposium on Circuits and Systems, 2015: 1034-1037. [10] 翟敬梅, 刘坤. 特征点辅助的时空上下文目标跟踪与定位[J]. 仪器仪表学报, 2017, 38(11): 2839-2848. doi: 10.3969/j.issn.0254-3087.2017.11.027 Zhai Jingmei, Liu Kun. Object tracking and location with spatio-temporal context assisted by key points [J]. Chinese Journal of Scientific Instruments, 2017, 38(11): 2839-2848. (in Chinese) doi: 10.3969/j.issn.0254-3087.2017.11.027 [11] 郭文, 游思思, 张天柱, 等. 低秩重检测的多特征时空上下文的视觉跟踪[J]. 软件学报, 2018, 29(4): 1017-1028. Guo Wen, You Sisi, Zhang Tianzhu, et al. Object tracking via low-rank redetection based multiple feature fusion spatio-temporal context learning [J]. Journal of Software, 2018, 29(4): 1017-1028. (in Chinese) [12] 王向军, 郭志翼. 算力限制平台下的长时目标跟踪[J]. 红外与激光工程, 2020, 49(1): 0126003. Wang Xiangjun, Guo Zhiyi. Long-term target tracking algorithms in force-constrained platform [J]. Infrared and Laser Engineering, 2020, 49(1): 0126003. (in Chinese) [13] Danelljan M, Khan F S, Felsberg M, et al. Adaptive color attributes for real-time visual tracking[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014: 1090-1097. [14] 苏贇, 王挺, 姚辰, 等. 基于合作目标的无人机目标跟踪方法[J]. 机器人, 2019, 41(4): 425-432. doi: 10.13973/j.cnki.robot.180479 Su Yun, Wang Ting, Yao Chen, et al. A target tracking method of UAV based on cooperative target [J]. Robot, 2019, 41(4): 425-432. (in Chinese) doi: 10.13973/j.cnki.robot.180479 [15] Wu Yi, Lim Jongwoo, Yang Minghsuan. Object tracking benchmark [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1834-1848.