-
相关滤波算法的原理是对输入图像进行特征提取,初始化相关滤波器,将图像特征与滤波器进行卷积运算,得到响应分布,响应的峰值位置就是预测的目标中心,训练及更新如下:
若输入图像为
$ f $ ,对应的滤波器为$ h $ ,对两者做相关操作可以表示为:$$ g = f \otimes h $$ (1) 将训练样本与其对应标签的误差平方和作为损失函数,可表示为:
$$ \delta {\text{ = }}\sum\limits_{j = 1}^t {{{\left\| {h * {f_j} - {g_j}} \right\|}^2} = \frac{1}{{MN}}} \sum\limits_{j = 1}^t {{{\left\| {{H^ * } \odot {F_j} - {G_j}} \right\|}^2}} $$ (2) 为将整体损失降为最低,对
$ H $ 求偏导数可得:$$ 0 = \frac{\partial }{{\partial {H^ * }}}\sum\limits_{j = 1}^t {{{\left| {{H^ * } \odot {F_j} - {G_j}} \right|}^2}} $$ (3) 求解公式(3)可得滤波器的计算公式:
$$ {H^ * } = \dfrac{{\displaystyle\sum\limits_{j = 1}^t {{F_j} \odot G_j^ * } }}{{\displaystyle\sum\limits_{j = 1}^t {{F_j} \odot F_j^ * } }} $$ (4) 由于在跟踪过程中会遇到目标及场景的变化,所以需要对滤波器进行更新,可表示为:
$$ H_j^ * = \frac{{{A_j}}}{{{B_j}}} $$ (5) $$ {A_j} = \eta {G_j} \odot F_j^ * + \left( {1 - \eta } \right){A_{j - 1}} $$ (6) $$ {B_j} = \eta {F_j} \odot F_j^ * + \left( {1 - \eta } \right){B_{j - 1}} $$ (7) -
为提高位置估计的精确度,引入连续卷积算子。在训练样本中引入一个插值算子,将离散特征图通过三次样条插值转化为连续特征图。假设有
$ M $ 个训练样本$ x = \{ {x_1},{x_2},...,{x_j},...,{x_M}\} $ ,第$ j $ 个样本$ {x_j} $ 包含D个特征通道$\{ x_j^1,x_j^2,...,x_j^d,...,x_j^D\} $ ,其中每个通道$x_j^d \in {R^{{N_d}}}$ 对应的特征图有$ N $ 种分辨率${N_d}$ 。定义函数$ {J_d} $ 来整合不同分辨率的特征图:$$ {J_d}\left\{ {{x^d}} \right\}\left( t \right) = \sum\limits_{n = 0}^{{N_d} - 1} {{x^d}\left[ n \right]{b_d}} \left( {t - \frac{T}{{{N_d}}}n} \right) $$ (8) 式中:
$ {b_d} $ 为周期$ T \gt 0 $ 的插值函数,这里用的是三次样条插值;$ {J_d}\{ {x^d}\} $ 由$ {b_d} $ 的各个平移叠加构造而来。最终的置信函数
$ {S_f}\{ {x_h}\} $ 通过寻找最大置信分数来估计下一帧目标的位置,它通过一个连续的多通道卷积滤波器$f = \{ {f^1},{f^2},...,{f^d},...,{f^D}\} $ 与插值后的各特征通道卷积而得,可表示为:$$ {S_f}\{ x\} = f\times J\{ x\} = \sum\limits_{d = 1}^D {{f^d}} \times{J_d}\{ {x^d}\} $$ (9) 式中:
$ J\{ x\} $ 表示整个插值特征图。各个滤波器在跟踪过程中的作用不同,为降低算法的复杂度,假设其中
$ C $ 个特征对图像的表达起到了关键作用,定义一个$ D \times C $ 的矩阵$ P $ ,对其进行降维操作,可表示为:$$ {J_d}\left\{ f \right\} = {P^{\rm{T}}}{J_d}\left\{ {{f^d}} \right\} $$ (10) 此外,为减少训练过程的过拟合,采用高斯混合模型建模,对样本进行多样化处理,增加样本间差异。
-
文中基于ECO算法的框架进行改进,提取目标的HOG特征和浅、中、深三层深度特征,通过自适应特征融合机制,根据不同特征的响应情况得到最佳融合结果,完成目标位置的预测。
设计学习率动态调整策略,根据当前跟踪状态,实时地对跟踪器进行自适应更新,减少跟踪过程中的模型漂移;改进深度特征提取网络,大大降低了网络的参数量和计算量,提高了跟踪速度。算法框架见图1。
-
不同的特征包含目标不同维度的信息,合理地特征选择对目标跟踪的结果有着重要的影响。HOG特征通过计算图像的方向梯度直方图来提取目标的多通道梯度信息,其反映了图像局部区域内像素之间的关联性,具有良好的几何和光学不变性。
深度特征通过卷积网络进行提取,不同深度网络层特征包含的图像信息并不相同。浅层深度特征具有较高的分辨率,主要构建目标的纹理和边缘等细节信息,注重跟踪的精度。随着层数的加深,深度特征的分辨率会逐层降低,中、深层深度特征主要用来构建目标的语义信息,其不易受到目标尺度和形状变化的干扰,具有较好的鲁棒性。
深度特征和HOG特征在不同的场景下具有不同的表达能力,因此对跟踪结果的预测有一定差异。深度特征和HOG特征能够从不同角度来对目标进行特征提取,但是单一特征的信息表达具有局限性,在复杂场景下目标及背景的特性发生变化时单一特征不能很好地描述,影响跟踪的结果。因此,文中提取目标的HOG特征和浅、中、深三层深度特征并融合,以丰富目标的特征信息。
-
为尽可能利用多特征信息的互补性,文中采用一种自适应特征融合方法,根据当前跟踪场景及目标的情况自适应地进行特征融合,动态地为不同响应分配权值,最终融合得到更准确地滤波响应。定义
$ {R_i} $ 为第$ i $ 个特征的滤波响应,最终的滤波响根据各响应的权值$ {w_i} $ 加权得到,可表示为:$$ {R_{final}} = \sum\limits_{i = 1}^N {{w_i}{R_i}} $$ (11) 峰值旁瓣比
$ PSR $ 可以表示一个滤波响应的尖锐度,可以衡量跟踪的置信情况,反映了对目标和背景的区分程度,其可表示为:$$ PSR = \frac{{{R_{\max ,i}} - {\mu _i}}}{{{\sigma _i}}} $$ (12) 式中:
$ {R_{\max ,i}} $ 、$\;{\mu _i} $ 和$ {\sigma _i} $ 分别代表滤波响应的最大值、均值和标准差。$ PSR $ 值越大,代表该特征下跟踪器对目标与背景区分的越好,置信度越高。但是由于涉及到多特征融合,为了保证融合之后的准确性,设计了旁瓣值占比$ SLR $ 作为融合置信度评价指标。旁瓣值占比
$ SLR $ 计算当前响应图中低于峰值一定阈值的响应值的比例,它反映特征融合之后结果的置信程度,可表示为:$$ \begin{split} \\ SLR = \frac{{sum\left( {{R_i} \lt \alpha {R_{\max ,i}}} \right)}}{{m \times n}} \end{split}$$ (13) 式中:
$ {R_i} $ 为特征$ i $ 的响应;$ \alpha $ 为用来调节响应阈值的系数;$ m,n $ 各为特征图的大小。$ SLR $ 反映了多特征融合操作对目标定位的影响程度,$ SLR $ 越大,表示融合之后响应图的置信程度越高。由此,结合
$ PSR $ 和$ SLR $ 这两个置信度指标,得到特征融合权值的方法:$$ {w_i} = \dfrac{{PS{R_i} \times SL{R_i}}}{{\displaystyle\sum\limits_j {PS{R_j} \times SL{R_j}} }} $$ (14) 式中:
$ {w_i} $ 为特征响应$ i $ 的融合权重。上述特征融合方法考虑到各特征在不同场景和时刻表达能力的差异,合理地加大了表达能力更好特征的作用,充分利用到目标有限的信息,并且在多特征融合的过程中抑制较强的干扰对融合后响应图峰值的影响,突出了目标真实响应。相较固定权值融合的方法,上述方法针对不同滤波响应可以根据场景及目标变化自适应调节融合权值,得到更可靠的融合响应,对跟踪过程中的常见噪声干扰更具鲁棒性,能够提高对目标位置估计的精度,更适合复杂场景的跟踪。
-
考虑到跟踪在连续视频帧内会出现一系列的变化,包括目标的表观变化和场景的变化,这是一个渐变的过程。而在跟踪过程中,当前帧的跟踪结果会作为样本在后续帧中对模型进行训练更新,当出现与目标相似度较高的干扰区域时,跟踪质量下降,模型会学习到错误信息,随着每一帧跟踪误差的积累,导致跟踪漂移的现象。因此文中在跟踪过程中对跟踪器的学习率进行动态调整,以适应跟踪场景的变化。
引入平均峰值相关能量APCE作为干扰判断的指标。当目标出现背景杂乱等干扰时,响应图会出现多个峰值,APCE也会随之变化,其定义可表示为:
$$ APCE = \dfrac{{{{\left| {{F_{\max }} - {F_{\min }}} \right|}^2}}}{{{mean}\left( {\displaystyle\sum\limits_{w,h} {{{\left( {{F_{w,h}} - {F_{\min }}} \right)}^2}} } \right)}} $$ (15) 式中:
$ {F_{\max }} $ 、$ {F_{\min }} $ 和$ {F_{w,h}} $ 分别为响应最大值、最小值和对应位置处的响应值。文中设计了新的学习率更新机制,结合
$ APCE $ 标准值和历史平均值,具体更新公式如下:$$ \varepsilon = \lambda \frac{{APC{E_t}}}{{APC{E_0}}} + \left( {1 - \lambda } \right)\dfrac{{APC{E_t}}}{{{\rm{mean}}\left( {\displaystyle\sum\limits_{i = 1}^t {APC{E_i}} } \right)}} $$ (16) $$ l{r_t} = lr \times \varepsilon $$ (17) 式中:
$ \varepsilon $ 为学习率调节系数;$ APC{E_t} $ 为当前帧的平均峰值相关能量;$ APC{E_0} $ 为设定的标准值;$ l{r_t} $ 为当前帧学习率;$ lr $ 为初始学习率。当
$ APC{E_t} $ 值较小时,说明滤波响应出现了较大的波动,目标受到了干扰的影响,此时学习率调节系数$ \varepsilon $ 减小,可以降低学习率,以减少错误信息的学习。其中权重调节系数$ \lambda $ 可以改变标准值和历史平均值的贡献,若$ \lambda $ >0.5,则标准值在学习率更新中占主导地位,反之则表明历史多帧平均值占主导地位。 -
通道注意力机制[15]通过学习各个通道的权重,使网络模型对不同通道的作用具有区分能力,以提升网络性能。通道注意力机制的本质是让模型多关注信息量更大、重要性更强的通道特征,抑制不重要的通道特征,如图2所示。
该模块通过全连接层建立各通道之间的关系,起到通道交互的作用。首先对输入特征图进行Squeeze操作,经全局池化,得到全局特征;之后进行Excitation操作,这里采用两层全连接层,来学习各个通道间的关系,也即各通道所占权重,将其与原特征图相乘,即可得到最终输出的特征图。
-
为降低网络参数量,提高跟踪速度,需要对提取深度特征的神经网络进行轻量化改进。在卷积神经网络中,卷积层的参数占比较大,其主要影响着网络的推理速度和模型大小,因此对网络的改进主要在卷积单元的优化上。
深度可分离卷积可以有效降低卷积操作的参数量,其由深度卷积和点卷积两部分组成。深度卷积操作在二维平面上进行,对输入层的每个通道独立进行卷积运算;点卷积将深度卷积的结果在通道维度上进行加权相加,综合各通道的特征,形成新的特征图。
一次常规卷积的参数量
$ {P_c} $ 可表示为:$$ {P_c} = k \times k \times m \times n $$ (18) 一次深度可分离卷积的参数量
$ {P_d} $ 为深度卷积和点卷积的参数量之和,可表示为:$$ {P_d} = k \times k \times m + m \times n $$ (19) 式中:k为卷积核的尺寸大小; m、n为输入和输出通道数。
卷积核的尺寸设置为
$ 3 \times 3 $ ,深度可分离卷积和常规卷积的参数量的比例$ \rho $ 可表示为:$$ \rho = \frac{{{P_d}}}{{{P_c}}} = \frac{{k \times k \times m + m \times n}}{{k \times k \times m \times n}} = \frac{1}{n} + \frac{1}{9} $$ (20) 分析可知,理论上深度可分离卷积可以将参数量降低至常规卷积的
$ 1/9 $ 左右。逆残差模块SandGlass[16]中采用深度可分离卷积思想设计,对输入先进行深度卷积,对各通道内的信息进行交互,再利用一次点卷积对通道压缩,降低计算量的同时减少特征图的冗余。之后利用点卷积将输出通道数提升至预期数量,最后接一层深度卷积后输出。
改进网络基于通道注意力机制和逆残差模块SandGlass[16],改进后网络基本模块如图3所示。
改进网络结合通道注意力机制和逆残差模块,对目标特征进行优化,突出重要特征信息,通过计算不同通道特征的贡献程度对特征进行筛选,使得目标信息得到充分利用,同时卷积单元的优化实现了特征在低维度下的交互和传递,具有更少的参数量的同时保持了优越的特征表达能力。相较主流特征提取网络,改进网络具有更小的体积、更高的精度以及更低的计算代价,应用到复杂跟踪场景中,可以有效区分目标和场景信息,大大提高跟踪的性能和速度。
网络结构如表1所示。
表 1 改进后的网络结构
Table 1. Improved network structure
Layer Output size Stride Num Input size Conv2 d 3×3 112×112×32 2 1 224×224×3 Block1 112×112×96 1 1 112×112×32 Block2 56×56×144 2 3 112×112×96 Block3 28×28×192 2 3 56×56×144 Block4 14×14×288 2 4 28×28×192 Block5 14×14×384 2 4 14×14×288 Block6 7×7×576 2 3 14×14×384 Block7 7×7×1280 1 2 7×7×576 Avgpooling 1×1×1280 - 1 7×7×1 280 Conv2 d 1×1 k - 1 1×1×1 280 -
文中实验硬件平台配置如下:CPU为i7-7800 X,内存为32 GB,GPU为NVIDIA GeForce RTX 2080 TI。跟踪器初始学习率为0.01,学习率权重调节系数λ为0.5,空间正则化系数为1.2,SLR阈值调节系数
$ \alpha $ 为0.2,尺度估计的个数为5,尺度变化步长为1.02。文中在OTB100数据集[17]上测试跟踪算法的性能,该数据集共100组视频序列,涵盖11种目标跟踪常见的干扰挑战,包括光照变化(IV)、目标形变(DEF)、尺度变化(SV)、遮挡(OCC)、运动模糊(MB)、快速运动(FM)、平面旋转(IPR)、非平面旋转(OPR)、目标消失(OV)、背景杂乱(BC)和低分辨率(LR)等,以一次通过评估OPE作为算法性能的评价标准。
采用ImageNet2012数据集[18]对神经网络进行训练,该数据集包含1000类对象,分为训练集、验证集和测试集,三者之间没有重叠。训练集共有128 116 7张训练图像,每个类别的训练图像数量从732~1300不等;验证集共有50 000张验证图像,每个类别有50个验证图像;测试集共有100 000张测试图像,每个类别有100个测试图像。
跟踪算法的性能采用精确度(precision)和成功率(success rate)这两个指标进行评价。其中精确度为视频帧中跟踪结果与真实位置之间的欧氏距离小于一定阈值的百分比,成功率为预测目标框与真实的目标框之间的重合率大于某一阈值的帧数占总视频帧数的百分比。
-
评价文中改进策略对跟踪结果的影响,在ECO算法的基础上,分别做了以下几组实验,包括:实验1,添加自适应特征融合机制(ECO-feature表示);实验2,添加动态学习率调整机制(ECO-learning_rate表示);实验3,同时添加自适应特征融合机制和动态学习率调整机制(ECO-feature+learning_rate表示);实验4,在实验3的基础上,将特征提取网络换成改进后的轻量级网络,即文中所提算法(Proposed表示)。实验结果如表2所示。
跟踪过程中对目标的估计误差包含两方面,定位误差和尺度误差,分别体现在精确度和成功率上。精确度反映了特征响应与真实响应的差异,两者越接近,定位误差越小。成功率在定位误差的基础上,添加了尺度误差的信息,更注重预测跟踪框的重叠率。在保证定位精度的基础上,尺度估计越准确,成功率越高。
表 2 各改进策略下的跟踪性能对比
Table 2. Comparison of tracking performance under each improvement strategy
Methods Precision Success rate Network params Proposed 92.53 67.67 $ {\text{3}}{\text{.7}} \times {\text{1}}{{\text{0}}^{\text{6}}} $ ECO-feature+learning_rate 92.30 67.15 $ {\text{138}}{\text{.4}} \times {\text{1}}{{\text{0}}^{\text{6}}} $ ECO-feature 92.14 67.05 $ {\text{138}}{\text{.4}} \times {\text{1}}{{\text{0}}^{\text{6}}} $ ECO-learning_rate 90.91 66.95 $ {\text{138}}{\text{.4}} \times {\text{1}}{{\text{0}}^{\text{6}}} $ ECO 89.90 66.02 $ {\text{138}}{\text{.4}} \times {\text{1}}{{\text{0}}^{\text{6}}} $ 从表2可以看出,各改进策略对跟踪精确度和成功率均有很大提升,大大降低了跟踪过程中的误差。跟踪误差产生的原因包括特征表达的不充分以及干扰的影响,加入自适应特征融合机制的ECO-feature算法构建了合理的目标特征信息,并且对多特征进行自适应的在线融合,调节不同特征在跟踪过程中的贡献程度,增强了对目标的辨别能力,这使得特征响应更接近真实响应,降低了对目标位置估计和尺度估计的误差,相较ECO算法跟踪性能有了较大提升;动态学习率调整机制可以避免跟踪过程中误差的累积,降低对跟踪质量低的样本信息的学习,在样本更新和抑制干扰之间达到了平衡,实验中ECO-learning_rate算法的精确度和成功率均有明显提升。同时加入自适应特征融合和动态学习率调整机制对算法跟踪性能的提升,要高于每一个改进策略单独添加时所带来的性能提升,ECO-feature+learning_rate算法相较ECO算法的精确度提升了2.40%,成功率提升了1.13%,说明各改进策略之间存在互补和促进作用。
ECO算法采用VGG16网络来对目标进行深度特征提取,参数量为
$ {\text{138}}{\text{.4}} \times {\text{1}}{{\text{0}}^{\text{6}}} $ ,导致跟踪模型较为复杂。文中所提Proposed算法将VGG16网络替换为改进的轻量级网络,参数量仅$ {\text{3}}{\text{.7}} \times {\text{1}}{{\text{0}}^{\text{6}}} $ ,大幅降低了参数量。同时Proposed算法的跟踪性能并未因网络参数量的降低而下降,精确度和成功率相较ECO-feature+learning_rate算法分别提升了0.23%和0.52%,相较ECO算法分别提升了2.63%和1.65%,说明改进轻量级网络对目标的特征提取能力出色,提取的深度特征能够加强对目标的鉴别能力,更适用于跟踪任务。 -
为了对比各跟踪算法的整体性能,将ECO、ECO-HC[13]、DeepSRDCF[19]、SRDCFdecon[20]、SRDCF、DSST[21]、CSK[22]等算法作为对比算法,与文中所提Proposed算法在OTB100数据集上进行跟踪结果的性能对比。图4为不同算法的性能对比图。
从图4可知,文中算法跟踪的精确度为92.53%,相较ECO算法提升了2.63%,相较未使用深度特征的ECO-HC算法提升了7.77%;成功率为67.67%,相较ECO算法提升了1.65%,相较ECO-HC算法提升了3.87%。表3为各跟踪器性能和跟踪速度的综合对比。
由于提取深度特征的神经网络进行了轻量化的改进,文中算法跟踪速度为15.1 FPS,同样基于深度特征的ECO算法跟踪速度为7.1 FPS,文中跟踪速度为其2.13倍,跟踪速度上有较大的提升,大大降低了计算代价。
相较其他算法,文中算法在跟踪过程中表现稳定,通过加入自适应特征融合机制和动态学习率调整机制,替换更轻量级的深度特征提取网络,算法取得了更好的跟踪效果,在提高跟踪精确度和成功率的同时,还大大提升了跟踪的速度。
表 3 不同跟踪器综合性能对比
Table 3. Comparison of comprehensive performance of different trackers
Results Proposed ECO ECO-HC DeepSRDCF SRDCFdecon SRDCF DSST CSK Precision 92.53 89.90 84.76 84.25 81.71 78.11 68.20 51.97 Overlap 67.67 66.02 63.80 63.03 62.20 59.32 51.47 38.49 Mean FPS 15.1 7.1 61.3 1.1 3.7 4.4 50.4 346.9 -
针对OTB100数据集中包含的11种不同干扰场景,分别评估并对比各跟踪算法的性能,实验结果如表4所示,其中最优结果加粗处理。
表 4 不同干扰下各算法的精确度对比
Table 4. Comparison of precision of each algorithm under different interference
Algorithms BC DEF FM IPR IV LR MB OCC OPR OV SV Proposed 95.35 89.02 88.35 90.17 91.35 93.03 90.26 89.84 92.05 87.37 91.57 ECO 86.46 84.93 87.20 87.86 87.46 79.22 86.60 89.61 90.06 83.20 89.53 ECO-HC 84.16 78.20 80.41 78.65 77.38 80.47 78.79 83.05 83.02 81.83 82.45 DeepSRDCF 83.24 75.78 78.89 79.24 74.05 70.22 80.61 80.72 82.11 78.06 82.20 SRDCFdecon 84.12 72.84 75.39 74.66 79.14 67.20 79.92 75.14 78.10 64.07 80.81 SRDCF 76.15 70.84 74.82 71.28 74.29 63.09 75.47 71.82 72.56 59.71 74.93 DSST 69.09 52.88 57.82 68.35 67.51 58.08 58.04 59.48 65.22 47.78 65.42 CSK 57.42 43.62 42.01 53.14 45.07 36.72 38.85 43.08 49.94 31.52 46.33 在各种干扰下,文中算法均有较优的跟踪性能,相较排名第二的算法,在低分辨率、背景杂乱、目标形变和光照变化等干扰下的精确度分别提升了13.81%、6.33%、4.09%和3.89%等。
表4结果表明,文中算法通过构建合理的目标特征,采用自适应特征融合机制融合多信息,在跟踪中即使出现了目标形变、背景杂乱等干扰,也能够自适应地调节融合权值,加强对目标的辨别能力。同时滤波器学习率动态更新机制可以找到跟踪结果不佳的视频帧并调节学习率,避免误差累积导致后续帧的跟踪出现性能下降甚至漂移,在视频帧的跟踪质量较好时,会主动提高学习率以恢复对模型及样本的更新,这使得跟踪算法在面对目标消失、遮挡等场景时,精确度也有了明显的提升。
相较其他算法,在常见干扰场景下文中算法同样具有更高的跟踪成功率。图5为部分干扰场景下各算法成功率对比。
图 5 部分干扰场景下OTB100 数据集上各算法成功率对比曲线
Figure 5. Success plots of partial interference scenes on OTB100 datasets
为了更直观地分析文中算法的跟踪性能,选择具有代表性的6种跟踪算法和6组包含不同干扰挑战的视频序列进行定性评估,如图6所示。
图 6 6种跟踪算法对部分视频序列的定性评估结果
Figure 6. Qualitative evaluation results of 6 tracking algorithms on partial video sequences
在Bolt2序列中,视频分辨率较低,目标周围有许多相似干扰,SRDCF等算法跟踪出现错误,文中算法采用深度特征和手工特征相结合,特征信息更为丰富,可以实现连续稳定跟踪。Box序列存在部分遮挡和非平面旋转等干扰,文中算法结合了目标特征的语义信息,可以很好地适应这种场景,表现最好。当目标出现大面积遮挡,如Girl2序列,部分算法更新到错误的目标信息,从而导致跟踪产生漂移,文中算法加入的动态学习率更新,能够及时调整模型更新速率,在遮挡消失之后还能重新定位到目标,抗干扰效果较好。在MotorRolling序列中,目标受到快速平面旋转和光照变化等干扰,文中算法将目标特征进行自适应地融合,融合后特征响应可以更准确反映目标位置信息,跟踪更为精确,其他跟踪算法均丢失目标。Skiing序列中的目标尺度变化较大,且存在快速运动,文中算法同样具有较好的跟踪效果。Soccer序列存在背景杂乱、目标被遮挡等干扰,改进策略同样带来了优秀的跟踪效果,文中算法在跟踪过程中一直保持精准的位置定位和尺度估计。
Target tracking algorithm based on adaptive feature fusion in complex scenes
-
摘要: 为提升复杂场景下目标跟踪的鲁棒性,优化模型运行效率,提出一种基于自适应特征融合的相关滤波跟踪算法。该算法采用方向梯度直方图特征和卷积神经网络来对目标进行信息构建,利用特征响应的峰值旁瓣比和旁瓣值占比自适应地确定融合系数,根据融合响应来预测目标位置。为适应场景的变化,降低光照、背景和目标形变等对跟踪的影响,引入平均峰值相关能量来设计滤波器学习率调整机制,动态地进行模型更新。通过对深度特征提取网络进行轻量化设计,降低特征网络参数,提高跟踪速度。在OTB100通用数据集上进行测试,实验结果表明:文中所提算法有效降低了干扰对目标跟踪的影响,且跟踪精度、成功率和速度整体优于对比算法。Abstract: In order to improve the robustness of the target tracking algorithm in complex scenes and optimize the operating efficiency of the model, a correlation filter tracking algorithm based on adaptive feature fusion was proposed. The algorithm adopts histogram of oriented gradient feature and deep feature extraction network feature to construct the target information, uses the peak to sidelobe ratio and the value of side lobe ratio of feature response to adaptively determine the fusion coefficient, and predicts the target position according to the fusion response. In order to reduce the influence of illumination variation, occlusion and target deformation on the tracking process and adapt to the change of scene, the average peak-to correlation energy was introduced to design the filter learning rate adjustment mechanism and update the model dynamically. Through the lightweight design of the deep feature extraction network, the parameters of the feature network were reduced and the tracking speed was improved. Experimental results show that the algorithm effectively reduces the influence of interference on the tracking results, and the algorithm has better performance in tracking precision, success rate and speed compared with other tracking algorithm on the public video dataset OTB100.
-
Key words:
- target tracking /
- fusion response /
- learning rate regulation /
- lightweight
-
表 1 改进后的网络结构
Table 1. Improved network structure
Layer Output size Stride Num Input size Conv2 d 3×3 112×112×32 2 1 224×224×3 Block1 112×112×96 1 1 112×112×32 Block2 56×56×144 2 3 112×112×96 Block3 28×28×192 2 3 56×56×144 Block4 14×14×288 2 4 28×28×192 Block5 14×14×384 2 4 14×14×288 Block6 7×7×576 2 3 14×14×384 Block7 7×7×1280 1 2 7×7×576 Avgpooling 1×1×1280 - 1 7×7×1 280 Conv2 d 1×1 k - 1 1×1×1 280 表 2 各改进策略下的跟踪性能对比
Table 2. Comparison of tracking performance under each improvement strategy
Methods Precision Success rate Network params Proposed 92.53 67.67 $ {\text{3}}{\text{.7}} \times {\text{1}}{{\text{0}}^{\text{6}}} $ ECO-feature+learning_rate 92.30 67.15 $ {\text{138}}{\text{.4}} \times {\text{1}}{{\text{0}}^{\text{6}}} $ ECO-feature 92.14 67.05 $ {\text{138}}{\text{.4}} \times {\text{1}}{{\text{0}}^{\text{6}}} $ ECO-learning_rate 90.91 66.95 $ {\text{138}}{\text{.4}} \times {\text{1}}{{\text{0}}^{\text{6}}} $ ECO 89.90 66.02 $ {\text{138}}{\text{.4}} \times {\text{1}}{{\text{0}}^{\text{6}}} $ 表 3 不同跟踪器综合性能对比
Table 3. Comparison of comprehensive performance of different trackers
Results Proposed ECO ECO-HC DeepSRDCF SRDCFdecon SRDCF DSST CSK Precision 92.53 89.90 84.76 84.25 81.71 78.11 68.20 51.97 Overlap 67.67 66.02 63.80 63.03 62.20 59.32 51.47 38.49 Mean FPS 15.1 7.1 61.3 1.1 3.7 4.4 50.4 346.9 表 4 不同干扰下各算法的精确度对比
Table 4. Comparison of precision of each algorithm under different interference
Algorithms BC DEF FM IPR IV LR MB OCC OPR OV SV Proposed 95.35 89.02 88.35 90.17 91.35 93.03 90.26 89.84 92.05 87.37 91.57 ECO 86.46 84.93 87.20 87.86 87.46 79.22 86.60 89.61 90.06 83.20 89.53 ECO-HC 84.16 78.20 80.41 78.65 77.38 80.47 78.79 83.05 83.02 81.83 82.45 DeepSRDCF 83.24 75.78 78.89 79.24 74.05 70.22 80.61 80.72 82.11 78.06 82.20 SRDCFdecon 84.12 72.84 75.39 74.66 79.14 67.20 79.92 75.14 78.10 64.07 80.81 SRDCF 76.15 70.84 74.82 71.28 74.29 63.09 75.47 71.82 72.56 59.71 74.93 DSST 69.09 52.88 57.82 68.35 67.51 58.08 58.04 59.48 65.22 47.78 65.42 CSK 57.42 43.62 42.01 53.14 45.07 36.72 38.85 43.08 49.94 31.52 46.33 -
[1] Yilmaz A, Javed O, Shah M. Object tracking: A survey [J]. Acm Computing Surveys, 2006, 38(4): 13. doi: 10.1145/1177352.1177355 [2] Li Peixia, Wang Dong, Wang Lijun, et al. Deep visual tracking: Review and experimental comparison [J]. Pattern Recognition, 2018, 76: 323-338. doi: 10.1016/j.patcog.2017.11.007 [3] Bolmeds D S, Beveridge J R, Draper B A, et al. Visual object tracking using adaptive correlation filters[C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2010: 2544-2550. [4] Henriques J F, Caseiro R, Martins P, et al. Highspeed tracking with kernelized correlation filters [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583-596. doi: 10.1109/TPAMI.2014.2345390 [5] Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2005: 886-893. [6] Danelljan M, Hager G, Khan F S, et al. Learning spatially regularized correlation filters for visual tracking[C]//2015 IEEE International Conference on Computer Vision, 2015: 4310-4318. [7] Bertinetto L, Valmadre J, Golodetz S, et al. Staple: Complementary learners for real-time tracking[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition, 2016: 1401-1409. [8] Danelljan M, Khan F S, Felsberg M, et al. Adaptive color attributes for real-time visual tracking[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. 2014: 1090-1097. [9] Fang Shengnan, Gu Xiaojing, Gu Xingsheng. Infrared object tracking with correlation filtering based on adaptive response fusion [J]. Infrared and Laser Engineering, 2019, 48(6): 0626003. (in Chinese) doi: 10.3788/IRLA201948.0626003 [10] Yin Kuan, Li Junli, Li Li, et al. Adaptive feature update object tracking algorithm under complex conditions [J]. Acta Optica Sinica, 2019, 39(11): 235-250. (in Chinese) doi: 10.3788/AOS201939.1115002 [11] Ma C, Huang J, Yang X, et al. Hierarchical convolutional features for visual tracking[C]//2015 IEEE International Conference on Computer Vision, 2015: 3074-3082. [12] Danelljan M, Robinson A, Khan F S, et al. Beyond correlation Filters: Learning continuous convolution operators for visual tracking [C]//European Conference on Computer Vision, 2016: 472-488. [13] Danelljan M, Bhat G, Khan F S, et al. ECO: Efficient convolution operators for tracking [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition, 2017: 6931-6939. [14] Qi Yuankai, Zhang Shengping, Qin Lei, et al. Hedged deep tracking [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition, 2016: 4303-4311. [15] Jie Hu, Li Shen, Samuel Albanie, et al. Squeeze-and-excitation networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 42(8): 2011-2023. doi: 10.1109/TPAMI.2019.2913372 [16] Zhou Daquan, Hou Qibin, Chen Yunpeng, et al. Rethinking bottleneck structure for efficient mobile network design[C]//European Conference on Computer Vision, 2020: 680-697. [17] Wu Yi, Lim Joowoo, Yang Ming-Hsuan. Object tracking benchmark [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1834-1848. doi: 10.1109/TPAMI.2014.2388226 [18] Deng J, Dong W, Socher R, et al. ImageNet: A large-scale hierarchical image database[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition, 2009: 248-255. [19] Danelljan M, Hager G, Khan F S, et al. Convolutional features for correlation filter based visual tracking[C]//2015 IEEE International Conference on Computer Vision Workshop, 2016: 621-629. [20] Danelljan M, Häger G, Khan F S, et al. Adaptive decontamination of the training set: A unified formulation for discriminative visual tracking[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition, 2016: 1430-1438. [21] Danelljan M, Häger G, Khan F S, et al. Discriminative scale space tracking. [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(8): 1561-1575. doi: 10.1109/TPAMI.2016.2609928. [22] Henriques J F, Rui C, Martins P, et al. Exploiting the circulant structure of tracking-by-detection with kernels [C]//European Conference on Computer Vision, 2012: 702-715.