-
主干网络采用改进后的ResNet50网络,提取第3个残差模块的特征,先在ImageNet数据集上预训练,再采用迁移学习的方式利用GOK-10k、YouTube-BB数据集进行微调。区域建议网络和验证网络采用交替训练的方式,训练代数为20代,学习率从10−3~10−5依次递减。模板和搜索区域输入尺寸分别为127×27和255×255。采用随机梯度下降(Stochastic Gradient Descent,SGD)优化算法对网络进行训练,参数更新时的动量m取0.9,权值衰减
$\gamma $ 取0.000 5。网络构建采用PyTorch深度学习框架,实验平台:CPU为Intel Xeon E5-2650@2.20 GHz,GPU为NVIDIA TITAN V。 -
OTB100标准测试集共计100个测试序列,视频平均长度为589帧。根据跟踪的难点问题,对每个视频定义了属性标签,包括:遮挡、旋转、变形、光照变化和尺度改变等。评价指标包括准确率图和成功率图,其中准确率图(Precision Plot)基于中心定位误差(Center Location Error,CLE)对跟踪算法进行评价。CLE定义为跟踪算法预测的目标框中心与标注框中心之间的距离,统计出距离小于一定阈值的图片数目,其占视频总帧数的百分比表示该阈值下的准确率。一般情况下采用阈值为20 pixel对应的准确率作为该项评测准则的具体指标。成功率图(Success Plot)采用重叠率(Intersection Over Union,IOU)作为评价的基准,IoU指的是跟踪算法预测的目标框
${A_t}$ 与标注框${A_{gt}}$ 之间的交并比,即${\phi _t}=|{A_t} \cap {A_{gt}}|/|{A_t} \cup {A_{gt}}|$ 。统计出${\phi _t}$ 大于一定阈值下的跟踪图片数目占视频总帧数的百分比,即为该阈值下的成功率。该评测准则的具体指标为AUC(Area Under Curve),即成功率曲线与横轴围成的面积。OTB100标准测试集包含了29种算法的评价结果,这里将文中算法与排名前9的算法TLD、OAB、CSK、ASLA、Struck、DSST、KCF、SAMF、MEEM,以及开源的跟踪算法MUSTER、SRDCF、SiamFC、CFNet、SiamRPN和ECO进行了对比试验。实验采用OPE(One Pass Evaluation)测试方式,只利用初始帧的目标信息,然后跟踪完整个测试序列,测试结果如图8所示。
从精确度曲线和成功率曲线来看,文中算法的精确度与成功能率比ECO高出了6.4%和4.0%。与原来的基准算法SiamRPN相比提升效果明显,精确度与成功率分别提高了12.3%和9.7%。性能提升的原因主要在于二阶段网络结构设计,SiamRPN简单的将相关响应最高的位置作为跟踪结果,而文中提出的网络首先结合时域信息对易区分的样本进行滤除,再利用区域建议加验证网络的方式对高难度样本进行区分,使网络具有更好的分辨力。
-
VOT标准测试集包含了60个更具挑战性的视频,有自己比较系统的评价体系,采用准确率(Accuracy)、鲁棒性(Robustness)和期望平均重叠率(Expected Average Overlap,EAO) 3项指标对跟踪算法进行评价。Accuracy用来评价跟踪算法的准确度,定义为跟踪过程中有效帧的平均重叠率,即
$\;{\rho _A} = 1/ $ $ { N_{{N_{{\rm{valid}}}}}} \displaystyle\mathop \sum \limits_{i = 1:{N_{{\rm{valid}}}}} {\phi _i}$ ,其中${N_{{\rm{valid}}}}$ 表示为有效帧的数量。Robustness用来评价跟踪算法的稳定性,定义为跟踪失败的次数。EAO指标将所有测试视频的长度考虑其中,其计算方法如下:算法对一个视频进行跟踪,跟踪失败后会进行重新初始化,这样一个视频被分割为不同长度的片段。对于一个长度为${N_S}$ 的片段平均重叠率为${{{\varPhi }}_{{N_s}}} = 1/{N_s} \displaystyle\mathop \sum \limits_{i = 1:{N_s}} {\phi _i}$ ,对多个不同长度的序列进行跟踪,计算视频长度在区间$[{N_{lo}},{N_{hi}}]$ 的期望平均重叠率为${{\hat \varPhi }} = 1/({N_{hi}} - {N_{lo}}) \displaystyle\mathop \sum \limits_{{N_s} = {N_{lo}}:{N_{hi}}} {{{\varPhi }}_{{N_s}}}$ 。测试方式分为基本测试和非监督测试,不同之处在于在基本测试条件下,当跟踪失败后,会重新用标注框对跟踪器进行初始化。图9为AR得分,综合了精确度与鲁棒性两项指标对算法进行排序,越靠右上表示性能越好。图10为非监督条件下的重叠率曲线,采用AUC作为算法排名的评价指标。从表1的测试集评价结果(评价指标包括基本测试条件下的精确度、鲁棒性,预期平均重叠率以及非监督条件下的平均重叠率、速度)来看,在基本测试条件下,所提算法的A/R得分为0.601 1/14.515 9,与一阶段孪生网络SiamRPN相比,在鲁棒性方面的性能提升更加明显,结合前面的理论分析可知文中从多方面提高孪生网络对各种干扰的辨别能力,使得失败次数大大下降。EAO与AUC指标分别比排名第2的LADCF和DLSTpp提高了0.6%、3.6%,说明算法在非监督测试条件的优势体现得更为明显。由于采用更复杂的网络,跟踪速度为20.2451FPS,比SiamRPN有所下降,但仍然优于排名靠前的LADCF、MFT算法。
Baseline Unsupervised A-R rank EAO Overlap Speed Overlap Failures EAO AUC Normalized FPS Ours 0.601 1 14.515 9 0.383 3 0.533 9 3.496 1 20.245 1 LADCF 0.491 1 9.925 3 0.3811 0.418 2 0.123 0 0.557 3 MFT 0.491 9 10.766 2 0.379 4 0.391 7 0.194 5 0.623 2 DaSiamRPN 0.569 1 18.441 5 0.378 5 0.468 4 17.818 3 64.414 3 UPDT 0.515 4 11.417 2 0.371 9 0.444 4 0.088 4 0.469 7 RCO 0.498 9 10.700 4 0.371 1 0.383 0 0.204 6 0.720 3 SiamRPN 0.591 5 19.632 5 0.369 1 0.456 8 20.342 6 86.784 3 DRT 0.495 8 13.947 6 0.349 0 0.419 1 0.123 7 0.456 8 DeepSTRCF 0.506 2 14.548 6 0.338 3 0.433 3 0.560 5 3.114 4 CPT 0.488 8 16.620 7 0.332 1 0.375 7 0.877 1 5.184 2 SA_Siam_R 0.544 4 16.403 0 0.331 1 0.425 0 6.776 1 32.364 4 DLSTpp 0.529 7 14.937 4 0.321 3 0.497 8 1.293 0 8.175 9 Table 1. Evaluation results on the VOT benchmark
-
为了进一步测试文中算法性能,采用无人机航拍数据集UAV123对算法进行了测试。数据集使用专业级无人机(DJI S1000)进行拍摄,相机固定在可控框架系统(DJI Zenmuse Z15)上,跟踪高度在5~25 m之间。相机采用焦距为12 mm的松下GH4,视频序列以30~96帧/s的帧速和720 p~4 k的分辨率记录。UAV123数据集包含123个视频序列,总帧数达110 000帧,属于长时间跟踪数据集。跟踪目标包括汽车、卡车、船只、人和空中无人机,以顶视角的方式进行拍摄。在该数据集中的评价采用了同OTB100测试集一样的评价标准,利用精确度图和成功率图对算法性能进行分析。
无人机数据集与OTB数据集相比,面临的情况更加复杂,跟踪视频的长度普遍较长,相机晃动以及目标频繁移出视野对目标跟踪带来了更大挑战。从图11的评测结果来看,SiamRPN因为对目标形变具有较好的适应能力,在长时间跟踪数据集上的性能要优于ECO算法,这与在OTB测试集上的评分正好相反。文中算法与SiamRPN相比准确度与成功率分别提高了5.4%和7.4%,在没有采用长时间跟踪策略的情况下,得益于两阶段跟踪网络更准确的分类和更高的回归精度,文中方法在无人机航拍数据集上也有很好的表现。
-
为了对算法的性能有个定性的分析,列举了10种算法针对多种跟踪场景的对比结果,这些跟踪场景包含多种挑战性因素:剧烈形变、相似干扰物交叉影响、目标遮挡、背景干扰等,如图12所示(OTB-Diving、OTB-Skating2、UAV123-bike2、UAV123-group1),在序列OTB-Diving中,运动员身体完全变形且具有较快的运动速度,这时候基于区域建议的SiamRPN与文中方法的优势体现出来,能较好的适应目标形变,同时文中方法采用两次目标框回归,回归精度有了进步的提升。在序列OTB-Skating2中,被跟踪目标男运动员与干扰物属于同一类别,且频繁交叉遮挡造成干扰,SiamRPN由于缺乏区分同类目标的能力,常常错误将女运动员作为跟踪结果。而文中方法经过RPN阶段相关滤波调制减少错误样本和第二阶段验证网络更加精准分类,具有更好的鲁棒性。相类似情况还有序列UAV123-group1,在目标与干扰物相互干扰的过程中,文中方法都能准确的跟踪目标。在序列UAV123-bike2小目标的跟踪过程中,目标存在多次遮挡的情况,其他算法最后都跟丢目标。得益于强的分辨本领,文中方法在抗遮挡方面也有很好的表现。在无人机空对地的跟踪场景中,相似干扰与频繁遮挡是需要解决的主要挑战,文中方法在该方面体现出了更好的适用性。
两阶段孪生网络性能的提升主要来源于两方面:一方面是通过相关滤波调制以及验证网络相似性度量提升了网络的分类能力;另一方面通过两次目标框回归,回归的准确性也进步提高。图13显示了最终网络对区域建议结果的分类得分,可以看出,算法对错误采样以及相似性目标有很好的区分度,成功地解决了原SiamRPN网络无法处理相似目标干扰的问题。
图14为改进网络回归精度的对比,从图中可以看出,通过两次目标框回归,跟踪精度有了更进一步的提升。例如在序列UAV123-car1跟踪到第401帧的时候,另外一辆汽车由于靠得太近,原SiamRPN算法将黑色车辆也包围进了跟踪框,而两阶段网络能够准确识别目标与干扰。另外,在对小尺度目标(序列UAV123-uav3)、非整体目标(序列UAV123-bike1)的测试也体现了两阶段网络的优势。
图15为各模块运行时间的对比,测试序列为UAV123-car1,采用GPU加速,硬件参数见第2.1节。从图中可以看到,特征提取模块占用了大部分的计算资源,第二阶段验证网络的运行时间比区域建议模块稍长。在有GPU加速的情况下,两阶段孪生网络依然能达到实时。在无人机平台等嵌入式设备不具备GPU运行条件下,需依靠地面端通过数据链传输的方式来实现。
Two-stage object tracking method based on Siamese neural network
doi: 10.3788/IRLA20200491
- Received Date: 2020-12-10
- Rev Recd Date: 2021-02-10
- Publish Date: 2021-09-23
-
Key words:
- neural networks /
- visual tracking /
- region proposal /
- correlation filter
Abstract: Through the introduction of deep learning, the accuracy and robustness of object tracking have been greatly improved. Siamese network based trackers can deal with various deformation of target through training on large-scale datasets, but that makes it difficult to eliminate the interference of similar targets. Therefore, a two-stage tracking method based on Siamese network was proposed. Firstly, the modified residual network was used to extract the deep feature with better performance. Through integrating the temporal information, the template of the region proposal network was adaptively updated through correlation filter modulation, so as to filter out the easily distinguished negative samples. Then, the fixed scale features of candidate regions were extracted by the region-of-interest pooling and fed to the verification network for more refined classification and regression. In order to improve the network's ability to discriminate difficultly distinguished samples, joined training method combining the positive and negative samples was adopted to improve the performance of feature matching. The performance of the proposed method was evaluated on the OTB100, VOT standard benchmarks and the UAV123 aerial benchmark. The experimental results demonstrate that the proposed method can significantly improve the performance of the baseline.