-
卷积通过对输入图像进行仿射变化完成特征提取时,配合不同步长的卷积进行下采样操作对图像进行尺度变换,完成降维、扩大感受野和多尺度特征信息的提取。YOLOv3以DarkNet-53作为主干网络,进行五次下采样将输入图像缩小到原来的1/32大小。图1为进行下采样时通道的变换过程。
进行下采样时遵循以下仿射变换准则:
$$Y = F( \cdot )*X + b$$ (1) 式中:
$Y$ 为变换后的特征;$X$ 为变换前的特征;$F( \cdot )$ 为大小为3×3、步长为2的卷积层、归一化层和激活函数层的总函数;*为卷积操作;$b$ 为特征通道的偏置参数,由反向传播进行更新。每经过一次下采样,特征图尺寸变为原来1/2,通道数量变为原来的2倍。对于输入图像而言,目标只占图像的较小部分,其余均为背景信息,在进行下采样时,背景的迭代累积会形成大量冗余信息,从而淹没部分目标,导致检测准确率不高。为了能够突出目标特征,SE模块先对输入特征执行聚合空间维度的挤压操作,将其压缩为1×1×C大小,其中1为特征图的高和宽,C为特征图的通道数。随后,使用Sigmoid函数对压缩后的聚合特征进行激励,产生各通道对应的权重,并将权重赋予到原特征图对应的通道中,完成通道注意力赋值,生成SE模块的输出。图2为SE模块的工作过程。SE模块能够对重要信息产生关注而得到广泛的应用[13],但是对全部通道进行聚合压缩和激励扩展会造成原始信息的丢失,并且在卷积和下采样操作之外加入注意力模块也会增加模型参数,影响训练效率。为了提升训练速度,一些轻量化的模型[14-15]选择以牺牲部分检测精度为代价,减少参数量,缩短了训练时间。
-
为了能够在不增加模型参数的同时提升模型的检测精度和训练效率,文中提出了基于并行注意力机制的卷积模块(Convolution module based on Parallel Attention mechanism,PAConv),既能够保留原始特征信息,又能对目标予以聚焦和关注。图3为并行注意力模块的工作过程。
并行注意力模块先使用常规卷积将输入图像仿射变换为最终输出的1/2,得到中间层特征:
$${Y'} = {F'}( \cdot )*X$$ (2) 式中:
${Y'}$ 为得到的中间特征;X为进行仿射变换的输入特征;${F'}( \cdot )$ 为大小为3×3、步长为2的卷积层、归一化层和激活函数层的总函数。为了获得最终输出的n个通道,对得到的${Y'}$ 使用线性映射的方式,在不改变特征尺寸的情况下进行加权操作:$${Y_i}^{''} = {\varPhi _i}({Y_i}')\;\;\;\;\;\;\;\forall i = 1,...,\frac{n}{2}$$ (3) 式中:
${Y_i}^{''}$ 为得到的加权特征层;${\varPhi _i}$ 为对${Y_{}}'$ 中第$i$ 层进行线性变换时,大小为$k = 1,s = 1$ 和$k = 3,s = 1$ 的线性层和LeakyReLU激活函数组成的变换函数,函数内部参数通过反向传播进行更新;${Y_i}'$ 为得到的中间特征图的第$i$ 个特征通道,最后将中间层${Y_{}}'$ 和得到权重赋予的特征${Y_{}}^{''}$ 组合在一起,聚合成输出特征。与SE注意力机制相比,并行注意力模块能够同时进行下采样和注意力聚焦,不会额外引入注意力模块,能够降低模型的空间复杂度和参数,提升模型的训练效率。 -
地面背景下的红外目标特征以区域化、连续性分布为主。与红外弱小目标图像相比,具有更多的纹理和细节特征,并且容易受到地面复杂环境背景的干扰。与可见光相比,红外图像为单通道的灰度图,边缘信息不明显,缺乏色彩特征和细节相关性,导致特征提取困难,影响了地面红外目标的检测的准确性。
深度卷积神经网络在进行特征提取时,不同层次的特征图所组成信息的侧重不同,浅层特征通常含有大量的细粒度信息和位置信息,高层的特征含有更抽象的语义信息[16]。YOLOv1使用模型的最后一层输出直接对目标进行检测。SSD使用多尺度的特征输出,并通过NMS机制抑制低置信度目标,进行目标检测。为了更加充分地利用不同尺度特征的信息,Lin[17]提出了自上而下的金字塔特征融合机制,不仅使用模型的多尺度特征,而且促进了不同尺度特征间信息的融合。自上而下的特征融合方式在目标检测任务中取得到了较好的效果,优化了目标检测任务中漏检、误检和检测准确率不高的问题,在诸多检测模型中得到了广泛的应用[18]。因此,文中在使用基于并行注意力机制的卷积方式优化模型主干网络的基础上,使用四尺度的特征信息进行自上而下的融合,提升目标检测的效果。
为了降低模型的空间复杂度,文中使用基于并行注意力机制的红外目标检测主干网络进行六次下采样。通过下采样缩小特征图尺寸,逐步增大卷积核感受野,完成特征提取,形成P1~P6共六个尺度的输出。其中,P5、P6是使用基于并行注意力机制的卷积模块作为下采样方式得到的。改进后的主干网络能够同时进行下采样和注意力赋予,避免引入额外注意力模块,使用六次下采样进一步降低了模型空间复杂度。
通过基于并行注意机制的主干网络建立了PAM-YOLO目标检测模型,PAM-YOLO利用四个不同尺度的特征信息,进行自上而下的多尺度特征信息融合时,首先将最后一层大小为8×8的输出定义为Stage1模块。将Stage1输入预测层的同时,使用1×1卷积进行通道调整和上采样,得到16×16大小的特征图,再与主干网络中尺寸相同的特征连接,得到特征融合后的Stage2模块。同理,依次实现32×32、64×64尺度特征自上而下的融合,生成相应的特征模块。最终形成了尺度分别为8×8、16×16、32×32、64×64共四个Stage的融合特征。再将各Stage模块输入到检测网络中,使用非极大值抑制机制(Non-Maximum Suppression,NMS)筛选出与真实框关联度最高的预测框,将最优预测结果输出,完成对目标的预测。图4为PAM-YOLO的工作原理。
同时,为了进一步提高模型的反向传播效率与检测精度,利用CIoU[19]损失函数设计目标检测模型的回归损失函数。与交并比(Intersection over Union, IoU)计算方式相比,CIoU综合考虑目标与锚框之间的距离、重叠率、尺度以及长宽比信息,可以避免预测框与真实框不相交而导致损失函数梯度为0的问题。因此,CIoU更加符合预测框的回归机制,使边界框的生成更加稳定。将最小化中心点距离、重叠率、横纵比的惩罚项CIoU定义为:
$${f_{CIoU}} = 1 - IoU + \frac{{{\rho ^2}(b,{b^{gt}})}}{{{C^2}}} + \alpha \nu $$ (4) 式中:ν度量长宽比的相似性。定义为:
$$\nu = \frac{4}{{{\pi ^2}}}{\left(\arctan \dfrac{{{w^{gt}}}}{{{h^{gt}}}} -\arctan \frac{w}{h}\right)^2}$$ (5) $\alpha $ 为权重函数,定义为:$$\alpha = \frac{\nu }{{(1 - IoU) + \nu }}$$ (6) CIoU 损失函数定义为:
$${L_{{CIoU}}} = 1 - {f_{CIoU}}$$ (7) 由于样本在进行训练过程中会产生大量易分辨的负样本,同时大量简单样本和背景信息在训练过程中产生的梯度回传会影响模型对困难样本的分类准确性,为了增强模型对困难样本的分类能力,采用焦点损失函数[20]作为分类损失函数,优化网络的分类准确率。
$$\begin{split} \\ {L_{fl}} = - {\alpha _t}{(1 - {p_t})^\lambda }\log ({p_t}) \end{split}$$ (8) 其中
$${\alpha _t} = \left\{ {\begin{array}{*{20}{c}} \alpha &{q = 1}\\ {1 - \alpha }&{q = 0} \end{array}} \right.$$ (9) ${p_t}$ 的定义方式如同${\alpha _t}$ ;$q$ 代表指定的类别,取0时为非指定类,取1时为指定类;$p$ 代表$q = 1$ 时的概率。 -
目前,大型公开红外数据集较难获得。笔者课题组使用红外成像仪在不同时段、不同背景、不同气候条件下收集公交车和小汽车的原始红外图像,制成了含有小汽车图片1728幅、公交车图片572幅、分辨率为480×480的Infrared-VOC红外数据集。与共有9606幅图片、分为20类的标准可见光数据集VOC2007相比,VOC2007数据集中图片数量少于572幅的类别有13类,且最少类的图片为186幅。通过对比表明,文中构造的红外数据集可用于模型的训练和性能评估,训练集、验证集、测试集按7∶1∶2进行划分。
-
文中从平均精度均值(mean Average Precision, mAP)和每秒检测帧数(Frames Per Second, FPS)两个指标出发,对文中提出的PAM-YOLO和几种主流目标检测模型进行对比实验,并通过单类别的平均精度(Average Precision, AP)、空间复杂度(GFLOPS)、训练时间(Training time)和参数量 (Parameters)对文中所提出的PAM-YOLO目标检测模型进行消融实验分析。
-
表1为基于Infrared-VOC数据集的不同目标检测算法实验结果。可以看出,在大小为512×512分辨率的输入图像下,PAM-YOLO目标检测模型的mAP值达到82.2%,检测速度达到46 FPS。在一阶段目标检测算法中,该模型的mAP值比SSD高出9.6%,比YOLOv3高出6.9%,而检测速度基本保持不变;比二阶段目标检测网络中应用比较广泛的Faster R-CNN高出5.1%,检测速度是其7.1倍,且空间复杂度仅为50.6 GFLOPS,即PAM-YOLO只需要使用更少的计算资源就可以完成模型的训练。图5为训练过程中的损失曲线,PAM-YOLO与YOLOv3均在训练100个Epoch后趋于稳定,而且PAM-YOLO的损失值更低,证明改进后的模型收敛效果更好,具有较好的鲁棒性。
表 1 基于Infrared-VOC数据集的不同目标检测模型实验结果
Table 1. Experimental results of different target detection models based on the Infrared-VOC dataset
Model GFLOPS FPS/frame·s-1 mAP@0.5 Faster R-CNN 224.5 6.5 77.1% SSD500 137 38 72.6% YOLOv3 155.1 48.2 75.3% PAM-YOLO 50.6 46 82.2% -
为了更好地理解PAM-YOLO中各个改进模块对检测效果的影响,下面将研究各个模块对模型的具体贡献。表2为基于Infrared-VOC数据集以YOLOv3为基准模型逐步增加损失函数、并行注意力机制和多尺度特征融合进行的消融实验。
表 2 基于Infrared-VOC数据集的消融实验
Table 2. Ablation experiment based on Infrared-VOC dataset
YOLOv3 CIoU loss and
focal lossPAConv PAM-YOLO GFLOPS Training
time/hmAP@0.5 AP@0.5 Car Bus √ 155.1 2.12 75.3% 72.9% 77.6% √ √ 155.1 2.10 77.1% 78.2% 76.0% √ √ 151.3 1.48 78.4% 80.1% 76.8% √ √ √ 151.3 1.48 80.4% 80.7% 80.1% √ √ √ √ 50.6 0.927 82.2% 81.4% 82.9% 从表2可以看出,结合损失函数的基准模型可以使网络对目标的定位和分类更加准确,改进后模型的mAP值比YOLOv3提升了1.8%,AP间的差值也明显减少,由4.7%降低到2.2%,且在训练过程中能够更快地收敛,使模型具有更好的鲁棒性。结合并行注意力机制后,线性变换产生的注意力聚焦和原始通道保留的信息进行互补,使mAP值比YOLOv3提升了3.1%,同时降低了模型的空间复杂度,使得训练时间由基准模型的2.12 h缩短为1.48 h,节省了训练时间和训练资源。将并行注意力机制和损失函数同时作用在基准模型上时,mAP值比基准模型提升了5.1%,表明损失函数和网络结构的共同优化可以有效提升目标检测模型的检测精度。最后构造的PAM-YOLO目标检测模型mAP值达到82.2%,比基准模型YOLOv3高出6.9%,同时空间复杂度仅为基准模型的32.6%,训练时间缩短为基准模型的43.7%。证明改进后的目标检测模型在提升目标检测效果的同时有效降低了模型的空间复杂度,在训练阶段减少了训练所需时间,有利于提升模型的训练效率;在部署阶段,有利于提升模型的更新速度。
为了进一步验证并行通道注意力机制与SE模块对于模型的实际作用,进行关于这两种注意力机制的消融实验。以结合损失函数的YOLOv3目标检测模型为基准,在相同位置加入不同的注意力模块进行对比实验。
表3为SE模块和并行注意力模块的对比试验结果。可以发现,SE模块通过聚合激励操作,为特征通道进行加权赋值,产生聚焦作用,与基准模型相比,mAP值提升了0.9%,但空间复杂度比基准模型增加了33.01%,参数量几乎保持不变。与基准模型相比,使用并行通道注意力机制的目标检测模型的mAP值提升了3.3%,参数量减少了4.69%,空间复杂度比基准模型降低了2.4%,训练时间是基准模型的70.5%,说明所提出的并行注意力机制能够在不增加空间复杂度的基础上对目标产生注意力,提升目标检测效果。
表 3 SE模块和PAM模块的对比试验
Table 3. Comparison test of SE module and PAM module
YOLOv3 with loss SE module PAM module GFLOPS Training time/h Parameters/M mAP@0.5 √ 155.1 2.10 59.66 77.1% √ √ 206.3 3.14 59.67 78.0% √ √ 151.3 1.48 56.86 80.4% 与使用SE模块的目标检测模型相比,使用并行通道注意力机制的目标检测模型的mAP提高了2.4%,参数量减少了4.71%,空间复杂度是使用SE模块的73.4%,训练时间是使用SE模块的47.1%。意味着该模型可以在同等计算资源下得到更快的训练并能取得更好的检测效果。
上述消融实验证明文中提出的并行注意力机制提高了模型的运行效率和检测精度,并未削弱地面红外车辆目标检测任务的注意力效果,同时说明文中提出的并行注意力机制更适用于地面红外车辆目标的检测。
图6为YOLOv3算法与文中改进算法在Infrared-VOC数据集上的检测效果对比图,其中,图6(a)为输入的原图,图6(b)为YOLOv3算法的检测效果图,图6(c)为文中改进算法的检测效果图。
YOLOv3将第2行图中右下方的摩托车误检为小汽车,对第3、4行图中边缘的不完整车辆产生了漏检;在第5、6行图中,PAM-YOLO能够对单张图像内相互遮挡和被其他物体遮挡的目标进行有效的检测,而YOLOv3则产生了较多漏检的情况。从对比图中可以看出,改进后的PAM-YOLO目标检测模型对于目标检测的整体置信度和检测效果均高于YOLOv3。证明改进后的检测模型具有较高的检测置信度和较好的检测稳定性,能够实现对地面背景下的红外目标进行准确地检测。
Ground infrared target detection method based on a parallel attention mechanism (Invited)
-
摘要: 地面背景下的红外目标检测是伪装防护、精确制导等领域的关键技术。针对现有基于深度学习的目标检测模型对地面背景下红外目标进行检测时容易受到复杂背景干扰、对目标关注不足,从而导致检测准确率不高的问题,文中提出了一种基于并行注意力机制的地面红外目标检测方法。首先,利用卷积和注意力并行的下采样方式,在降低模型的空间复杂度和提升训练速度的同时,对目标特征进行聚焦和关注;其次,对主干网络提取的多尺度特征进行融合,通过不同尺度信息的复用与互补抑制背景信息的干扰,提升目标检测的准确率;最后,利用焦点损失函数和CIOU损失函数提高模型的分类与回归精度。实验结果表明,在Infrared-VOC数据集上该模型的平均检测精度为82.2%,比YOLOv3提高了6.9%,同时模型的空间复杂度仅为YOLOv3的32.6%,训练时间为YOLOv3的43.7%,实现了模型训练效率和检测精度的提升。Abstract: Ground infrared target detection is a key technology in the fields of camouflage protection and precision guidance. For the current deep learning-based target detection model to detect infrared targets in the ground background, it is easy to be interfered by complex backgrounds and insufficient attention to the target, which leads to the problem of low detection accuracy. A method of ground infrared target detection based on a parallel attention mechanism was proposed. Firstly, the parallel down-sampling method of convolution and attention was used to reduce the spatial complexity of the model and increase the training speed, while focusing and paying attention to the target features. Secondly, the multi-scale features extracted by the backbone network were fused to suppress the interference of background information and improve the accuracy of target detection through the multiplexing and complementary of different scale information. Finally, the focal loss and CIOU loss were used to improve the classification and regression accuracy of the model. The experiment results showed that the average detection accuracy of the model on the Infrared-VOC dataset was 82.2%, which was 6.9% higher than YOLOv3. At the same time, the space complexity of the model was only 32.6% of YOLOv3, and the training time was 43.7% of YOLOv3. The improvement of model training efficiency and detection accuracy was achieved.
-
Key words:
- infrared target detection /
- parallel attention mechanism /
- deep learning /
- YOLOv3 /
- training efficiency
-
表 1 基于Infrared-VOC数据集的不同目标检测模型实验结果
Table 1. Experimental results of different target detection models based on the Infrared-VOC dataset
Model GFLOPS FPS/frame·s-1 mAP@0.5 Faster R-CNN 224.5 6.5 77.1% SSD500 137 38 72.6% YOLOv3 155.1 48.2 75.3% PAM-YOLO 50.6 46 82.2% 表 2 基于Infrared-VOC数据集的消融实验
Table 2. Ablation experiment based on Infrared-VOC dataset
YOLOv3 CIoU loss and
focal lossPAConv PAM-YOLO GFLOPS Training
time/hmAP@0.5 AP@0.5 Car Bus √ 155.1 2.12 75.3% 72.9% 77.6% √ √ 155.1 2.10 77.1% 78.2% 76.0% √ √ 151.3 1.48 78.4% 80.1% 76.8% √ √ √ 151.3 1.48 80.4% 80.7% 80.1% √ √ √ √ 50.6 0.927 82.2% 81.4% 82.9% 表 3 SE模块和PAM模块的对比试验
Table 3. Comparison test of SE module and PAM module
YOLOv3 with loss SE module PAM module GFLOPS Training time/h Parameters/M mAP@0.5 √ 155.1 2.10 59.66 77.1% √ √ 206.3 3.14 59.67 78.0% √ √ 151.3 1.48 56.86 80.4% -
[1] Li Weipeng, Lu Ruitao, Yang Xiaogang, et al. An improved semi-supervised transfer learning method for infrared object detection neural network [J]. Infrared and Laser Engineering, 2021, 50(3): 20200511. (in Chinese) [2] Lu Fuxing, Chen Xin, Chen Guilin, et al. Dim and small target detection based on background adaptive multi-feature fusion [J]. Infrared and Laser Engineering, 2019, 48(3): 0326002. (in Chinese) [3] Zhang Lei, Zhu Shuai, Liu Tianyu, et al. Tracking of dense group targets based on motion grouping [J]. Infrared and Laser Engineering, 2020, 49(11): 20200284. (in Chinese) [4] Chen Faling, Ding Qinghai, Luo Haibo, et al. Anti-occlusion real time target tracking algorithm employing spatio-temporal context [J]. Infrared and Laser Engineering, 2021, 50(1): 20200105. (in Chinese) [5] Zhao Xiaofeng, Xu Mingyang, Wang Danpiao, et al. Infrared camouflage detection method for special vehicles based on improved SSD [J]. Infrared and Laser Engineering, 2019, 48(11): 1104003. (in Chinese) [6] Zhao X, Xu Y, Wu F, et al. IYOLO: Multi-scale infrared target detection method based on bidirectional feature fusion [J]. Journal of Physics: Conference Series, 2021, 1873(1): 12-20. [7] Zhang Chi, Tan Nanlin, Li Guozheng, et al. Pedestrian detection algorithm for infrared image based on multi-level features [J]. Computer Engineering, 2020, 46(4): 260-265. (in Chinese) [8] Chen Ming, Zhao Lianfei, Yuan Limin, et al. Insulator detection method based on feature selection YOLOv3 network [J]. Infrared and Laser Engineering, 2020, 49(S2): 20200401. (in Chinese) [9] Wei Shuigen, Wang Chengwei, Chen Zhen. Infrared dim target detection based on human visual mechanism[J]. Acta Photonica Sinica, 2021, 50(1): 0110001. (in Chinese) [10] Liu Xu, Cui Wennan. Infrared-image-based detection of dim and small targets using human visual contrast mechanism [J]. Infrared Technology, 2020, 42(6): 559-565. (in Chinese) doi: 10.3724/SP.J.7102068592 [11] Liu Junming, Meng Weihua. Infrared small target detection based on fully convolutional neural network and visual saliency [J]. Acta Photonica Sinica, 2020, 49(7): 0710003. (in Chinese) [12] Hu J, Shen L, Sun G. Squeeze-and-excitation networks [C]//Proceedings of the IEEE Conference on Computer Vision And Pattern Recognition, 2018: 7132-7141. [13] Cai Tijian, Peng Xiaoyu, Shi Yapeng, et al. Channel attention and residual concatenation network for image super-resolution [J]. Optics and Precision Engineering, 2021, 29(1): 142-151. (in Chinese) doi: 10.37188/OPE.20212901.0142 [14] Chollet F. Xception: Deep learning with depthwise separable convolutions [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 1800-1807. [15] Han K, Wang Y, Tian Q, et al. Ghostnet: More features from cheap operations [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 1580-1589. [16] Krizhevsky A, Sutskever I, Hinton G E. Image net classification with deep convolutional neural networks [J]. Communications of the ACM, 2017, 60(6): 84-90. [17] Lin T Y, Dollar P, Girshick R, et al. Feature pyramid networks for object detection [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE Computer Society, 2017. [18] Qiu Xiaohua, Li Min, Deng Guangmang, et al. Multi-layer convolutional features fusion for dual-band decision-level ship recognition [J]. Optics and Precision Engineering, 2021, 29(1): 183-190. (in Chinese) doi: 10.37188/OPE.20212901.0183 [19] Zheng Z, Wang P, Liu W, et al. Distance-IoU loss: Faster and better learning for bounding box regression [C]//Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 12993-13000. [20] Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection [C]//Proceedings of the IEEE International Conference on Computer Vision, 2017: 2980-2988.