留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

使用Lp归一化权重的红外目标检测网络压缩

李维鹏 杨小冈 李传祥 卢瑞涛 谢学立 何川

李维鹏, 杨小冈, 李传祥, 卢瑞涛, 谢学立, 何川. 使用Lp归一化权重的红外目标检测网络压缩[J]. 红外与激光工程, 2021, 50(8): 20200510. doi: 10.3788/IRLA20200510
引用本文: 李维鹏, 杨小冈, 李传祥, 卢瑞涛, 谢学立, 何川. 使用Lp归一化权重的红外目标检测网络压缩[J]. 红外与激光工程, 2021, 50(8): 20200510. doi: 10.3788/IRLA20200510
Li Weipeng, Yang Xiaogang, Li Chuanxiang, Lu Ruitao, Xie Xueli, He Chuan. Infrared object detection network compression using Lp normalized weight[J]. Infrared and Laser Engineering, 2021, 50(8): 20200510. doi: 10.3788/IRLA20200510
Citation: Li Weipeng, Yang Xiaogang, Li Chuanxiang, Lu Ruitao, Xie Xueli, He Chuan. Infrared object detection network compression using Lp normalized weight[J]. Infrared and Laser Engineering, 2021, 50(8): 20200510. doi: 10.3788/IRLA20200510

使用Lp归一化权重的红外目标检测网络压缩

doi: 10.3788/IRLA20200510
基金项目: 国家自然科学基金(61806209,61773389);陕西省自然科学基金(2020JQ-490);航空基金(201851U8012)
详细信息
    作者简介:

    李维鹏,男,博士生,主要从事计算机视觉、深度学习、模式识别等方面的研究

    杨小冈,男,教授,博士生导师,博士,主要从事视觉导航、目标检测、图像处理等方面的研究

  • 中图分类号: TP391.4

Infrared object detection network compression using Lp normalized weight

  • 摘要: 针对红外图像相比于RGB图像纹理较少的特性,提出一种使用Lp归一化权重的红外目标检测网络压缩方法,旨在改进基于卷积神经网络的目标检测方法对红外图像场景的适应性,在压缩网络规模的同时提升其泛化能力。首先阐述了Lp归一化权重的稀疏性可以通过调节p进行精确控制这一现象。基于该现象,提出了一种目标检测网络稀疏化训练方法。该方法分别使用Lp球面梯度下降与经典梯度下降训练主干网络和检测器,以平衡网络规模与拟合精度。仿真红外数据集测试结果表明,其在网络规模和目标检测精度方面均优于稠密模型:在网络规模上,稀疏化方法将Faster R-CNN、(Single Shot multibox Detector,SSD)与YOLOv3的有效参数分别减少了52%、78%和66%;在检测精度上,稀疏化方法将Faster R-CNN、SSD和YOLOv3的(mean Average Precision, mAP)分别提高了0.1%、0.3%和0.2%,验证了所提出方法的有效性。
  • 图  1  单个神经元权重分布随p的变化

    Figure  1.  Weight distribution of a neuron with respect to p

    图  2  卷积层权重稀疏性随p的变化

    Figure  2.  Sparsity of weight with respect to p at convolutional layers

    图  3  目标检测网络稀疏化训练流程

    Figure  3.  Training process of sparse neural network for object detection

    图  4  经典网络和稀疏化网络红外目标检测结果对比

    Figure  4.  Result comparison of infrared object detection between classical neural networks and sparse neural networks

    图  5  SGD和LpSGD收敛过程对比

    Figure  5.  Comparison of convergence process between SGD and LpSGD

    表  1  红外仿真数据集

    Table  1.   Simulated infrared dataset

    ClassificationTrainingTestTotal
    Class 120828236
    Class 221026236
    Class 321930249
    Class 419229221
    Total829113942
    下载: 导出CSV

    表  2  红外仿真数据集目标检测模型及其结果

    Table  2.   Object detection model and result on simulated infrared dataset

    MethodScaleAPmAP
    BackboneDetectorClass 1Class 2Class 3Class 4
    Faster R-CNNDense26 852 41614 511 1400.9120.8850.9270.9720.925
    Sparse5 337 35214 511 1300.9100.8750.9360.9820.926
    SSD300Dense 22 943 9361 202 9580.8930.8790.9140.9650.914
    Sparse4 103 3961 202 9580.8890.8670.9240.9810.917
    YOLOv3Dense55 294 6886 245 1960.9140.8980.9190.9720.926
    Sparse14 829 7426 245 1960.9060.8950.9270.9840.928
    下载: 导出CSV

    表  3  VOC2007数据集目标检测模型及其结果

    Table  3.   Object detection model and result on VOC2007 dataset

    MethodFaster R-CNNSSD 300YOLOv3
    DenseSparseDenseSparseDenseSparse
    Nonzero parametersBackbone26 852 41615 756 21622 943 93614 995 95255 294 68837 291 638
    Detector14 593 14014 593 1403 341 5503 341 5506 331 3576 331 357
    APAero0.8330.8260.8540.8470.8010.802
    Bike0.7810.7730.7980.7950.8480.845
    Bird0.7350.7370.7020.7120.7160.726
    Boat0.5320.5280.5680.5430.6520.641
    Bottle0.4870.4930.4570.4740.6380.647
    Bus0.7740.7650.7900.7810.8610.858
    Car0.7450.7480.7570.7520.8580.859
    Cat0.8870.8720.7560.7650.8470.857
    Chair0.4490.4430.8710.8650.5470.541
    Cow0.7650.7710.5240.5420.7150.725
    Table0.5480.5360.7680.7640.6900.681
    Dog0.8650.8570.6050.6120.8280.827
    Horse0.8170.8250.8680.8740.8420.846
    Mbike0.8040.7980.8240.8460.8210.831
    Person0.7940.7820.8200.8110.8070.802
    Plant0.3910.3870.4580.4470.4410.437
    Sheep0.7230.7250.7520.7470.6960.688
    Sofa0.6080.5950.6910.6980.6990.696
    Train0.8090.8140.8090.8120.8250.834
    Tv0.6120.6070.6720.6670.7180.722
    mAP0.6980.6940.7170.7180.7420.743
    下载: 导出CSV
  • [1] Lienhart R, Maydt J. An extended set of Haar-like features for rapid object detection[C]//International Conference on Image Processing, 2002.
    [2] Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]//IEEE Computer Society Conference on Computer Vision & Pattern Recognition, 2005.
    [3] Lowe D G. Distinctive image features from scale-invariant keypoints [J]. International Journal of Computer Vision, 2004, 60(2): 91-110. doi:  10.1023/B:VISI.0000029664.99615.94
    [4] Bay H, Ess A, Tuytelaars T, et al. Speeded-up robust features [J]. Computer Vision and Image Understanding, 2008, 110(3): 346-359. doi:  10.1016/j.cviu.2007.09.014
    [5] Li X, Wang L, Sung E. AdaBoost with SVM-based component classifiers [J]. Engineering Applications of Artificial Intelligence, 2008, 21(5): 785-795. doi:  10.1016/j.engappai.2007.07.001
    [6] Felzenszwalb P F, Huttenlocher D P. Pictorial structures for object recognition [J]. International Journal of Computer Vision, 2005, 61(1): 55-79. doi:  10.1023/B:VISI.0000042934.15159.49
    [7] Felzenszwalb P F, Girshick R B, McAllester D. Cascade object detection with deformable part models[C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2010: 2241-2248.
    [8] Felzenszwalb P F, Girshick R B, Mcallester D A. Visual object detection with deformable part models[C]//The Twenty-Third IEEE Conference on Computer Vision and Pattern Recognition, 2010.
    [9] Zhang Xiuling, Hou Daibiao, Zhang Chengcheng, et al. Design of MPCANet fire image recognition model for deep learning [J]. Infrared and Laser Engineering, 2018, 47(2): 0203006. (in Chinese) doi:  10.3788/IRLA201847.0203006
    [10] Gong Junliang, He Xin, Wei Zhonghui, et al. Infrared dim and small target detection method using scale-space theory [J]. Infrared and Laser Engineering, 2013, 42(9): 2566-2573. (in Chinese) doi:  10.3969/j.issn.1007-2276.2013.09.048
    [11] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137-1149.
    [12] Dai J, Li Y, He K, et al. R-FCN: Object detection via region-based fully convolutional networks[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. 2016: 379-387.
    [13] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision & Pattern Recognition, 2016: 779-788.
    [14] Liu W, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector[C]//European Conference on Computer Vision, 2016: 21-37.
  • [1] 李东亮, 卢贝.  基于深度神经网络的光纤传感识别算法 . 红外与激光工程, 2022, 51(9): 20210971-1-20210971-6. doi: 10.3788/IRLA20210971
    [2] 宦克为, 李向阳, 曹宇彤, 陈笑.  卷积神经网络结合NSST的红外与可见光图像融合 . 红外与激光工程, 2022, 51(3): 20210139-1-20210139-8. doi: 10.3788/IRLA20210139
    [3] 李保华, 王海星.  基于增强卷积神经网络的尺度不变人脸检测方法 . 红外与激光工程, 2022, 51(7): 20210586-1-20210586-8. doi: 10.3788/IRLA20210586
    [4] 齐悦, 董云云, 王溢琴.  基于汇聚级联卷积神经网络的旋转人脸检测方法 . 红外与激光工程, 2022, 51(12): 20220176-1-20220176-8. doi: 10.3788/IRLA20220176
    [5] 赵晓枫, 徐叶斌, 吴飞, 牛家辉, 蔡伟, 张志利.  基于并行注意力机制的地面红外目标检测方法(特邀) . 红外与激光工程, 2022, 51(4): 20210290-1-20210290-8. doi: 10.3788/IRLA20210290
    [6] 陈文艺, 许洁, 杨辉.  利用双神经网络的相机标定方法 . 红外与激光工程, 2021, 50(11): 20210071-1-20210071-9. doi: 10.3788/IRLA20210071
    [7] 赵毅强, 艾西丁·艾克白尔, 陈瑞, 周意遥, 张琦.  基于体素化图卷积网络的三维点云目标检测方法 . 红外与激光工程, 2021, 50(10): 20200500-1-20200500-9. doi: 10.3788/IRLA20200500
    [8] 张宏伟, 李晓霞, 朱斌, 张杨.  基于孪生神经网络的两阶段目标跟踪方法 . 红外与激光工程, 2021, 50(9): 20200491-1-20200491-12. doi: 10.3788/IRLA20200491
    [9] 李维鹏, 杨小冈, 李传祥, 卢瑞涛, 黄攀.  红外目标检测网络改进半监督迁移学习方法 . 红外与激光工程, 2021, 50(3): 20200511-1-20200511-8. doi: 10.3788/IRLA20200511
    [10] 范明明, 田少卿, 刘凯, 赵嘉鑫, 李云松.  基于梯度方向一致性和特征分解的红外小目标检测算法 . 红外与激光工程, 2020, 49(1): 0126001-0126001(12). doi: 10.3788/IRLA202049.0126001
    [11] 赵东波, 李辉.  基于中心矩特征和GA-BP神经网络的雷达目标识别 . 红外与激光工程, 2018, 47(8): 826005-0826005(7). doi: 10.3788/IRLA201847.0826005
    [12] 李方彪, 何昕, 魏仲慧, 何家维, 何丁龙.  生成式对抗神经网络的多帧红外图像超分辨率重建 . 红外与激光工程, 2018, 47(2): 203003-0203003(8). doi: 10.3788/IRLA201847.0203003
    [13] 郭强, 芦晓红, 谢英红, 孙鹏.  基于深度谱卷积神经网络的高效视觉目标跟踪算法 . 红外与激光工程, 2018, 47(6): 626005-0626005(6). doi: 10.3788/IRLA201847.0626005
    [14] 田岳鑫, 高昆, 刘莹, 卢岩, 倪国强.  一种基于广义累积和的多波段红外变异点目标检测方法 . 红外与激光工程, 2016, 45(5): 526001-0526001(6). doi: 10.3788/IRLA201645.0526001
    [15] 张东彦, 赵晋陵, 黄林生, 马雯萩.  用于高光谱图像分类的归一化光谱指数的构建与应用 . 红外与激光工程, 2014, 43(2): 586-594.
    [16] 底晓强, 母一宁, 李锦青, 杨华民.  一种基于TLM超混沌细胞神经网络图像加密新算法 . 红外与激光工程, 2014, 43(12): 4170-4176.
    [17] 万磊, 曾文静, 张铁栋, 秦再白.  基于梯度信息融合的海面红外目标实时检测 . 红外与激光工程, 2013, 42(1): 41-45.
    [18] 孙韶媛, 李琳娜, 赵海涛.  采用KPCA和BP神经网络的单目车载红外图像深度估计 . 红外与激光工程, 2013, 42(9): 2348-2352.
    [19] 赵春晖, 刘振龙.  改进的红外图像神经网络非均匀性校正算法 . 红外与激光工程, 2013, 42(4): 1079-1083.
    [20] 曲仕茹, 杨红红.  采用Kalman_BP神经网络的视频序列多目标检测与跟踪 . 红外与激光工程, 2013, 42(9): 2553-2560.
  • 加载中
图(6) / 表(3)
计量
  • 文章访问数:  322
  • HTML全文浏览量:  157
  • PDF下载量:  36
  • 被引次数: 0
出版历程
  • 收稿日期:  2021-04-10
  • 修回日期:  2021-05-12
  • 刊出日期:  2021-08-25

使用Lp归一化权重的红外目标检测网络压缩

doi: 10.3788/IRLA20200510
    作者简介:

    李维鹏,男,博士生,主要从事计算机视觉、深度学习、模式识别等方面的研究

    杨小冈,男,教授,博士生导师,博士,主要从事视觉导航、目标检测、图像处理等方面的研究

基金项目:  国家自然科学基金(61806209,61773389);陕西省自然科学基金(2020JQ-490);航空基金(201851U8012)
  • 中图分类号: TP391.4

摘要: 针对红外图像相比于RGB图像纹理较少的特性,提出一种使用Lp归一化权重的红外目标检测网络压缩方法,旨在改进基于卷积神经网络的目标检测方法对红外图像场景的适应性,在压缩网络规模的同时提升其泛化能力。首先阐述了Lp归一化权重的稀疏性可以通过调节p进行精确控制这一现象。基于该现象,提出了一种目标检测网络稀疏化训练方法。该方法分别使用Lp球面梯度下降与经典梯度下降训练主干网络和检测器,以平衡网络规模与拟合精度。仿真红外数据集测试结果表明,其在网络规模和目标检测精度方面均优于稠密模型:在网络规模上,稀疏化方法将Faster R-CNN、(Single Shot multibox Detector,SSD)与YOLOv3的有效参数分别减少了52%、78%和66%;在检测精度上,稀疏化方法将Faster R-CNN、SSD和YOLOv3的(mean Average Precision, mAP)分别提高了0.1%、0.3%和0.2%,验证了所提出方法的有效性。

English Abstract

    • 目标检测是进行场景内容理解等高级视觉任务的前提,已广泛应用于智能视频监控、基于内容的图像检索、视觉导航等任务中。传统的目标检测主要使用人工设计的特征(如HAAR[1]、HOG[2]、SHIFT[3]、SURF[4]等),在滑动窗口下使用分类器进行判别,其代表方法有Adaboost-SVM[5]和形变部件模型(DPM)[6-8]。上述方法开创了实用化的目标检测之先河,在便携式设备和机器人等领域有着广泛应用。但由于人工设计特征的性能所限,传统方法的准确率始终不高,且通常对新的图像缺乏足够的泛化能力。

      相比传统目标检测方法,基于卷积神经网络(CNN)的目标检测方法在准确率方面具有显著优势。CNN通过大量参数拟合各类不同的情形,使用多层架构逐步抽象目标信息,极大地提升了目标检测的泛化能力。然而当前基于CNN的目标检测相关研究集中于RGB图像等多通道图像,而对红外目标检测的研究相对较少。另一方面,红外目标检测领域的相关研究多为针对特定类型目标(例如火灾[9])的检测识别,或弱小目标检测[10],而在多分类红外目标检测方面依然欠缺。

      基于CNN的目标检测架构可分为两大模块:CNN主干网络(Backbone)和检测器网络(Detector),其中CNN主干网络主要用于多层特征提取,检测器主要负责输出目标位置及其类别。由于红外图像与RGB等多通道图像的最大区别在于图像特征层面,红外目标检测的关键在于优化CNN主干网络,检测器部分则可采用Faster R-CNN[11]、R-FCN[12]、YOLO[13]、SSD[14]等现有方法。相比于RGB图像,红外图像有两大特点:其一,标注数据不足,训练样本相对较少;其二,红外图像的纹理信息远少于RGB图像。上述特点决定了CNN在红外图像中所能有效训练的参数数量远低于RGB图像,因此需要通过约束和在线剪枝剔除冗余参数,避免过拟合。考虑到对网络权重进行Lp归一化能够有效控制神经网络的稀疏性,文中提出了一种使用Lp归一化权重的红外目标检测网络压缩方法,主要用于改进基于CNN的目标检测架构在红外目标检测上的适应性,在压缩网络规模的同时提升其泛化能力。实验结果表明该方法显著降低了红外目标检测网络的权重数目,同时提升了红外目标检测测试精度,验证了所提出方法的有效性。

    • 给定L层神经网络,其每个神经元的权重被约束在单位Lp球面上,该神经网络模型为:

      $$\begin{array}{l} {\hat{\boldsymbol y}} = f({\boldsymbol{x}};\vartheta ), \\ {\rm{s.t.}}\quad ||{\boldsymbol{w}}_j^{(l)}|{|_{{p^{(l)}}}} = 1,l = 1,2, \cdots ,L,j = 1,2, \cdots ,{J^{(l)}}, \\ \end{array} $$ (1)

      式中:x为网络输入;${\hat{\boldsymbol y}}$为网络输出;$\vartheta = \{ {\boldsymbol{w}},b\} $为网络的权重和偏置的集合;${{\boldsymbol{w}}_j}^{(l)}$表示l层的第j个权重;$b_j^{(l)}$为对应的偏置项;$||{\boldsymbol{w}}|{|_p} = 1$表示神经元的权重被约束在单位Lp球面上,即对其进行Lp归一化。

      为了说明为权重引入Lp归一化的意义,首先阐述该约束对神经网络的权重稀疏性的影响,而受约束神经网络的训练方法将在下一节予以介绍。

      图1所示为公式(1)所定义网络的某个神经元的权重分布随p的变化,其中横坐标为p,纵坐标为权重序号,其每一列表示特定p下的权重分布,越亮的部分权重幅度越大。可以观察到随着p的增大,权重分布变得越来越稠密。该现象说明网络的稀疏性可以通过p进行控制。由于图中黑色部分的权重很小且接近于0,这些权重可以被安全地移除而不影响网络的准确性,从而实现神经网络的稀疏化。

      图  1  单个神经元权重分布随p的变化

      Figure 1.  Weight distribution of a neuron with respect to p

      为了量化评估网络权重的稀疏性与p之间的关系,在Fashion-MNIST数据集上测试有监督训练下公式(1)所定义CNN的三个卷积层的权重稀疏性随p的变化,结果如图2所示。容易发现卷积层的权重稀疏性与p有着显著的负相关关系,且不同卷积层所遵循的规律高度一致,说明通过调节p能够精确地控制网络各层的权重稀疏性。基于这一规律,文中设计了目标检测网络稀疏化训练方法,下面予以介绍。

      图  2  卷积层权重稀疏性随p的变化

      Figure 2.  Sparsity of weight with respect to p at convolutional layers

    • 当前主流的目标检测模型,无论是单阶段目标检测(Single stage object detector)还是两阶段目标检测(Two-stage object detector),可大体上分为两大部分:负责特征提取的CNN主干网络(Backbone)与负责输出目标位置和类别的检测器网络(Detector)。通常情况下,主干网络相比检测器参数数目更多,模型规模更大,故对主干网络进行稀疏化能够有效压缩目标检测模型规模。另一方面,检测器中的边框回归(Bounding-box regression)与分类器(Classifier)对权重的总体幅度较为敏感,不适合采用Lp归一化的权重。综合上述因素,文中所用目标检测器的训练流程如图3所示,其中主干网络以及邻接的Neck模块使用文中提出的Lp球面梯度下降法(LpSGD)进行训练,将特征提取网络权重稀疏化;目标检测器及其附属部分使用经典的梯度下降法(SGD)训练,以保证边框回归和分类器的精度。

      图  3  目标检测网络稀疏化训练流程

      Figure 3.  Training process of sparse neural network for object detection

    • $\vartheta = \{ {\boldsymbol{w}}_j^{(l)},{b_j},l = 1,2, \cdots ,L,j = 1,2, \cdots ,{J^{(l)}}\} $表示网络各层权重与偏置的集合,则公式(1)所定义的网络可通过约束条件下的经验风险最小化(Empirical Risk Minimization, ERM)进行训练:

      $$\begin{array}{l} \mathop {\min }\limits_\vartheta R = \dfrac{1}{n}\displaystyle\sum\limits_{i = 1}^n {{\mathcal{L}}\left( {{{{\hat{\boldsymbol y}}}_i},{{\boldsymbol{y}}_i}} \right)} \\ {\rm{s.t.}}\quad {\left\| {{\boldsymbol{w}}_j^{(l)}} \right\|_{{p^{(l)}}}} = 1,l = 1,2, \cdots ,L,j = 1,2, \cdots ,{m^{(l)}} \\ \end{array} $$ (2)

      式中:${\mathcal{L}}\left( {{{{\hat{\boldsymbol y}}}_i},{{\boldsymbol{y}}_i}} \right)$表示网络关于第i个训练样本预测值的损失函数(Loss function),${{\hat{\boldsymbol y}}_i}$${{{\boldsymbol{y}}_i}} $分别为网络输出的预测值和标注值。

      对应的增广ERM为:

      $$\mathop {\min }\limits_\vartheta {R^*} = R + \sum\limits_{l = 1}^L {\sum\limits_j {\frac{{\lambda _j^{(l)}}}{{{p^{(l)}}}}(||{{\boldsymbol{w}}_j}^{(l)}||_{{p^{(l)}}}^{{p^{(l)}}} - 1)} } $$ (3)

      式中:$\lambda _j^{(l)}$为关于${{\boldsymbol{w}}_j}^{(l)}$归一化约束的拉格朗日乘子(Lagrange multiplier),同时为${{\boldsymbol{w}}_j}^{(l)}$的归一化系数。

      对公式(3)求关于${{\boldsymbol{w}}_j}^{(l)}$的导数,得到方程:

      $$\lambda _j^{(l)}{\left( {{{\boldsymbol{w}}_j}^{(l)}} \right)^{[{p^{(l)}} - 1]}} = - {\nabla _{{{\boldsymbol{w}}_j}^{(l)}}}R\left( {{{\boldsymbol{w}}_j}^{(l)}} \right),l = 1,2, \cdots ,L$$ (4)

      $ {\nabla _{\boldsymbol{w}}}R $表示$R$关于w的梯度,${\left( {{{\boldsymbol{w}}_j}^{(l)}} \right)^{[{p^{(l)}} - 1]}}$满足:

      $${{\boldsymbol{w}}^{[p]}} = {\rm{sgn}} ({\boldsymbol{w}}) \circ |{\boldsymbol{w}}{|^p}$$ (5)

      表示向量w每个元素的p次幂乘以其对应符号,即${{\boldsymbol{w}}^{[p]}}$的每个元素满足$w_j^{[p]} = {\rm{sgn}} ({w_j})|{w_j}{|^p}$

      为了对${\boldsymbol{w}}$进行Lp归一化,$\lambda _j^{(l)}$应满足:

      $$\lambda _j^{(l)} = {\left\| {{\nabla _{{\boldsymbol{w}}_j^{(l)}}}R\left( {{\boldsymbol{w}}_j^{(l)}} \right)} \right\|_q}$$ (6)

      式中:$q = p/(p - 1) $

      记:

      $$\Delta ({\boldsymbol{w}}) = {\left[ {\frac{{{\nabla _{\boldsymbol{w}}}R({\boldsymbol{w}})}}{\lambda }} \right]^{[q - 1]}}$$ (7)

      为权重w的特征函数。将公式(7)代入公式(4)得到最优权重应当满足:

      $${{\boldsymbol{w}}_j}^{(l)} = - \Delta ({{\boldsymbol{w}}_j}^{(l)})$$ (8)

      设权重的更新率为η,将公式(8)展开表示为:

      $${{\boldsymbol{w}}_j}^{(l)} = (1 - \eta ){{\boldsymbol{w}}_j}^{(l)} - \eta \Delta ({{\boldsymbol{w}}_j}^{(l)})$$ (9)

      得到$t + 1$次迭代的权重满足:

      $${{\boldsymbol{w}}_j}^{(l,t + 1)} = \frac{1}{{\rho _j^{(l,t + 1)}}}\left[ {(1 - \eta ){{\boldsymbol{w}}_j}^{(l,t)} - \eta \Delta ({{\boldsymbol{w}}_j}^{(l,t)})} \right]$$ (10)

      式中:$\;\rho _j^{(l,t + 1)} = {\left\| {(1 - \eta ){{\boldsymbol{w}}_j}^{(l,t)} - \eta \Delta ({{\boldsymbol{w}}_j}^{(l,t)})} \right\|_{{q^{(l)}}}}$表示${{\boldsymbol{w}}_j}^{(l,t + 1)}$的归一化系数;${{\boldsymbol{w}}_j}^{(l,t)}$${{\boldsymbol{w}}_j}^{(l,t + 1)}$分别表示${{\boldsymbol{w}}_j}^{(l)}$在第t次和第$t + 1$次迭代的值。

      随后,每隔若干次迭代将各个神经元中绝对值小于阈值(接近于0)的权重进行剪枝,从而将神经网络稀疏化。

      偏置的更新率与权重更新率保持一致,但使用经典梯度下降予以优化:

      $${b_j}^{(l,t + 1)} = {b_j}^{(l,t)} - \eta \;{\nabla _{{b_j}^{(l)}}}R({b_j}^{(l,t)})$$ (11)

      式中:${\nabla _{{b_j}^{(l)}}}R({b_j}^{(l,t)})$是经验损失函数关于偏置${b_j}^{(l)}$的梯度。

      LpSGD的伪代码见算法1。需要说明的是,由于神经网络的参数规模相对数据集常常是过拟合的,Lp归一化既能压缩网络规模,又能提升其泛化能力。另外,LpSGD可以方便的与Momentum、RMSprop、Adam等方法相结合,从而为公式(1)所定义的受约束模型提供多样化的训练方法。

      算法1: LpSGD

      Algorithm 1: LpSGD

      Input: Neural network (1), dataset with inputs {x1,···, xn} and label {y1,···, yn}, Update ratio η, norm parameter p(l), l = 1,···, L, topology evolution frequency T, BatchSize, Epoches.

      Output: Parameters of network $\vartheta = \{ {\boldsymbol{w}}_j^{(l)},b_j^{(l)},l = $$ 1, \cdots , L,j = 1, \cdots ,{J^{(l)}}\} $

      1. Initialize parameters of neural network $\vartheta $, and the feature function of weights defined in function (1);

      2. FOR Each Epoch

      3. FOR Each Batch

      4. Sampling BatchSize number of data form training dataset;

      5. FOR l=1, ···, L

      6. Update weight with function (10);

      7. Update bias with funciton (11);

      8. IF batchNumber is divisible by T

      9. Drop the connection whose weight close to zero;

      10. END IF

      11. END FOR

      12. END FOR

      13. END FOR

    • 为对比稠密目标检测网络和稀疏目标检测网络的性能,文中选用包含四类目标的小规模红外仿真数据集进行算法验证。该数据集由实验室开发的红外仿真生成软件生成,共包含942个标注物体,其中829个为训练样本,113个为测试样本,数据集的详细统计信息如表1所示。实验使用Faster R-CNN、SSD300、YOLOv3作为基准模型,上述三个模型首先在训练集上分别进行50、70、105个Epoch的训练,随后在测试集中验证其精度。实验硬件环境为Nvidia TITAN X GPU,Intel Exon E5-2667 CPU;软件环境为Unbuntu 16.04,Pytorch 1.5,Mdetection 2。

      表 1  红外仿真数据集

      Table 1.  Simulated infrared dataset

      ClassificationTrainingTestTotal
      Class 120828236
      Class 221026236
      Class 321930249
      Class 419229221
      Total829113942

      实验中部分代表性的检测结果如图4所示,其中每行为同一幅图片使用不同方法的检测结果,第一列至第四列分别为Faster R-CNN、稀疏化Faster R-CNN、SSD300、稀疏SSD300,最后一列为标注(Ground truth)。可以看出在第一行中,四种方法的检测结果相当,定位和分类结果基本一致;第二行中,稀疏模型输出结果(g)、(i)的定位精度优于对应的稠密模型输出结果(f)、(h),且(i)修正了(h)中的一个漏检;第三行的结果中,稀疏SSD修正了稠密SSD的冗余边框(图4(m));第四行中,稀疏模型检测出的边框要比稠密模型更加紧凑,精度更高。

      图  4  经典网络和稀疏化网络红外目标检测结果对比

      Figure 4.  Result comparison of infrared object detection between classical neural networks and sparse neural networks

      下面从定量的角度评估稀疏网络相比于稠密网络的参数压缩比例及其准确率的变化。其中模型规模(Scale)使用非0参数数量评价,模型精度使用mAP表示,并在包含113个样本的测试集上验证各个模型的mAP。为了平衡模型参数数目与精度,稀疏网络的训练当中主干网络的前4层使用p = 1.3,后面所有层使用p = 1.15进行稀疏化,各个模型的有效参数的数目和检测精度如表2所示。

      表 2  红外仿真数据集目标检测模型及其结果

      Table 2.  Object detection model and result on simulated infrared dataset

      MethodScaleAPmAP
      BackboneDetectorClass 1Class 2Class 3Class 4
      Faster R-CNNDense26 852 41614 511 1400.9120.8850.9270.9720.925
      Sparse5 337 35214 511 1300.9100.8750.9360.9820.926
      SSD300Dense 22 943 9361 202 9580.8930.8790.9140.9650.914
      Sparse4 103 3961 202 9580.8890.8670.9240.9810.917
      YOLOv3Dense55 294 6886 245 1960.9140.8980.9190.9720.926
      Sparse14 829 7426 245 1960.9060.8950.9270.9840.928

      表2中可以看到,无论对于Faster R-CNN、SSD还是YOLOv3而言,稀疏模型相比于稠密模型的有效参数数量均显著减少,同时mAP都有着少量提升。尤其是在SSD上,稀疏网络相比稠密网络参数的压缩比达到了78%,且mAP提升了0.3个百分点。相比于Faster R-CNN的稀疏化,SSD和YOLOv3的稀疏化无论是在参数压缩比还是精度方面都有着更加明显的优势,说明文中的稀疏化方法相比于两阶段模型而言更加适用于单阶段模型。究其原因在于SSD、YOLOv3这样的单阶段模型参数主要集中于主干网络当中,而Faster R-CNN这类的两阶段模型在Detector部分的Region Proposal Networks(RPN)上有着大量的参数,这些参数是不能够通过LpSGD算法进行稀疏化的,否则将极大地降低检测精度。关于mAP的少量提升,文中认为是稠密模型在数据集中过拟合,而稀疏化后模型规模减小使得过拟合程度减轻所致。另外,相比于Class 3和Class 4而言,Class 1与Class 2的图像更加复杂,故而网络稀疏化后造成了一定的特征损失,检测精度有所下降。

      此外为了检验LpSGD算法收敛性,将红外仿真数据集上稠密网络和稀疏网络的收敛过程进行对比,如图5所示,其中图(a)~(c)分别展示了Faster R-CNN、SSD、YOLOv3的训练损失随迭代次数的变化。可以看到LpSGD与SGD训练过程当中的损失函数收敛过程基本一致,说明LpSGD与SGD的收敛性相近,且对网络进行稀疏化并不会显著降低模型的拟合能力。

      图  5  SGD和LpSGD收敛过程对比

      Figure 5.  Comparison of convergence process between SGD and LpSGD

    • 为更加客观地评价LpSGD,在VOC2007目标检测数据集当中测试稀疏网络相比于稠密网络的参数压缩比例及其准确率变化。为了保证在特征较为丰富的RGB图像当中拥有较高的目标检测准确率,相比于红外目标检测,RGB数据所使用的稀疏网络使用更大的pp = 1.4)以获得相对较低的稀疏性。各个模型的有效参数的数目和检测精度如表3所示。其中,Faster R-CNN的稀疏模型准确率相比稠密模型降低0.5%,而SSD和YOLOv3的稀疏模型准确率相比稠密模型略微上升0.1%,另一方面SSD和YOLOv3的参数压缩比也显著高于Faster R-CNN,说明在RGB数据集当中,文中的稀疏化方法相比于两阶段模型更加适用于单阶段模型。总体上,相比于红外数据集测试结果,尽管RGB数据集当中稀疏网络的参数压缩比和准确率提升均相对较低,但在显著压缩网络规模的同时依然维持了相当的准确率。一方面展示了文中方法在RGB目标检测网络压缩方面的有效性,另一方面也说明相比于RGB目标检测网络,文中方法更加适用于红外目标检测网络的压缩。

      表 3  VOC2007数据集目标检测模型及其结果

      Table 3.  Object detection model and result on VOC2007 dataset

      MethodFaster R-CNNSSD 300YOLOv3
      DenseSparseDenseSparseDenseSparse
      Nonzero parametersBackbone26 852 41615 756 21622 943 93614 995 95255 294 68837 291 638
      Detector14 593 14014 593 1403 341 5503 341 5506 331 3576 331 357
      APAero0.8330.8260.8540.8470.8010.802
      Bike0.7810.7730.7980.7950.8480.845
      Bird0.7350.7370.7020.7120.7160.726
      Boat0.5320.5280.5680.5430.6520.641
      Bottle0.4870.4930.4570.4740.6380.647
      Bus0.7740.7650.7900.7810.8610.858
      Car0.7450.7480.7570.7520.8580.859
      Cat0.8870.8720.7560.7650.8470.857
      Chair0.4490.4430.8710.8650.5470.541
      Cow0.7650.7710.5240.5420.7150.725
      Table0.5480.5360.7680.7640.6900.681
      Dog0.8650.8570.6050.6120.8280.827
      Horse0.8170.8250.8680.8740.8420.846
      Mbike0.8040.7980.8240.8460.8210.831
      Person0.7940.7820.8200.8110.8070.802
      Plant0.3910.3870.4580.4470.4410.437
      Sheep0.7230.7250.7520.7470.6960.688
      Sofa0.6080.5950.6910.6980.6990.696
      Train0.8090.8140.8090.8120.8250.834
      Tv0.6120.6070.6720.6670.7180.722
      mAP0.6980.6940.7170.7180.7420.743
    • 文中提出一种使用Lp归一化权重的红外目标检测网络压缩方法,主要用于改进基于CNN的目标检测架构对红外图像的适应性,在压缩网络规模的同时提升其泛化能力。文中首先阐述了Lp归一化权重的稀疏性可以通过p进行精确控制这一现象,在此基础上提出了文中目标检测网络稀疏化训练的方法。该方法分别使用Lp球面梯度下降与经典梯度下降训练主干网络和检测器,以平衡网络规模与拟合精度。在仿真红外数据集实验当中,其在网络规模和检测精度方面均优于稠密模型:在网络规模上,稀疏化方法将Faster R-CNN、SSD与YOLOv3的有效参数分别减少了52%、78%和66%,大幅压缩了目标检测网络的规模;在检测精度上,稀疏化方法将Faster R-CNN、SSD和YOLOv3的mAP分别提高了0.1%、0.3%和0.2%。在VOC2007数据集实验当中,稀疏化方法将Faster R-CNN、SSD与YOLOv3的有效参数分别减少了27%、30%和29%,且将其mAP分别变化了−0.4%、+0.1%和+0.1%。下面将进一步研究红外图像特征的低秩特性,将Lp归一化与低秩分解相结合,进一步压缩有效参数,提高算法性能。

参考文献 (14)

目录

    /

    返回文章
    返回