-
基于注意力模块的多阶段融合网络采用U-Net网络结构。网络的目标是由高分辨率干净强度图引导,将上采样后的有噪TCSPC直方图映射成精细的高分辨率去噪直方图。损失函数为Kullback-Leibler (KL)散度、序数回归损失和全变差空间正则项的权重和,训练过程的目标为找到滤波器的权重和偏差使损失函数趋于收敛。
-
基于注意力模块的多尺度融合网络结构(如图2所示)由特征提取和融合重构两个模块组成,其中特征提取模块用于提取TCSPC直方图数据和强度数据中的多尺度特征,使网络可以学习不同尺度的丰富层次特征,更好地适应精细和大规模尺度的上采样;融合重构模块引入了注意力模型[14],使网络关注融合数据中特征更多的区域,逐渐上采样至输入分辨率。损失函数由KL散度、序数回归损失和全变差正则项组成,在网络输出TCSPC直方图上施加KL散度和序数回归损失以分别关注光子数在时间维度上的总体分布和每个时间仓之间的序数关系。为了保持重构结果的边缘,在经3 D-2 D映射后得到的2 D深度图上施加全变差正则项。
其中,I代表强度数据;D代表TCSPC直方图数据;下标0, …, L表示不同尺度的特征,L越大,特征图分辨率越低;上标“^”为处理后的特征。网络输入为分辨率H×W×Ntime_bins的有噪TCSPC直方图数据D0和分辨率为H×W的强度数据I0,通过特征提取器产生强度图和TCSPC直方图数据的各尺度特征,使用经2 D-3 D映射算子的3 D强度图像作为引导,进行数据融合重构,最终输出H×W×Ntime_bins的去噪后的TCSPC直方图数据$ \hat D $,经过soft argmax算子得到2 D深度图$ \hat D' $。
-
为了训练注意力融合网络,定义总损失函数为三个主要贡献的权重相加: 在网络输出TCSPC直方图$ \hat D $和干净TCSPC直方图D之间约束了DKL和$ Los{s_{OR}} $,以及用于$ \hat D' $的全变差项。总的训练损失函数为:
$$ Los{s_{total}} = {D_{KL}} + {\lambda _1}Los{s_{OR}} + {\lambda _2}TV $$ (1) 对于网络输出TCSPC直方图$ \hat D $和干净TCSPC直方图D,施加了两个约束项,DKL关注网络重构后的TCSPC直方图数据$ \hat D $和地面真实TCSPC直方图数据$ \hat D $之间的概率分布差异,同时添加$ Los{s_{OR}} $以考虑TCSPC直方图时间仓之间的序数关系。
-
KL散度,又称相对熵,用来度量网络输出直方图$ \hat D $和干净直方图D之间概率分布的相似性:
$$ {D_{KL}}\left( {D||\hat D} \right) = \sum\limits_n {\left[ {D\left( n \right)\log \frac{{D\left( n \right)}}{{\hat D\left( n \right)}}} \right]} $$ (2) 式中:n代表时间仓索引。概率分布越相近,KL散度值越小。
-
由于KL散度独立计算各个时间仓的分布,因此引入了序数回归损失,考虑每个时间仓之间的序数关系:
$$ \begin{array}{*{20}{l}} {Los{s_{OR}}\left( {D,\hat D} \right) = \dfrac{{ - 1}}{{W \times H}}\displaystyle\sum\limits_w {\displaystyle\sum\limits_h {\psi \left( {D,\hat D} \right)} } } \\ {\begin{array}{*{20}{c}} {\psi \left( {D,\hat D} \right) = }&{\displaystyle\sum\limits_{n = 1}^l {\log \left( {1 - cumsum\left( {\hat D\left( n \right)} \right)} \right)} } + \\ &{ \displaystyle\sum\limits_{n = l + 1}^K {\log \left( {cumsum\left( {\hat D\left( n \right)} \right)} \right)} } \end{array}} \end{array} $$ (3) 式中:W和H为图像宽度与高度;l为地面真实检测速率峰值的时间仓索引;“cumsum”代表累计求和。
-
引入TV空间正则项的目的在于去除伪影,保留边缘等重要细节,同时防止模型过拟合:
$$ \begin{array}{l}\begin{array}{ll}TV\left({\widehat{D}}^{\prime }\right)= & {\displaystyle \sum _{w=1}^{W}{\displaystyle \sum _{h=1}^{H-1}\left| {{\widehat{D}}^{\prime }}_{w+1,h}-{{\widehat{D}}^{\prime }}_{w,h}\right|}} +\\ & {\displaystyle \sum _{w=1}^{W-1}{\displaystyle \sum _{h=1}^{H}\left| {{\widehat{D}}^{\prime }}_{w,h+1}-{{\widehat{D}}^{\prime }}_{w,h}\right|}} \end{array} \\ {\widehat{D}}^{\prime }=soft\mathrm{arg}\mathrm{max}\left(\widehat{D}\right)={\displaystyle \sum _{n}n\cdot \widehat{D}\left(n\right)} \end{array} $$ (4) 考虑到网络的主要目的在于去除原始TCSPC直方图数据中含有的噪声光子,会给予KL散度较大的权重。在保证具有良好的去噪能力基础上,再提升重构图像的精细程度,即序数回归损失和全变差正则项。由于全变差正则项作用于2 D图像上,而网络主要处理数据为3 D的TCSPC直方图数据,因此给予全变差正则项较小权重。综上所述,在训练过程中,设置KL散度的权重为1,序数回归损失的权重设置为$ {\lambda _1} = 0.5 $,全变差正则项的权重设置为$ {\lambda _2} = {10^{ - 4}} $。
-
该节共进行了三个实验:比较实验与其他深度重构方法对比,证明文中方法的有效性和优越性;消融实验验证所提出的网络结构和损失函数的合理性和必要性;上采样实验验证预上采样法的重要性。所有网络使用NYU V2数据集[15]进行训练,量化结果采用根均方差(Root Mean Square Error, RMSE)指标,单位为m。
实验测试数据由1.1节提到的实验装置采集,从SPAD探测器中得到的TCSPC直方图经预处理后输入至训练好的网络。地面真实数据为SPAD探测器输出的原始数据经过预处理,再使用中值滤波去除探测器暗计数,最后给图像反射率设定阈值,将像素反射率小于阈值的像素设定为背景得到。
-
比较实验的量化结果如表1所示,文中提出方法在各场景中都获得了最佳结果。
表 1 实验量化结果比较
Table 1. Comparison of experimental quantitative results
对比实验将文中方法与MLE、He等人[16]提出的方法和Lindell等人[10]提出的方法进行比较。相比于传统方法MLE和He等人[16]提出的方法,使用神经网络,即Lindell等人[10]提出的方法和文中提出的方法,能够学习输入和输出之间非线性的复杂映射,灵活适应不同的成像场景。MLE不采用传感器融合策略,这种方法给定了概率模型,不能处理掉探测器的暗计数及探测过程中产生的异常值,重构结果仍存在大量噪声。He等人[16]提出的方法通过引导图找出物体的边缘,滤波器在图像平滑的地方进行均值滤波,而在边缘处不进行滤波,或者进行轻微的滤波,从而达到保留物体边缘的目的。这种方法不能滤除物体边缘处的噪声。Lindell等人[10]提出的数据驱动方法采用传感器融合策略和多尺度方法,但仅在最大尺度的深度特征图上融合强度特征,没有充分利用强度信息,会造成严重的深度缺失现象。如图3所示,MLE方法并不能完全除去噪声,而He等人[16]的方法过于平滑物体边缘。Lindell等人[10]的卷积神经网络方法能重构出场景,但是会造成部分边缘深度缺失的现象,特别是对于较远物体和深度值较少区域。文中提出方法能够可靠恢复场景深度信息,并且对远处物体和细小物体也具有重构鲁棒性。
图 3 (a)网络输入强度图;(b)网络输入深度图;(c) MLE方法处理结果;(d) He et al. [16] 方法处理结果;(e) Lindell et al. [10] 方法处理结果;(f)文中方法处理结果
Figure 3. (a) The input intensity map; (b) The input depth map; (c) The result processed by MLE method; (d) The result processed by He et al. [16]; (e) The result processed by Lindell et al. [10]; (f) The result processed by proposed method in this paper
-
不同网络结构的消融研究比较了不含注意力模块的网络和没有强度引导的网络,实验结果如图4(c)、(d)所示。不含注意力模块的网络对特征图的每一部分都给予相同的关注,而没有强度引导的网络无法提取更精确的边缘等细节特征,重构性能均不佳。文中提出的网络使用强度引导并引入注意力机制,可以从强度图中学习细节特征,也可以关注融合数据中特征更丰富的区域,能够去除绝大部分的噪声,目标边缘清晰。
图 4 (a)网络输入强度图;(b)文中提出方法处理结果图;(c)不含注意力模块的网络处理结果图;(d)无强度引导的网络处理结果;(e)使用不含序数回归损失的损失函数的网络处理结果;(f)使用不含KL散度的损失函数的网络处理结果
Figure 4. (a) Network input intensity map; (b) The result of the method proposed in the paper; (c) The result processed by the network without attention module; (d) The result processed by the network without intensity guidance; (e) The result processed by the network of loss function without ordinal regression loss; (f) The result processed by the network without KL divergence
不同损失函数的消融研究在训练过程中使用不考虑序数回归损失的损失函数和不考虑KL散度的损失函数,如图4(e)、(f)所示。不考虑序数回归损失的损失函数训练的网络无法重构出物体完整的边缘,原因在于KL散度关注的为TCSPC直方图上光子的总体分布,仅滤除了和信号光子差异明显的背景光子,无法去除目标边缘受到回波光子微弱影响的背景像素;而使用没有KL散度的损失函数训练的网络进行重构,物体内部存在深度缺失,边缘呈锯齿状,这是由于序数回归损失考虑的是局部的时间仓间的序数关系,而不考虑整个时间维度上的光子数分布。文中设计的损失函数结合了KL散度和序数回归损失,并赋予了不同权重,不仅关注时间维度上光子的总体分布,也考虑每个时间仓间的序数回归关系。使用文中设计的损失函数训练得到的网络重构结果不仅具有目标轮廓,并且像素呈连续性。
表2为消融实验的量化结果,可以看出使用注意力模块和强度引导的网络结构,在训练过程中同时采用KL散度和序数回归损失进行约束,即文中提出方法,能够获得最佳的量化结果。
表 2 消融实验量化结果
Table 2. Ablation experimental quantitative results
Without attention Without intensity KL + TV OR + TV Proposed "N" and "J" 0.7204 0.4510 0.6129 0.2432 0.1958 -
文中使用预上采样法,即在输入网络前将SPAD阵列原始数据的空间分辨率从32×32 pixel提升至128×128 pixel。上采样的表现形式之一为稀疏点云更加密集。对比低分辨率点云图、使用后上采样法产生的点云图(先将数据输入网络处理,再进行上采样)和预上采样法产生的点云图,结果如图5所示,预上采样法提高了深度数据携带的信息量,使网络可以处理更多的像素,重构结果像素具有空间联系,边缘平滑。
Single-photon LiDAR imaging method based on sensor fusion network
-
摘要: 激光雷达系统采用主动照明的方式,激光发射脉冲周期信号至目标场景,激光脉冲经目标表面漫反射,由单光子雪崩二极管(Single-Photon Avalanche Diode, SPAD)探测器记录回波光子的到达时间,获得场景的深度信息。然而在探测过程中,测量结果往往会遭到环境光的干扰。传感器融合是进行单光子成像的有效方法之一。最近提出的基于LiDAR和强度相机融合的数据驱动方法大多采用扫描式激光雷达,深度获取速度慢。SPAD阵列的出现打破了帧率的限制。SPAD阵列允许同时收集多个回波光子,加速了信息采集,但分辨率较低,在探测过程中还会受到环境光的干扰,因此需要通过算法打破SPAD阵列的固有限制,从噪声中分离深度信息。针对分辨率为32×32 pixel的SPAD阵列探测器,提出了一种卷积神经网络结构,旨在强度图的引导下,将低分辨率TCSPC直方图映射至高分辨率深度图。该网络采用多尺度方法提取输入特征,并基于注意力模型融合深度数据和强度数据。另外,设计了一个损失函数组合,适用于处理TCSPC直方图数据的网络。在采集数据上进行了验证,提出方法能成功将深度数据的空间分辨率提升4倍,并在质量和数据指标上都优于其他算法。Abstract: LiDAR systems with active illumination obtain depth information of the scene using Single-Photon Avalanche Diode(SPAD) detectors to record the arrival time of reflected photons from the laser pulse. However, there is ambient light that interferes measurements during the detection period. Sensor fusion is one of the effective methods for single-photon imaging. Recently, many data-driven methods based on intensity-LiDAR fusion have achieved gratifying results, but most of them use the scanning LiDAR which has a slow depth acquisition speed. The advent of the SPAD array can overcome the limitation of frame rates. The SPAD array allows the collection of multiple returned photons at the same time, which accelerates the information collection process. However, the spatial resolution of SPAD array detectors is typically low, and the detection process is also interfered by the ambient light. Therefore, it is necessary to break the inherent limitation of the SPAD array through an algorithm to separate the depth information from the noise. In this paper, for the SPAD array detector with the array size of 32×32 pixel, a convolutional neural network was proposed, which could reconstruct high-resolution clean TCSPC histogram under the guidance of the intensity image. A multi-scale approach was adopted to extract input features, and the fusion of depth data and intensity data was further processed based on the attention mechanism in the network. In addition, a loss function combination suitable for the TCSPC histogram data processing network was designed, where the overall distribution of photons and the ordinal relationship between time bins in the temporal dimension could be simultaneously considered. The method proposed in this paper can successfully increase the depth spatial resolution by 4 times, and the efficacy of proposed method is verified on realistic data, which is superior to state-of-the-art methods qualitatively and quantitatively.
-
Key words:
- LiDAR /
- single-photon imaging method /
- sensor fusion /
- SPAD array /
- convolutional neural network
-
图 3 (a)网络输入强度图;(b)网络输入深度图;(c) MLE方法处理结果;(d) He et al. [16] 方法处理结果;(e) Lindell et al. [10] 方法处理结果;(f)文中方法处理结果
Figure 3. (a) The input intensity map; (b) The input depth map; (c) The result processed by MLE method; (d) The result processed by He et al. [16]; (e) The result processed by Lindell et al. [10]; (f) The result processed by proposed method in this paper
图 4 (a)网络输入强度图;(b)文中提出方法处理结果图;(c)不含注意力模块的网络处理结果图;(d)无强度引导的网络处理结果;(e)使用不含序数回归损失的损失函数的网络处理结果;(f)使用不含KL散度的损失函数的网络处理结果
Figure 4. (a) Network input intensity map; (b) The result of the method proposed in the paper; (c) The result processed by the network without attention module; (d) The result processed by the network without intensity guidance; (e) The result processed by the network of loss function without ordinal regression loss; (f) The result processed by the network without KL divergence
表 1 实验量化结果比较
Table 1. Comparison of experimental quantitative results
表 2 消融实验量化结果
Table 2. Ablation experimental quantitative results
Without attention Without intensity KL + TV OR + TV Proposed "N" and "J" 0.7204 0.4510 0.6129 0.2432 0.1958 -
[1] Henderson R K, Johnston N, Hutchings S W, et al. 5.7 A 256×256 40 nm/90 nm CMOS 3D-stacked 120 dB dynamic-range reconfigurable time-resolved spad imager[C]//ISSCC, 2019: 106–108. [2] Poland S P, Krstajić N, Monypenny J, et al. A high speed multifocal multiphoton fluorescence lifetime imaging microscope for live-cell FRET imaging [J]. Biomed Opt Express, 2015, 6(2): 277-296. doi: 10.1364/BOE.6.000277 [3] 黄鹤, 李昕芮, 宋京, 等. 多尺度窗口的自适应透射率修复交通图像去雾方法[J]. 中国光学, 2019, 12(6): 1311-1320. doi: 10.3788/CO.20191206.1311 Huang He, Li Xinrui, Song Jing, et al. A traffic image dehaze method based on adaptive transmittance estimation with multi-scale window [J]. Chinese Optics, 2019, 12(6): 1311-1320. (in Chinese) doi: 10.3788/CO.20191206.1311 [4] Shin D, Xu F, Venkatraman D, et al. Photon-efficient imaging with a single-photon camera [J]. Nat Commun, 2016, 7(1): 12046. doi: 10.1038/ncomms12046 [5] 冯肖维, 胡海云, 庄瑞卿, 等. 三维点云自适应稀疏优化重构[J]. 光学精密工程, 2021, 29(10): 2495-2503. doi: 10.37188/OPE.20212910.2495 Feng Xiaowei, Hu Haiyun, Zhuang Ruiqing, et al. Adaptive reconstruction of 3D point cloud by sparse optimization [J]. Optics and Precision Engineering, 2021, 29(10): 2495-2503. (in Chinese) doi: 10.37188/OPE.20212910.2495 [6] Rapp J, Goyal V K. A few photons among many: Unmixing signal and noise for photon-efficient active imaging [J]. IEEE Trans Comput Imaging, 2017, 3(3): 445-459. doi: 10.1109/TCI.2017.2706028 [7] 王春哲, 安军社, 姜秀杰, 等. 基于卷积神经网络的候选区域优化算法[J]. 中国光学, 2019, 12(6): 1348-1361. doi: 10.3788/CO.20191206.1348 Wang Chunzhe, An Junshe, Jiang Xiujie, et al. Region proposal optimization algorithm based on convolutional neural networks [J]. Chinese Optics, 2019, 12(6): 1348-1361. (in Chinese) doi: 10.3788/CO.20191206.1348 [8] 周宏强, 黄玲玲, 王涌天. 深度学习算法及其在光学的应用[J]. 红外与激光工程, 2019, 48(12): 1226004-1226004. doi: 10.3788/IRLA201948.1226004 Zhou Hongqiang, Huang Lingling, Wang Yongtian, et al. Deep learning algorithm and its application in optics [J]. Infrared and Laser Engineering, 2019, 48(12): 1226004. (in Chinese) doi: 10.3788/IRLA201948.1226004 [9] 曾瀚林, 孟祥勇, 钱惟贤, 等. 高斯差分滤波图像融合方法[J]. 红外与激光工程, 2020, 49(S1): 20200091. doi: 10.3788/IRLA20200091 Zeng Hanlin, Meng Xiangyong, Qian Weixian, et al. Image fusion algorithm based on DOG filter [J]. Infrared and Laser Engineering, 2020, 49(S1): 20200091. (in Chinese) doi: 10.3788/IRLA20200091 [10] Lindell D B, O’Toole M, Wetzstein G. Single-photon 3D imaging with deep sensor fusion [J]. ACM Trans Graph, 2018, 37(4): 1-12. [11] Sun Z H, Lindell D B, Solgaard O, et al. SPADnet: Deep RGB-SPAD sensor fusion assisted by monocular depth estimation [J]. Opt Express, 2020, 28(10): 14948-14962. doi: 10.1364/OE.392386 [12] Ruget A, McLaughlin S, Henderson R K, et al. Robust super-resolution depth imaging via a multi-feature fusion deep network [J]. Opt Express, 2021, 29(8): 11917-11937. doi: 10.1364/OE.415563 [13] 雷俊锋, 贺睿, 肖进胜. 融合空间注意力机制的行车障碍预测网络[J]. 光学 精密工程, 2020, 28(8): 1850-1860. doi: 10.3788/OPE.20202808.1850 Lei Junfeng, He Rui, Xiao Jinsheng. Driving obstacles prediction network merged with spatial attention [J]. Optics and Precision Engineering, 2020, 28(8): 1850-1860. (in Chinese) doi: 10.3788/OPE.20202808.1850 [14] Woo S, Park J, Lee J Y, et al. CBAM: Convolutional block attention module[C]//ECCV, 2018: 3-19. [15] Silberman N, Hoiem D, Kohli P, et al. Indoor segmentation and support inference from RGBD images[C]//ECCV, 2019: 746-760. [16] He K M, Sun J, Tang X O. Guided image filtering [J]. IEEE Trans Pattern Anal Mach Intell, 2013, 35(6): 1397-1409. doi: 10.1109/TPAMI.2012.213