-
图1所示为结构化探测方式的单像素成像光路,目标物体(Target object)被成像到空间光调制器(Spatial light modulator, SLM)表面,SLM产生调制图案对物体的像进行调制,调制后的出射光由单像素探测器(Single-pixel detector, SPD)收集测量。该过程在数学上可以表示为:
$$ D = \alpha \int\int P(x,y)\cdot O(x,y){\rm{d}}x{\rm{d}}y + \varepsilon $$ (1) 式中:
$ P\left( {x,y} \right) $ 表示SLM产生的调制图案;$ O(x,y) $ 表示目标物体的空间分布函数;$\alpha $ 表示单像素探测器的光电响应系数;$ \varepsilon $ 表示背景杂散光强;$ D $ 表示单像素探测器的输出电压。在单像素成像过程中,每产生一个调制图案,对目标物体的像进行一次调制,单像素探测器实施一次测量只能获得一部分图像信息,理论上需要实施和图像像素数一样多的测量数,才能利用所有的测量值重建一幅信息完全的图像。而对于物体分类任务来说,只需要少量的物体特征信息。为了避免获取过多的冗余信息,可以采取类似单像素成像的信息获取方式,实施少量的单像素测量,获取只用于分类的特征信息。
卷积神经网络(Convolutional Neural Network, CNN)自20世纪七八十年代提出以来[19],被广泛应用于物体分类领域。对于CNN网络,当卷积核的尺寸与输入图像的尺寸一致时,卷积运算就是内积运算。从数学描述来说,内积运算可以表示为:
$$E = \sum\limits_{x = 0}^{M - 1} {\sum\limits_{y = 0}^{M - 1} {f\left( {x,y} \right) \cdot K\left( {x,y} \right)} } $$ (2) 式中:
$ f\left( {x,y} \right) $ 表示图像;$ K\left( {x,y} \right) $ 表示卷积核;$ E $ 为输出值。令SLM显示神经网络的卷积核图案$K\left( {x,y} \right) $ ,则单像素探测值$ D $ 与卷积层的输出$ E $ 为线性关系,单像素探测值在数学上是物体的像与卷积核的内积。可以发现,公式(2)的内积运算与单像素成像中探测器获取光强值的物理过程完全一致,因此可以通过单像素探测器获取光强值的方式实现“光”内积。为与单像素探测实现“光”内积的形式对应,设计了一种用于目标物体分类的全卷积神经网络,如图2所示,该网络结构全部由卷积层组成。例如:输入图像的尺寸为28×28 pixel,经过与
$ N $ 个尺寸为28×28的卷积核卷积,得到1×1×N的一维特征图。然后经过N个尺寸为9×9的反卷积核,得到9×9×N的特征图。再经过400个尺寸为9×9×15的卷积核,得到1×1×400的一维特征图。此后依次经过200、100和10个1×1卷积核,最终输出的10个神经元代表10个类别的概率。网络中所有卷积核参数使用截尾高斯分布(Truncated Normal)初始化。除最后一层的激活函数为Softmax外,其余层均使用Relu激活函数。训练过程中选择交叉熵损失函数和ADAM(Adaptive Moment Estimation)算法来优化参数。设计的基于单像素探测的光电混合神经网络如图3所示,就是将该全卷积神经网络的第一层卷积运算,用单像素测量以“光”内积运算代替。这样,单像素测量过程作为神经网络的一部分,将光计算与电子计算无缝衔接起来。通过构建的光电混合神经网络学习得到的第一层N个卷积核作为空间光调制器的N个调制图案,分别对目标物体像进行调制,单像素探测器获取的
$ N $ 个测量值送入后续的电子计算神经网络部分,最后完成目标物体的分类。 -
以MNIST数据集[20]中的手写数字分类作为示例,展示提出的光电混合全卷积网络在分类任务上的性能。该手写数据集包含0~9十个类别,有60 000张训练集图片和10 000张测试集图片,每张图片的尺寸为28×28 pixel。为了测试提出的光电混合神经网络对运动物体的分类能力,将这些手写数字放置在一个快速旋转的圆盘上。为了增强网络的健壮性,对MNIST手写数据集中的图像进行−4°~4°的随机旋转和−12~12 pixel的随机水平平移,如图4所示,这些经过随机旋转和平移的图像将用来训练和测试网络。
图 4 部分训练集图片及随机旋转和水平平移后的图片
Figure 4. Example of the original training images and corresponding images with random rotation and lateral shift
通常对提出的光电混合神经网络的训练需要将手写数字图片作为被识别的物体,如图3所示,将用于训练的数字图片成像到SLM上,单像素探测器测得光强值,将获得的单像素测量值送入后续的电子神经网络部分进行训练。这种训练方式需要耗费较大的时间和人力,这也是许多人工智能应用落地的瓶颈之一。为了降低训练难度,利用单像素测量过程的内积运算模型,可以直接用数据集中的手写数字代替图3中手写数字的像,用手写数字和卷积核的内积模拟单像素测量值,也就是利用和光电混合神经网络对应的电子神经网络进行训练(图2)。
使用60 000张经过随机旋转和平移的训练集图片来训练网络,网络训练完成后,用10 000张经过随机旋转和平移的测试集图片对全卷积神经网络进行性能测试。第一层卷积层卷积核数量
$ N $ 为15时,测试集准确率达93.70%。测试集分类结果的混淆矩阵如图5所示,大部分预测标签沿对角线分布并与真实标签匹配,表明提出的全卷积神经网络能对大多数测试数字进行正确分类,具有较好的分类能力。图 5 手写数字测试集分类结果混淆矩阵(15个卷积核)
Figure 5. Confusion matrix of the classification results on handwritten digit test set (15 kernels)
由于应用训练好的光电混合神经网络时,实验中所用的调制图案来自于网络的第一层卷积核,训练结束后需提取第一层卷积核。以第一层卷积核数量
$ N $ 为15的网络为例,将这15个尺寸为$ 28 \times 28 $ 的二维卷积核提取出来,如图6所示。这些卷积核图案作为学习到的调制图案去调制物体的像,获取物体用于分类的特征信息。图 6 全卷积神经网络第一层二维卷积核图案
Figure 6. 2D convolutional kernel images of the first layer in the fully convolutional neural network
为了考察调制图案的数量对光电混合神经网络分类性能的影响,为第一层卷积层设置不同数量的卷积核进行训练。不同卷积核数量对应的测试集分类准确率如图7所示。由图中曲线可知,随着卷积核数量的增加,分类准确率总体呈上升趋势。这是因为卷积核数量越多,网络提取的特征信息也越多。当卷积核数量达到10个时,准确率超过90%;当卷积核数量超过19个时,分类准确率稳定在95%左右。因此,根据准确率与效率之间的权衡可以选择合适的卷积核数量。
图 7 不同卷积核数量网络在MINST测试集的分类准确率
Figure 7. MNIST test set classification accuracy of networks with different number of convolutional kernels
文中的代码在TensorFlow 2.1.0框架上基于Python 3.7.6实现。网络一共训练了50次,大约花费5 min。网络的训练与测试都在一台搭载了AMD Ryzen 7 1700 X CPU、英伟达RTX 2080 Ti GPU及32 GB RAM的电脑上运行。
-
对快速旋转盘上手写数字分类的实验装置如图8所示,采用单像素结构化探测方案。用一个10 W的白光LED光源照明转盘上的一个手写数字,经过透镜1成像到数字微镜阵列DMD(ViALUX V-7001, 22 727 Hz)表面。数字微镜阵列上依次显示不同的卷积核图案,再利用透镜2将数字微镜阵列反射的光会聚到单像素探测器(Thorlabs PDA-100 A2, gain = 0)上。单像素探测器将光信号转化为电信号,经数据采集卡(National Instruments USB-6366 BNC, 2 MHz)量化后,输入至后半部分的电子神经网络,如图3所示,实现基于光电混合神经网络的单像素物体分类。转盘上手写数字的制作是将手写数字镂空地雕刻在黑色亚克力板上。转盘由电机驱动旋转,并通过脉宽调制器的电压占空比(Pulse Width Modulation, PWM)来控制运动速度。
图 8 光学系统。(a) 实验装置;(b) 转盘上手写数字的分布
Figure 8. Optical system. (a) Experimental setup; (b) Layout of the handwritten digits on disk
数字微镜阵列DMD是一种开、关(即0、1)的二值化调制器件,而从网络中提取出来的卷积核包含负值。为了能够在DMD上显示卷积核图案,对卷积核进行了如下处理:
(1) 首先调整卷积核
$ K(x,y) $ 的数值范围,使其范围分布在−1~1之间:$$ K'(x,y) = \frac{{K(x,y)}}{{{{\left| {K(x,y)} \right|}_{\max }}}} $$ (3) 式中:
${\left| {K(x,y)} \right|}_{\max }$ 表示取卷积核$ K(x, y) $ 中所有元素绝对值的最大值。(2)
$ K^{\prime}(x, y) $ 中强度值大于0的像素为$ {P} ^+ $ 图案,小于0的像素将强度值取反为$ {P} ^- $ 图案:$$ \begin{array}{c} {P^ + }\left( {x,y} \right) = \left\{ {\begin{array}{*{20}{c}} {K'(x,y)}&,\\ 0&, \end{array}} \right.{\rm{ }}\begin{array}{*{20}{c}} {K'(x,y) > 0}\\ {{\rm{other}}} \end{array}\\ {P^ - }\left( {x,y} \right) = \left\{ {\begin{array}{*{20}{c}} { - K'(x,y)}&,\\ 0&, \end{array}} \right. {\rm{ }}\begin{array}{*{20}{c}} {K'(x,y) < 0}\\ {{\rm{other}}} \end{array} \end{array} $$ (4) (3) 将生成的一系列卷积核图案插值到符合实际场景的尺寸,再利用抖动算法[21]对其进行二值化操作。
图9为对图5中第一张卷积核图案进行上述处理后得到的
${P_1}^ +$ 和$ P_{1}^{-} $ 图案。那么利用数字微镜阵列显示一对${P_1}^ +$ 和$ P_{1}^{-} $ 图案,将单像素探测器分别测量到的光强值相减,即表示内积运算值(对应公式(2))。利用数字微镜阵列显示二值化的卷积核图案,单像素探测器采集每对卷积核对应的光强值作差,送入图3所示的全卷积神经网络进行识别,实现基于光电混合神经网络的单像素物体识别。
设计了三组不同速度的运动物体分类实验,通过设置PWM为0%、20%和40%,控制手写数字运动的线速度分别为1.364、2.450、4.926 m/s,其对应转速分别为2.17、3.90、7.84 r/s。随着运动速度的提高,相同时间内经过视场的手写数字的数量随之增加。为直观地展示快速运动物体的速度,使用一台60 fps的相机(FLIR, BFS-U3-04 S2 M-CS)拍摄手写数字在不同运动速度下的视频。相机的曝光时间为1/60 s,帧尺寸为180×180 pixel。图10为从视频中保存下来的数字“5”的帧图像,即使物体以转盘的最低速度运动,人眼也很难准确地分辨出该数字。
图 10 不同运动速度下用相机拍摄的数字“5”
Figure 10. Snapshots of digit "5" in motion at different speeds captured by using a camera
实验中数字微镜阵列DMD以最高的刷新速率(即22 727 Hz)多次循环显示卷积核图案。图11(a)给出了转盘以2.17 r/s转速(1.364 m/s线速度)运动时,在1.5 s内手写数字连续地经过视场的单像素探测值。当视场中有手写数字经过时,光可以透过转盘,采集到的单像素探测值较高;当视场中没有手写数字或不是完整的手写数字时,光被挡住,采集到的单像素探测值较低。为了确定某段数据对应的真实标签,实验时人为地挡住转盘上的其中一个数字,如数字“2”,那么转盘上被挡住的部分会造成数值低的单像素探测值更多,这样就简单方便地确定被挡住数字的位置,实现了对转盘上手写数字的标记。
图 11 运动手写数字的单像素探测值。(a) 1.5 s内手写数字连续经过视场采集到的单像素探测值;(b) (a)中数字“5”单像素探测值的局部放大图;(c) 对(b)两两作差得到的结果
Figure 11. Single-pixel measurements of moving handwritten digits. (a) Single-pixel measurements of handwritten digits passing through the field of view successively in 1.5 s; (b) Partially enlarged view of the single-pixel measurements of the digit "5" in (a); (c) Result of the differential measurement from (b)
由于只有当完整的手写数字出现在视场中被测量,才有可能被正确分类识别,因此通过设置阈值把手写数字完整出现在视场中的测量数据筛选出来。阈值的设置方法有多种,实验中的阈值由以下公式计算:
$$ t = \frac{{{S_{\max }} - {S_{\min }}}}{\beta } + {S_{\min }} $$ (5) 式中:
$ {S_{\max }}$ 表示单像素探测值信号的最大值;${S_{\min }} $ 表示单像素探测值信号的最小值;$ \; \beta$ 是一个控制阈值的高低的因子,需根据不同的实验状况选取,不同转速下$ \; \beta $ 可能不同。由于反图案${P^ - } $ 对应的单像素探测值通常较低,所以只利用正图案${P^ + }$ 对应的单像素探测值来筛选出可以用于分类的有效数据。在$ P^{+} $ 对应的单像素探测值中,找出连续大于阈值的数据,即为通过阈值筛选出的有效单像素探测值。图11(b)为图11(a)中数字“5”对应单像素探测值的局部放大图,图11(b)中的数据利用阈值(选$\; \beta $ 值为2)共可筛选出265个有效单像素探测值。图11(c)为对图11(b)中的单像素探测值两两作差的结果,也是送入后续电子神经网络的数据。利用15对二值化卷积核图案来获取物体的特征信息,每30个单像素探测值进行一次分类,这样可以从图11(b)的265个有效单像素探测值中进行八次分类。光电混合神经网络在不同速度下的分类结果见表1。不同速度下对每种卷积核数量的网络进行三次重复实验,每次实验的数据采集时间均为1.5 s,三次实验的分类结果汇总呈现在表1中。通过阈值筛选出有效的单像素测量值,这些数据能进行的分类次数作为总的测量次数。统计所有分类次数中正确预测的分类结果,与总测量次数相除得到该卷积核数量神经网络的分类准确率。
表 1 运动手写数字实验分类结果
Table 1. Experiment classification results of moving handwritten digits
Linear velocity/m·s−1 Number of kernels Correct Total Correct/Total 1.364 5 785 2181 35.99% 10 523 681 76.80% 15 584 607 96.21% 20 339 339 100.00% 25 323 346 93.35% 30 180 195 92.31% 2.450 5 737 2110 34.93% 10 399 605 65.95% 15 464 535 86.73% 20 249 271 91.88% 25 209 263 79.47% 30 190 287 66.20% 4.926 5 892 2679 33.30% 10 543 973 55.81% 15 420 625 67.20% 20 190 332 57.23% 25 145 326 44.48% 30 114 301 37.87% 分析表1的实验结果:(1)当手写数字低速运动时,分类准确率总体上随着卷积核数量的增加而提高,这与图7的测试集结果相吻合。在1.364 m/s时,卷积核数量为20的网络分类准确率达到100.00%。但需要提醒的是,这是在339个样本下的分类统计结果,与图7的分类准确率并不矛盾(图7为10 000个样本的测试统计结果)。(2)随着运动速度加快,分类准确率不再随着卷积核数量的增加而一直提高。因为卷积核数量越多,获取一次分类需要的数据采集时间越长,物体运动模糊带来的负面影响就越严重。在1.364 m/s和2.450 m/s时,20个卷积核数量的网络取得的分类准确率最高,而在4.926 m/s时,15个卷积核数量的网络达到的分类准确率高于20个。(3)卷积核数量越多,分类准确率随运动速度下降得越严重。对比15个和30个卷积核网络在1.364 m/s和4.926 m/s的分类准确率,15个卷积核网络的准确率下降了近30%,而30个卷积核网络的准确率下降了近60%。
-
上述实验都是以手写数字为分类对象,为了说明提出的光电混合神经网络也适用于手写数字以外更复杂的物体的分类识别,用Fashion-MINST服饰图片数据集[22]仿真测试了提出的光电混合全卷积神经网络对服饰复杂物体的分类能力。该手写数据集共包含10个类别,如图12所示,有60 000张训练集图片和10 000张测试集图片,每张图片的尺寸为28×28 pixel。网络的设计和参数与图2一致。同样地,为第一层卷积层设置不同数量的卷积核进行训练,对应的测试集分类准确率如图13所示。随着卷积核数量的增加,分类准确率总体呈上升趋势。与手写数字相比,提出的全卷积神经网络分类服饰的能力稍弱。当卷积核数量超过17个时,分类准确率在88%左右稳定。
图 12 Fashion-MINST数据集中的十个类别和示例图片
Figure 12. The ten classes and example images in Fashion-MINST dataset
图 13 不同卷积核数量网络在Fashion-MINST测试集的分类准确率
Figure 13. Fashion-MINST test set classification accuracy of networks with different number of convolutional kernels
为了评估所采用的免图像物体分类方法的分类能力,与现有的一些基于手写数字图像的分类方法的分类能力进行了比较。LeCun Y等人比较了69种主要的分类器在MNIST手写数字数据集上的准确率[20],表2列出了其中四种经典的分类方法的分类准确率和文中提出的光电混合全卷积神经网络对静态手写数字分类的准确率(为了公平比较,使用的数据集均为未经处理的原始手写数字图片,提出的光电混合全卷积神经网络的卷积核数量为15个)。由表2给出的准确率可知,提出的光电混合全卷积神经网络在MNIST数据集上取得的准确率稍低,但文中提出的免图像方法产生的数据量少,对动态物体的分类具有优势。
表 2 不同模型的MNIST数据集分类结果
Table 2. Results of different models on MNIST datasets
所提出的免图像物体分类方法主要依赖于空间光调制器对目标物体像的调制,以获取用于物体分类的空间特征信息,并且需要多次调制测量才能进行一次分类识别,因此空间光调制器的刷新速率是限制高转速下物体分类准确率的主要原因,增加空间光调制器的调制频率可能是提高高速旋转下分类准确率的最有效方法。另外,在相同的空间光调制器的调制频率下,如果采用更复杂、层数更多的网络也许能稍许提高分类准确率,但是可能会增大计算量,拖慢分类识别的速度。
实验中,采用了仿真数字进行网络训练,尽管针对旋转圆盘上的手写数字进行分类实验,仿真时加入了一些旋转和平移,但是在运动物体进入视场后并不能精确仿真模拟目标物体在视场中的姿态。这确实是造成更高运动速度下分类准确率不高的一个原因。因此,在仿真训练时,根据具体的目标物体的运动状态更精细化仿真模拟物体在视场中的姿态,有助于提高运动物体的分类准确率。
Single-pixel fast-moving object classification based on optical-electronical hybrid neural network (Invited)
-
摘要: 对快速运动物体进行持续分类具有重要的应用前景。受限于有限的数据传输带宽和存储空间,目前基于场景图像的物体分类技术难以实现对运动物体的持续分类。受到单像素成像在时间上累积获取信息这一方式的启发,结合深度学习,提出了一种基于光电混合神经网络的单像素快速运动物体分类方法。该方法不需要获取目标物体的图像,利用对光场的空间调制和单像素测量,直接获取用于分类的特征信息,从而避免了在持续分类过程中基于图像分类方法产生的海量图像数据。单像素测量过程作为神经网络的一部分,将光计算与电子计算无缝衔接起来,构建了一个光电混合神经网络用于对物体的分类。通过对快速旋转圆盘上的手写数字进行持续分类实验测试,证明了提出的方法在分类快速运动的手写数字方面的能力,超过了人眼视觉。Abstract: Successive classification of fast-moving objects is significant in various fields. However, due to the limited data transmission bandwidth and data storage space, it is challenging to perform fast-moving object classification based on scene photography for a long duration. Inspired by single-pixel imaging and combined with deep learning, a single-pixel fast-moving object classification method based on optical-electronic hybrid neural network was proposed. The proposed method had no need to acquire the images of objects, but obtained the feature information for classification directly by using spatial light modulating and single-pixel detecting. Thus, the massive image data produced by the image-based classification for a long duration was avoided. As part of the neural network, the single-pixel detecting connected optical computing and electronic computing seamlessly, an optical-electronic hybrid neural network for object classification was constructed. The proposed method in classifying fast-moving handwritten digits on a rotating disk was experimentally demonstrated, which passed through the field of view successively. The experiment confirmed that the classification ability of the proposed method had exceeded human vision.
-
图 11 运动手写数字的单像素探测值。(a) 1.5 s内手写数字连续经过视场采集到的单像素探测值;(b) (a)中数字“5”单像素探测值的局部放大图;(c) 对(b)两两作差得到的结果
Figure 11. Single-pixel measurements of moving handwritten digits. (a) Single-pixel measurements of handwritten digits passing through the field of view successively in 1.5 s; (b) Partially enlarged view of the single-pixel measurements of the digit "5" in (a); (c) Result of the differential measurement from (b)
表 1 运动手写数字实验分类结果
Table 1. Experiment classification results of moving handwritten digits
Linear velocity/m·s−1 Number of kernels Correct Total Correct/Total 1.364 5 785 2181 35.99% 10 523 681 76.80% 15 584 607 96.21% 20 339 339 100.00% 25 323 346 93.35% 30 180 195 92.31% 2.450 5 737 2110 34.93% 10 399 605 65.95% 15 464 535 86.73% 20 249 271 91.88% 25 209 263 79.47% 30 190 287 66.20% 4.926 5 892 2679 33.30% 10 543 973 55.81% 15 420 625 67.20% 20 190 332 57.23% 25 145 326 44.48% 30 114 301 37.87% -
[1] Sermanet P, LeCun Y. Traffic sign recognition with multi-scale convolutional networks [C]//The 2011 International Joint Conference on Neural Networks. IEEE, 2011: 2809-2813. [2] Andreopoulos A, Tsotsos J K. 50 years of object recognition: Directions forward [J]. Computer Vision and Image Understanding, 2013, 117(8): 827-891. doi: 10.1016/j.cviu.2013.04.005 [3] Edgar M P, Gibson G M, Padgett M J. Principles and prospects for single-pixel imaging [J]. Nature Photonics, 2019, 13(1): 13-20. doi: 10.1038/s41566-018-0300-7 [4] Zhang Z, Ma X, Zhong J. Single-pixel imaging by means of Fourier spectrum acquisition [J]. Nature Communications, 2015, 6: 6225. doi: 10.1038/ncomms7225 [5] Gibson G M, Johnson S D, Padgett M J. Single-pixel imaging 12 years on: a review [J]. Optics Express, 2020, 28(19): 28190-28208. doi: 10.1364/OE.403195 [6] Sun B, Edgar M P, Bowman R, et al. 3 D computational imaging with single-pixel detectors [J]. Science, 2013, 340(6134): 844-847. doi: 10.1126/science.1234454 [7] Sun M J, Zhang J M. Single-pixel imaging and its application in three-dimensional reconstruction: A brief review [J]. Sensors, 2019, 19(3): 732. doi: 10.3390/s19030732 [8] Yao M, Cai Z, Qiu X, et al. Full-color light-field microscopy via single-pixel imaging [J]. Optics Express, 2020, 28(5): 6521-6536. doi: 10.1364/OE.387423 [9] Latorre-Carmona P, Traver V J, Sánchez J S, et al. Online reconstruction-free single-pixel image classification [J]. Image and Vision Computing, 2019, 86: 28-37. doi: 10.1016/j.imavis.2019.03.007 [10] He X, Zhao S, Wang L. Ghost handwritten digit recognition based on deep learning [J]. arXiv preprint arXiv, 2020: 2004.02068. [11] Rizvi S, Cao J, Hao Q. High-speed image-free target detection and classification in single-pixel imaging [C]//SPIE Future Sensing Technologies. International Society for Optics and Photonics, 2020, 11525: 115250 X. [12] Fu H, Bian L, Zhang J. Single-pixel sensing with optimal binarized modulation [J]. Optics Letters, 2020, 45(11): 3111-3114. doi: 10.1364/OL.395150 [13] Lin X, Rivenson Y, Yardimci N T, et al. All-optical machine learning using diffractive deep neural networks [J]. Science, 2018, 361(6406): 1004-1008. doi: 10.1126/science.aat8084 [14] Zhou T, Lin X, Wu J, et al. Large-scale neuromorphic optoelectronic computing with a reconfigurable diffractive processing unit [J]. Nature Photonics, 2021, 15(5): 367-373. doi: 10.1038/s41566-021-00796-w [15] Shen Y, Harris N C, Skirlo S, et al. Deep learning with coherent nanophotonic circuits [J]. Nature Photonics, 2017, 11(7): 441-446. doi: 10.1038/nphoton.2017.93 [16] Jiao S, Feng J, Gao Y, et al. Optical machine learning with incoherent light and a single-pixel detector [J]. Optics Letters, 2019, 44(21): 5186-5189. doi: 10.1364/OL.44.005186 [17] Zhou Zhiping, Xu Pengfei, Dong Xiaowen. Computing on silicon photonic platform [J]. Chinese Journal of Lasers, 2020, 47(6): 0600001. (in Chinese) [18] Zhang Z, Li X, Zheng S, et al. Image-free classification of fast-moving objects using “learned” structured illumination and single-pixel detection [J]. Optics Express, 2020, 28(9): 13269-13278. doi: 10.1364/OE.392370 [19] LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324. doi: 10.1109/5.726791 [20] LeCun Y, Cortes C, Burges C J C. THE MNIST DATABASE of handwritten digits [EB/OL]. [2021-11-16] http://yann.lecun.com/exdb/mnist/. [21] Zhang Z, Wang X, Zheng G, et al. Fast Fourier single-pixel imaging via binary illumination [J]. Scientific Reports, 2017, 7(1): 1-9. doi: 10.1038/s41598-016-0028-x [22] Xiao H, Rasul K, Vollgraf R. Fashion-mnist: A novel image dataset for benchmarking machine learning algorithms [J]. arXiv preprint arXiv, 2017: 1708.07747. [23] Burges C J C, Schölkopf B. Improving the accuracy and speed of support vector machines [C]//Proceedings of the 9 th International Conference on Neural Information Processing Systems, 1996: 375-381. [24] Ciresan D C, Meier U, Gambardella L M, et al. Deep big simple neural nets excel on handwritten digit recognition [J]. arXiv preprint arXiv, 2010: 1003.0358. [25] Ciresan D C, Meier U, Masci J, et al. Flexible, high performance convolutional neural networks for image classification [C]//Twenty-second International Joint Conference on Artificial Intelligence, 2011: 1237-1242.