深度连续卷积神经网络模型构建与性能分析

（沈阳工业大学 a.软件学院，b.信息科学与工程学院，沈阳 110870）

摘要：为了提升卷积神经网络特征提取能力，设计了一种基于连续卷积的深度卷积神经网络模型.该模型采用小尺度的卷积核来更细致地提取局部特征，并借助连续的两个卷积层增加模型的非线性表达能力，结合 Dropout技术降低神经元之间的相互依赖，利用抑制网络过拟合对模型进行优化.人脸表情、手写数字字符和彩色图像的目标识别实验表明，在图像较为复杂时，该模型在识别的准确性和泛化性能上比手工特征提取方法及一般的2、3层卷积结构具有明显的优势.

关键词：卷积神经网络；连续卷积；深度学习；网络结构；特征提取；参数优化；池化；图像识别

自2006年开始，深度学习作为一种新的机器学习技术，已成功应用于信号处理和计算机视觉等领域，备受研究人员的关注，尤其是在语音识别、计算机视觉、自然语言处理和信息检索等方面取得了较好效果，应用于不同的数据集和工业案例都表现出优于浅层学习所能达到的最好效果.在语音识别方面，DNN（deep neural network）对数据之间的相关性有较大的容忍度，使得识别效果较现有方法有了明显的飞跃；在计算机视觉方面，DNN在对象识别和人脸识别时，深度学习能够提取更高层次的特征.

从结构上来说，Hinton等提出的深度置信网络（deep brief network，DBN）［1］可视为是由多个受限玻尔兹曼机（restricted boltzmann machine）［2］叠加而成，这种结构与传统的多层感知机相似，在进行无监督学习训练之后再进行有监督学习训练，将无监督学习到的参数作为有监督学习的初始权值，正是这种学习方法的进步使得深度结构能够解决以往的BP网络所不能解决的问题. Bengio等［3］在2006年提出的自动编码器通过无监督预训练来更好地初始化所有层的权值，从而减缓深度网络的优化困难.随后提出的深度结构算法和模型在很多数据集上刷新了之前的一些最好记录，如2013年Wan等［4］提出的drop connect规范网络，在数据集 SVHN上获得了98.06%的正确率，优于此前最好的结果97.2%.

作为一种典型的网络模型，CNNs（convolutional neural networks）能够组合局部感受野、权重共享和空间或时间上的子采样等结构，确保获得的特征在平移和变形上的不变性.2012年，Krizhevsky等［5］用CNNs构造深度卷积神经网络 DCNN，并在ILSVRC-2012数据集上获得了top-5测试错误率为15.3%的结果.2014年，Zheng等［6］提出的多通道深度卷积神经网络（multi-channels deep convolutional neural network，MC-DCNN）在BID-MC数据集上获得了最好的准确度 94.67%.

虽然之前提出的这些深度学习模型已经取得了不同程度的成功，但是这些模型在训练过程中需要大量的计算资源，难以在一个合理的计算成本下应用于实际问题中.因此，如何在提高网络性能的同时减少网络的规模，也是深度学习研究中的一个挑战.

本文探讨了采取连续卷积、max-pooling池化与Dropout相结合的构建深度神经网络模型，目的是提高深度神经网络性能，使其能够更好地提取局部特征，并且增加网络的非线性表达能力，核心是采用小尺度的卷积核进行连续卷积后再进行max-pooling池化，并结合Dropout技术对网络进行参数优化.该模型不仅提高了网络的特征提取能力，同时减少了网络的参数.通过在三种不同的数据集上对比分析，说明了连续卷积神经网络在特征表示与抽象上的优势.

1 连续卷积网络结构的构建

深度学习神经网络分类模型的不同之处在于可直接将一幅二维图像输入模型中，不需要手工设计和提取特征.在卷积神经网络中，特征提取可通过多个卷积层和池化层来自动完成.

LeNet-5是最初用于手写数字识别的一种非常成功的卷积神经网络.该网络先堆叠两个卷积层和采样层，再连接一个或多个全连接层.其中，卷积层利用一个小的卷积核（如5×5大小）作为特征探测器与原来的大分辨率图像作卷积，从而获得该图像上的任一位置的特征激活值，因此，卷积层可通过特征图的数量和卷积核的尺寸进行描述.每个卷积层由若干个具有相同尺寸的特征图构成，各特征图使用自身的一个卷积核抽取一类特征，所有卷积核的尺寸相同.

为了实现对卷积后特征的统计，卷积神经网络采取了一种有效的策略，即池化（pooling）.通过对局部数据进行平均或取最大值聚合，或者做下采样，可以得到比卷积结果低得多的维度，以防止过拟合，提高模型的泛化能力.同时，即使图像信号经过了平移操作，样本的标记应该保持不变.通过选择图像中的连续范围作为池化区域，并且只是池化相同（重复）的卷积核产生的特征，能够使这些池化单元具有局部位移不变性.

提高深度神经网络性能最直接的方法是增加其深度和宽度，但这种简单的解决方案有两个主要的缺点，其一是更大的网络尺寸通常意味着更多数量的参数，这使网络更容易产生过拟合，尤其是采用有限数目的有标记样本的训练集情况；其二是增加网络规模会大大增加计算资源的使用.因此，为了提高网络的表达能力而非大规模增加尺寸，本文设计了连续两个卷积层的网络结构，即在连续卷积之后再通过池化层对特征图进行采样，如图1所示.

图1 深度连续卷积神经网络结构
Fig.1 Structure of deep consecutive convolutional neural network

本文的连续卷积结构包含4个卷积层和2个池化层.对于原始输入图像首先经过一次卷积运算，再进行连续的2个卷积层进行特征精化，传入池化层降维.随后，以增加一倍的方式抽取更多的特征，并经过2次卷积运算和一次池化.最后，产生500维的特征向量.

2 结构分析及参数优化

当分类问题不是简单线性可分时，传统的线性卷积已经不足以抽象出用来分类的特征，需要高度非线性函数来增强局部模型的抽象能力.一般认为，在常规的卷积神经网络中，利用滤波器的一个过完备集来覆盖潜在特征的所有变化，某个线性滤波器可以被学习来检测一个相同特征的不同变化.滤波器需要考虑所有从前一层传递过来的变化的结合.由于高层的滤波器通过结合底层特征来形成高层特征，因此，在组成更高层次特征之前，更有利于在每个局部区域对其进行一个更好的抽象.

在卷积神经网络中，一个输出特征图由输入图像或上一层特征图和一个线性滤波器（卷积核）进行卷积并加上一个偏置项得到，再应用到一个非线性的激活函数.设与第l层的第j个输出特征图做卷积的l－1层的特征图中的所选子集为M j，其输入记为x l i －1，使用权值k l ij和偏置b l j，激活函数为f（·），则对应的输出特征x l j的表达式为

特定特征图的神经元共享其权值，减少了需要学习的参数，使算法可以并行，提高了算法的效率和泛化能力.

当采用连续两个卷积层时，前一卷积层得到的特征图输出被再次进行卷积操作，从而得到的输出特征图的表达式为

从网络结构设计角度来说，在满足网络所需表达能力的前提下，尽可能使用小的网络规模，减小网络学习时间和复杂性，而采取连续卷积能够达到在控制网络规模的前提下提升其表达能力.由于在采样之前经过连续两次卷积，使得图像得到两次非线性激活函数计算，增强了对函数的复杂程度和非线性程度的表达，进而有利于增强局部模型的抽象能力.

卷积核代表了一个视神经元的局部感受野，从作用范围来看，使用多个卷积核比较小的卷积层直接连接在一起时，也能够获得与采用一个卷积核比较大的卷积层同样的感受野.现有应用示例表明，5×5的卷积核是一种较为适当的感受野.因此，在采用连续卷积层时，使用较小的3×3卷积核，这是因为连续两个3×3卷积层能够形成一个与5×5卷积层同样有效的感受野.由于用两个嵌套的非线性矫正层代替一个，增加了网络的非线性能力，使得决策函数更具判别性，对复杂图像有更好的处理能力.其次，该结构可以减少网络模型的参数，如果一个连续的两层3×3卷积层的输入和输出都是 H通道，其权重个数将是 2× 3 2H 2＝18H 2，而单个 5×5卷积层需要 5 2H 2＝25H 2个参数.因此，可以采用相同数量的参数刻画更复杂的网络.

为了刻画细微的变化，本文采用2×2的max-pooling作为池化方式，其表达式为

式中：maxpooling（）为池化函数；β l j和b l j为第j个输出特征图使用的权值与偏置.使用max-pooling池化方法对该层输入图像的连续n×n大小的区域求最大值，输出图像的大小是输入图像大小的1／n.

max-pooling不仅能够达到增加泛化能力和保持位移不变性的目的，也减少了计算量，提升了收敛的速度.

神经网络常用的激活函数有 sigmoid函数f（x）＝（1＋e －x）－1和双曲正切函数f（x）＝tanh（x），本文选用了文献［7］提出的线性校正单元（rectified linear units，ReLUs）f（x）＝max（0，x）作为激活函数.ReLU提供了一种稀疏表示方法，能够解决“梯度消失”的问题，与 sigmoid、tanh相比可以更快地达到相同的训练误差和更高的准确率.同时，ReLU在反向传播时只需传递 x≥0处的导数，效率更高.

为了增强网络的性能，本文在模型中引入了文献［8］提出的Dropout技术对节点权值的修正进行控制.Dropout技术采用将每个隐藏神经元的输出置为0的概率为0.5的方式来随机让网络某些隐含层节点的权重停止工作，也可以暂时认为这些节点不是网络结构的一部分，不参与前向传播与反向传播.由于每次用输入网络的样本进行权值更新时，隐含节点都以一定概率随机出现，也就避免了每2个隐含节点每次都同时出现.因此，权值的更新不再依赖于有固定关系的隐含节点的共同作用，使得某些特征仅仅在其他特定特征下才有效果的情况得以避免，从而有效抑制过拟合问题，增强了网络的泛化能力.

3 实验与结果分析

本文分3个实验比较了带有2个连续卷积层的卷积神经网络模型（CConvNet）、LeNet-5和一般的3层卷积神经网络（ConvNet）的性能.

第一个实验为人脸表情识别性能对比.选取了2个典型的人脸表情数据库，其一为日本女性人脸表情库 JAFFE，该库包含 213张女性人脸表情图像，共计10人，每人各有 7种静态表情，分别是6种基本表情：开心、悲伤、吃惊、愤怒、厌恶和恐惧，以及一种自然表情；其二为发布于2010年的Cohn-Kanade Dataset，即CK＋数据集，该库中共包含123人的表情图片，593个图像序列，其中有327个图像序列具有表情标签.

JAFFE数据库的10个人的表情中，每人每种表情有3或4个样本.根据文献［6］选取每人的2／3或3／4作为训练样本，共143个，其他70个作为测试样本.

CK＋数据库是一种渐变表情的数据库，故根据文献［9－10］选择每个图像序列的第一张作为自然表情样本，最后3张作为其他表情样本，共1 308张图片，按 1∶1的比例分成训练样本和测试样本［11］.

为了去除背景的影响，首先通过 Adaboost人脸检测算法对每张人脸表情图片进行人脸检测，使其只保留人脸区域，即得到纯脸.将检测到的人脸区域进行裁剪，得到待处理的纯脸图片.随后，将纯脸表情图片归一化到64×64大小，以减少网络的参数和训练的难度.

表1为ConvNet的结构，3个卷积层、3个池化层和2个全连接层，每个卷积层的卷积核大小均为5×5，池化层的核尺寸均为2×2.表2给出了LeNet-5、一般3层卷积神经网络方法ConvNet和连续卷积方法 CConvNet在 JAFFE表情库和CK＋表情库上的平均识别率.

通过观察3层卷积神经网络识别错误的图片发现，该方法很容易将悲伤表情误识为厌恶.这两种表情中有一些嘴角向下和皱眉等相似特征，总体上的差别较小.对于这种细微局部特征，连续两个卷积层的神经网络通过连续两次抽象，能够更好地抽取其中的特征，或者说能够对特征进行更好地表达，进而实现正确分类.同时，采用Dropout技术能够有效避免非依赖特征之间的联合作用，学习到更好的网络参数，其识别率较不采用Dropout技术高出约1个百分点.

表1 ConvNet的结构
Tab.1 Structure of ConvNet

表2 三种方法在JAFFE和CK＋表情库上的平均识别率
Tab.2 Average recognition rates of threemethods in JAFFE and CK＋expression database

第二个实验为采用MNIST数据库的手写数字识别.MNIST是一个大型的手写数字数据库，包含60 000个训练样本和10 000个测试样本，图2给出了10个阿拉伯数字的手写数字图片示例.这些图片都经过中心化和尺寸标准化，每张图片大小都为28×28像素.

图2 MNIST数字数据库样本
Fig.2 MNIST digital database sample

表3为三种方法在 MNIST数据库上的平均识别率.从表3给出的识别结果可以看出，LeNet-5和简单3层卷积神经网络均可得到约99.12%的识别率，相差不大，而CConvNet可以达到99.25%的识别率，比其他两种方法效果略好一些，不过，提高幅度不大.

表3 三种方法在 MNIST数据库上的平均识别率
Tab.3 Average recognition rates of three methods in MNIST database

第三个实验是针对复杂的彩色图像进行目标识别，以实现对目标图像的分类，采用的数据库为CIFAR-10.CIFAR-10数据集包括60 000张32×32大小的彩色图像，共10类，每类 6 000张图像，其中包括50 000张训练图像和10 000张测试图像.

为了探索 CConvNet模型在一个相比人脸和数字更加复杂的数据库里的表现，本文将LeNet-5、简单3层卷积神经网络和连续卷积神经网络应用于CIFAR-10数据库，实验结果如表4所示.实验结果显示连续卷积神经网络识别效果优于LeNet-5和简单3层卷积神经网络，表明连续卷积神经网络在这种较为复杂的彩色图像的分类中仍然表现良好.

表4 三种方法在 CIFAR-10数据库上的平均识别率
Tab.4 Average recognition rates of three methods in CIFAR-10 database

由上述实验可以反映出，连续卷积结构在抽取更复杂特征上具有一定的优势.

4 结论

针对手工抽取特征及一般卷积神经网络特征抽取的准确性以及表达有效性差的问题，引入连续卷积的思想，并结合几种新的优化技术建立了一种基于连续卷积的深度神经网络模型.通过对比实验和分析说明，采用连续两个卷积层进行特征抽取和连续两次非线性激活函数映射，增加了对复杂函数的拟合和非线性程度刻画能力，有利于提取局部复杂特征.在卷积过程中，连续使用小尺寸卷积核可以有效地提取图像的局部细致特征并减少网络参数.此外，利用Dropout技术可以有效阻止特征检测器的共同作用，提高神经网络的性能，防止网络过拟合.

［1］Sarikaya R，Hinton G E，Deoras A.Application of deep belief networks for natural language understanding［J］.IEEE／ACM Transactions on Audio，Speech，and Language Processing，2014，22（4）：778－784.

［2］Fischer A，Igel C.Training restricted boltzmann machines：an introduction［J］.Pattern Recognition，2014，47（1）：25－39.

［3］Bengio Y，Lamblin P，Popovici D，et al.Greedy layerwise training of deep networks［C］／／Proceedings of the Twentieth Annual Conference on Neural Information Processing Systems.Vancouver，Canada，2006：275－284.

［4］Wan L，Zeiler M，Zhang S，et al.Regularization of neural networks using dropconnect［C］／／Proceedings of the 30th International Conference on Machine Learning（ICML-13）.Atlanta，USA，2013：1058－1066.

［5］Krizhevsky A，Sutskever I，Hinton G E.Imagenet classification w ith deep convolutional neural networks［J］.Advances in Neural Information Processing Systems，2012，25（2）：1－9.

［6］Zheng Y，Liu Q，Chen E，et al.Time series classification using multi-channels deep convolutional neural networks［J］.Lecture Notes in Computer Science，2014，8485：298－310.

［7］Nair V，Hinton G E.Rectified linear units improve restricted boltzmann machines［C］／／Proceedings of the 27 thInternational Conference on Machine Learning. Haifa，Israel，2010：807－814.

［8］Hinton G E，Srivastava N，Krizhevsky A，et al.Improving neural networks by preventing co-adaptation of feature detectors［J］.Computer Science，2012，3（4）：212－223.

［9］Liu M，Li S，Shan S，et al.Au-aware deep networks for facial expression recognition［C］／／2013 10 thIEEE International Conference and Workshops on Automatic Face and Gesture Recognition.Washington D C，USA，2013：1－6.

［10］牛连强，孙忠礼，彭敏，等.基于信号可信度的高性能快速图像滤波［J］.沈阳工业大学学报，2013，35（6）：680－686.（NIU Lian-qiang，SUN Zhong-li，PENG M in，et al. Effective and fast image filtering based on signal credibility［J］.Journal of Shenyang University of Technology，2013，35（6）：680－686.）

［11］Lucey P，Cohn J F，Kanade T，et al.The extended Cohn-Kanade dataset（CK＋）：a complete dataset for action unit and emotion-specified expression［C］／／Proceedings of the Computer Vision and Pattern Recognition Workshops.Washington D C，USA，2010：94－101.

Model construction and performance analysis for deep consecutive convolutional neural network

NIU Lian-qiang a，CHEN Xiang-zhen b，ZHANG Sheng-nan b，WANG Qi-hui b
（a.School of Software，b.School of Information Science and Engineering，Shenyang University of Technology，Shenyang 110870，China）

Abstract：In order to improve the feature extraction capability of convolutional neural network，a deep convolutional neural network model based on the consecutive convolution was proposed.The small-scaled convolutional kernels in the model were adopted to precisely extract the local features，and the nonlinear expression capability of the model was improved with the help of two continuous convolutional layers.In addition，the mutual dependency between neurons was reduced with the Dropout technology，and the model was optimized through restraining the network over-fitting.The objective recognition experiments of facial expressions，hand written numeric characters and color images show that when the images are complicated，the proposed model has obvious advantages in the aspects of both recognition accuracy and generalization capability，compared with the manual feature extraction method and general two-layer and three-layer convolutional structures.

Key words：convolutional neural network；consecutive convolution；deep learning；network structure；feature extraction；parameter optimization；pooling；image recognition

作者简介：牛连强（1965－），男，辽宁盖县人，教授，主要从事图形学、计算机辅助设计、计算可视化及仿真等方面的研究.

网络出版地址：http：∥www.cnki.net／kcms／detail／21.1189.T. 20160512.1401.026.htm l

深度连续卷积神经网络模型构建与性能分析 *

1 连续卷积网络结构的构建

2 结构分析及参数优化

3 实验与结果分析

4 结 论

4 结论