自适应控制深度学习和知识挖掘图像分类*

王春华a, 韩 栋b

(黄淮学院 a. 动画学院, b. 信息工程学院, 河南 驻马店 463000)

针对传统分类方法的局限性,提出了一种深度学习结合知识挖掘的零样本图像自适应控制图像分类算法.利用对图像属性的深度学习来实现图像深层次特征及属性的学习和预测,基于图像的属性类别映射使分类器性能有较大差异,通过稀疏表示模型挖掘图像类别和属性之间的关系并设计自适应控制的属性分类器实现对图像的分类操作.结果表明,与DBN和SVM算法相比,在监督模式和零样本模式下,该算法具有较高的属性预测准确度.在零样本情况下对Shoes数据集进行分类时,该算法具有最高的准确分类识别率,比其他算法的分类识别率提高了15%.

深度学习; 知识挖掘; 卷积神经网络; 图像分类; 零样本; 支持向量机; 深度置信网络; 分类器

模式识别作为信息科学和人工智能的主要组成部分,已经广泛应用于图像处理、计算机决策、声音分类和语音识别等领域[1-3].典型的模式识别包括三种方法:有监督学习、半监督学习和无监督学习[4-5].有监督学习可以利用类别中的标签作为先验知识,包括支持向量机、高斯混合模型、朴素贝叶斯方法和人工神经网络[6]等方法.无监督学习是指类别中没有标签信息或标签信息不可用,包括聚类操作和强化学习等方法.半监督学习介于两者之间.在实际应用中,大量的数据是以无标签的形式存在,从海量的数据中选择有标签的数据通常比较困难甚至不能完成,因此,在标记样本不足甚至没有标记样本的情况下对数据进行分类是一个重要的研究课题[7-8].解决这一问题的方法包括迁移学习、多任务学习、自主学习和终身学习等.此外,更困难的问题是特定的类别甚至没有训练样本.当训练样本不能涵盖所有待分类的类别时,采用传统的分类方法将不能对其分类,需要采用零样本的分类方法[9-10].本文提出了一种针对零图像样本的深度学习属性预测结合属性先验知识挖掘的自适应控制图像分类方法.采用卷积神经网络对图像特征进行学习和提取,通过BP算法结合无监督训练得到卷积核,利用多层卷积层和池化层堆叠实现深度卷积神经网络模型.使用稀疏表示的方法挖掘属性类别间相关性的先验知识,对不同的属性分类器进行自适应加权控制处理实现对测试图像属性的预测.

1 算法模型

算法利用多层卷积神经网络来实现图像属性的抽象和学习,构建了从像素到特征,再到属性的三级语义层次模型,利用稀疏表示方法深入挖掘图像类与图像属性之间的内在联系,结合先验知识得到图像属性分类器.整个分类算法由图像预处理、属性分类器训练、属性预测、相关性知识挖掘和样本学习五部分组成.在图像预处理阶段主要采用特定的处理方法消除图像冗余信息和像素之间的相关性,算法采用ZCA白化实现.在属性分类器训练阶段将图像对象类具有多个属性的情况转换成多个单属性问题求解,利用多个卷积层和池化层叠加形成的深度卷积神经网络模型得到图像深度属性预测模型,采用有监督的训练方式对属性分类器进行训练.在属性预测阶段利用前一阶段中得到的图像深度属性预测模型对测试图像集进行属性预测,得到测试图像集和各个属性之间的对应关系.在相关性知识挖掘阶段利用稀疏表示模型计算图像属性与图像类别之间的相关性.在样本学习阶段结合属性预测阶段得到的图像深度属性预测值和属性类别之间的稀疏表示系数,采用直接属性预测模型实现图像分类.算法的总体流程如图1所示.

1.1 图像预处理

训练用图像集表示为P={p1p2,…,pe},piRw×w×c,其中,w表示图像的大小,c表示图像 的通道.为了消除光照等外部因素对图像的影响,需要对图像进行归一化处理,得到归一化的图像集为Γ={q1q2,…,qe},qiRw×w×c.归一化公式为

图1 算法总体流程图
Fig.1 Overall flow chart of algorithm

(1)

式中:mean()为均值计算;var()为方差计算;ε为归一化因子,用于防止分母出现0的情况,并在一定程度上抑制实验过程中产生的噪声.

归一化图像集采用ZCA对图像进行白化处理,降低特征之间的相关性,减轻信息冗余度,并且使白化后的数据最大程度上接近原始数据.将每个图像qi变换成列向量lili的长度为w×w×c.将所有图像列向量组成矩阵Ψ并求该矩阵的协方差矩阵C=cov(Ψ),对C进行特征值分解[VD]=eig(C).基于特征值分解结果对Ψ进行缩放操作,其表达式为

Ψ

(2)

式中:ξ为白化因子,作用与ε相同;diag(V)为取对角线元素.最后对矩阵ΨPCAwhite进行白化处理,得到图像的白化处理结果矩阵ΨZCAwhite,其处理公式为

ΨZCAwhite=ΨPCAwhiteVT

(3)

1.2 基于深度卷积神经网络的属性训练

每个图像包含多个属性特征,算法对每个属性特征设计一个基于深度卷积神经网络的分类器,再将每个分类器的结果进行组合得到最终的属性预测结果.每个图像深度属性预测模型由输入层、特征提取层和输出层组成,输入层用于接收经过ZCA白化后的图像数据,输出层为Logistic二值分类器,1和0分别表示图像是否具有该属性.特征提取层以一个卷积层和一个池化层构成基本单元,包括多个基本单元.卷积层利用卷积核对输入进行卷积操作得到特征图.由于图像是RGB图像,因此,每个输入图像xi和卷积核都是三维的,将每个卷积核与对应的各维输入图像进行卷积,并叠加相应的偏差项得到特征图,即

*

(4)

式中:l为第l卷积层;为第l-1层第i个特 征图与第l层第j个特征图之间的卷积核;Fl为第l层的特征图数目;为响应的偏差项;f(x)=max{0,x}为激活函数.利用池化层对卷积层的输出特征图进行非线性下采样,得到维度减小的输出特征映射,消除相邻两层的相似特征并保持局部特征不变,其表达式为

(5)

式中:为下采样系数;down()为均值下采样函数.

采用后向传播算法对卷积核k和偏置系数b等参数进行训练.对于全连接神经网络,用Wl表示第l层与第l-1层之间的连接权值,B为偏置系数向量,则第l层的输出向量也可表示为

Xl=f(WlXl-1+Bl)

(6)

定义神经元灵敏度δl和平方误差代价函数Ed分别为

δl=f ′(WlXl-1+Bl)(Yn-Tn)

(7)

Ed=0.

(8)

式中:d为样本数;为第n个样本的第k维标签;为相应的输出标签;TY为相应的矢量表示.

为了计算第l卷积层的权值,需要计算δl,进而要先计算卷积层后接池化层的神经元灵敏度δl+1.当已知时,的计算公式为

(9)

式中:up()为Kronecker上采样函数,up(x)=x⊗1n×n;f ′为第l层第j个特征图的导数.通过对第l卷积层中所有节点灵敏度求和,可得偏置系数b的梯度为

(10)

式中,(u,v)为特征图中神经元的位置.采用BP算法计算卷积核中权值的梯度,对于某一权值,通过将与其相连的上层所有神经元求梯度再求和得到该权值的梯度,其表达式为

(11)

式中,为上一层中(u,v)位置的特征与卷积核相乘的值.对于下采样系数,定义下采样特征图,则的梯度为

(12)

得到各参数的梯度值后,采用基于Dropout的随机批量梯度下降法对网络中各参数进行迭代更新,直到模型收敛到误差不再减小时停止,得到最终的神经网络各参数值.

1.3 基于稀疏表示的属性类别关系挖掘

设字典为Φ=[φ1φ2,…,φm],其中,φi为基信号,s为待表示的目标信号.稀疏表示就是求系数向量h,使得Φh=s,并且h中非0的元素尽量少.定义为稀疏度,即h中非0元素的个数.通常情况下s的维数远小于稀疏表示系数的维数,因此,系数向量h的解不是唯一的,算法采用凸松弛法求解h,即

.t. Φh=s

(13)

式中,为1范数.采用间隔最大化判别分析方法对Φ进行处理,得到其在最优分类面上的投影s.式(13)右半部分可以表示为

(14)

求得h后,定义与属性am对应的属性类别相关性为SRC(am,z)=hm.

当样本类别数大于属性个数时,Φ不是过完备字典,此时将属性类别矩阵表示为字典,…,,…,.在属性ai对类别i有效时为1,反之为0.此时属性值为,相应的包含类别信息的变量为,系数向量为.采用与第一种情况同样的方法求解后,与属性am对应的属性类别相关性为SRC(am.得到所有L个分类的稀疏表示系数后,属性am对应的总的属性类别相关性为

SRC(am

(15)

1.4 基于直接属性加权预测的图像分类

在训练阶段,算法采用图像深度属性预测模型训练多个属性分类器.在测试阶段,利用训练阶段得到的属性分类器计算测试样本属性a的概率p(ax),其表达式为

(16)

从属性a到分类标签z可表示为

(17)

式中,p(az)可以看作先验知识,并且有

(18)

其中,p(am)为先验知识,通常为0.5.由于各个属性在对图像进行描述时的重要性不同,算法通过属性类别相关性SRC(am,z)来表征不同属性的重要性,并将前述步骤得到的SRC(am,z)作为已知条件加入到属性类别映射函数中,则从样本到类别的映射函数可表示为

(19)

在判断图像的具体所属类时,通过判断图像样本在哪个类别标签下的p(zx)最大,即可认为该图像样本属于相应的类,即

(20)

2 实验及分析

为了验证算法的合理性和准确性,选择Shoes数据集作为测试对象.在Shoes数据集中选取每个Shoe的前1 000幅图像作为实验对象.深度学习网络设置为5层,下采样系数为0.25,ZCA白化因子为0.1,归一化因子为5.

2.1 属性预测实验

该实验的目的是验证在有监督条件下的属性预测精度.从Shoes数据集中选择8 000幅图像作为训练样本,再另选4 500幅作为测试样本.选择pointyopenbrightcoveredshinyhighlongformalsportyfeminine作为实验处理属性,随着运算次 数的增加,各属性的预测精度如图2所示.由图2可知,随着运算次数的增加,各个属性的预测精度趋于收敛,当运算次数增加到一定次数时,属性预测精度稳定地收敛于特定值.

图2 属性预测精度
Fig.2 Attribute prediction accuracy

将本文算法与支持向量机SVM和深度置信网络DBN进行对比,验证该算法的性能.实验中DBN由两层受限波尔兹曼机构成,输入数据与本文算法相同.SVM采用基于χ2核函数的非线性支持向量机,可分为两种情况,第一种情况是输入数据与本文算法相同,记为SVM_1.第二种情况是输入数据为原始数据降维后的特征提取结果,记为SVM_2.属性预测结果如表1所示.

表1 属性预测结果
Tab.1 Attribute prediction results

方法pointyopenbrightcoveredshinyhighlongformalsportyfeminine本文算法94.388.593.492.588.597.298.390.496.694.8DBN89.085.190.488.687.191.995.391.592.689.9SVM_185.179.274.673.779.883.182.979.181.577.9SVM_288.487.991.985.886.293.695.489.293.185.3

由实验结果可知,由于DBN模型无法构建深层网络结构,只有两层受限波尔兹曼机的DBN模型在属性预测方面的准确度低于本文算法的属性预测准确度.此外,两种SVM模型在属性预测方面的准确度也低于本文算法的属性预测准确度,并且SVM_2的准确度高于SVM_1的准确度,这表明SVM模型更适用于已经提取好的特征.因此,本文算法具有最好的属性预测效果.

2.2 零样本分类实验

从Shoes数据集中选择6种鞋子(flats、rain-boots、stiletto、clogs、high-heels、sneaker)作为训练类别,再选4种鞋子(boots、pumps、athletic-shoes、wedding-shoes)作为测试类别,则这10种类别共有210种组合方式.实验前排除掉训练样本中只包括正样本或负样本等对分类无贡献的极端组合方式,可用的组合方式剩余104种,在这些剩余的组合中随机选择10组进行多次实验.采用与前述实验相同的DBN和SVM模型作为对比,在零样本情况下的平均预测精度如表2所示.某次实验的属性预测精度如图3所示.

由平均属性预测精度和某次实验属性预测精度可知,在零样本的情况下,属性预测精度普遍低于有监督情况下属性预测精度.虽然在sporty等个别属性时本文算法的预测精度小于对比算法模型,但是在大部分属性中本文算法均优于对比算 法模型,因此在零样本情况下,本文算法同样具有最强的属性学习能力.

表2 平均属性预测结果
Tab.2 Average attribute prediction results

方法pointyopenbrightcoveredshinyhighlongformalsportyfeminine本文算法75.258.390.773.460.583.295.470.282.386.2DBN56.958.774.965.653.565.985.668.778.864.4SVM_163.851.547.543.456.768.451.554.849.260.0SVM_265.358.277.760.158.371.486.060.885.568.9

图3 单次实验属性预测精度
Fig.3 Attribute prediction precisionof single experiment

4种算法在零样本下的图像分类平均识别率为:本文算法为52.3%,DBN为37.1%,SVM_1为29.4%,SVM_2为35.4%.某次实验对4类鞋的分类结果如图4所示.图4中,横轴表示每类鞋的分类数,纵轴表示每类鞋的实际样本数,例如,在图4a中,athletic_shoes的样本数为1 000,其中分类为athletic_shoes为202张,boots为189张,pumps为17张,wedding_shoes为592张,即对角线上元素为正确分类的数量,其余元素为错误分类的数量.由图4可知,本文算法在对角线上元素之和大于DBN和两种SVM对角线元素之和,表明本文算法的正确分类识别率高于DBN和两种SVM算法.

3 结 论

本文提出了一种深度学习结合知识挖掘的零样本图像自适应控制分类算法.该算法采用有监督学习的方式对深度卷积神经网络进行训练,并且利用无监督训练和BP算法的方式实现卷积核的学习,设置多个卷积层和池化层相堆叠来进行 图像深层特征和属性的预测,结合稀疏表示的方法对属性先验知识进行挖掘并将结果用于分类器自适应加权控制处理.实验结果表明,同DBN和SVM算法相比,本文算法具有更高的属性预测精度.在零样本情况下对Shoes数据集进行分类时,该算法具有最高的准确分类识别率,较对比算法正确分类识别率提高了15%.

图4 单次实验分类结果
Fig.4 Classification results of single experiment

参考文献(References):

[1] Song B,Li J,Mura M D,et al.Remotely sensed image classification using sparse representations of morphological attribute profiles [J].IEEE Transactions on Geoscience and Remote Sensing,2014,52(8):5122-5136.

[2] Cavallaro G,Mura M D,Benediktsson J A,et al.Remote sensing image classification using attribute filters defined over the tree of shapes [J].IEEE Transactions on Geoscience and Remote Sensing,2016,54(7):3899-3911.

[3] 牛连强,赵子天,张胜男.基于Gabor特征融合与LBP直方图的人脸表情特征提取方法 [J].沈阳工业大学学报,2016,38(1):63-68.

(NIU Lian-qiang,ZHAO Zi-tian,ZHANG Sheng-nan.Extraction method for facial expression features based on Gabor feature fusion and LBP histogram [J].Journal of Shenyang University of Technology,2016,38(1):63-68.)

[4] Li G,Chang K,Hoi S C H.Multiview semi-supervised learning with consensus [J].IEEE Transactions on Knowledge and Data Engineering,2012,24(11):2040-2051.

[5] Pan S J,Yang Q.A survey on transfer learning [J].IEEE Transactions on Knowledge and Data Engineering,2010,22(10):1345-1359.

[6] 牛连强,陈向震,张胜男,等.深度连续卷积神经网络模型构建与性能分析 [J].沈阳工业大学学报,2016,38(6):662-666.

(NIU Lian-qiang,CHEN Xiang-zhen,ZHANG Sheng-nan,et al.Model construction and performance analysis for deep consecutive convolutional neural network [J].Journal of Shenyang University of Technology,2016,38(6):662-666.)

[7] Xia J,Mura M D,Chanussot J,et al.Random subspace ensembles for hyper spectral image classification with extended morphological attribute profiles [J].IEEE Transactions on Geoscience and Remote Sen-sing,2015,53(9):4768-4786.

[8] Kovashka A,Parikh D,Grauman K.Whittle search:interactive image search with relative attribute feed-back [J].IEEE International Transactions on Computer Vision,2015,115(2):185-210.

[9] Lampert C H,Nickisch H,Harmeling S.Attribute-based classification for zero-shot visual object categorization [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,36(3):453-465.

[10]Fu Y,Hospedales T M,Xiang T,et al.Transductive multi-view zero-shot learning [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(11):2332-2345.

Adaptive control deep learning and knowledge mining image classification

WANG Chun-huaa, HAN Dongb

(a. School of Animation, b. School of Information Engineering, Huanghuai University, Zhumadian 463000, China)

Abstract Aiming at the boundedness of traditional classification methods, an adaptive image classification algorithm for zero sample images in combination with both depth learning and knowledge mining was proposed. With the deep learning of image attributes, the learning and forecast of deep-level features and attributes of images were realized. Based on the attribute-class mapping of the images, the classifier had the great performance differences. The relationship between the image categories and attributes was characterized by the sparse representation, and an attribute classifier with adaptive control was designed to realize the classification operation of images. The results show that compared with both DBN and SVM algorithms, the proposed algorithm has high attribute prediction accuracy under both supervised mode and zero sample mode. When the Shoes data set was classified under the condition of zero sample, the proposed algorithm has the highest accurate classification recognition rate, which is 15% higher than other algorithms.

Key words deep learning; knowledge mining; convolution neural network; image classification; zero sample; support vector machines; deep belief network; classifier

收稿日期 2017-07-14.

基金项目 河南省科技计划资助项目(172102210117).

作者简介 王春华(1980-),女,四川仁寿人,副教授,博士,主要从事计算机图形学和数据挖掘等方面的研究.

* 本文已于2018-05-03 10∶51在中国知网优先数字出版.

网络出版地址:http:∥kns.cnki.net/kcms/detail/21.1189.T.20180502.1748.002.html

doi:10.7688/j.issn.1000-1646.2018.03.17

中图分类号 TM 343

文献标志码:A

文章编号:1000-1646(2018)03-0334-06

(责任编辑:钟 媛 英文审校:尹淑英)

\<FounderNode name="YM" value="5BZ=340,S"/>