潘明波
(云南工商学院 信息工程学院, 昆明 651701)
摘 要: 针对传统神经网络算法进行图像分类识别时收敛速度慢,学习过程中可能出现震荡甚至收敛于局部极小值的情况,提出了一种小波变换融合神经网络的图像分类识别方法.利用高斯小波基函数取代神经网络隐含层中的隐节点函数,采用小波神经网络参数初始化方法和改进的模拟退火算法自适应调整学习过程中的网络权值参数,从而解决了神经网络的学习效率低等情况.结果表明,本文方法对5类动物图片的正确分类识别率为84.0%,较传统神经网络和稀疏表示的正确分类识别率提高了4.2%和6.1%.
关 键 词: 小波变换; 神经网络; 图像挖掘; 图像分类; 高斯小波基; 模拟退火算法; 连接权值; Cifar数据集
随着大数据时代的来临,各种图像数据呈爆炸式增长,要在海量数据中通过人工方式分类识别出所需的目标是一个巨大甚至不可能完成的挑战,因此,基于计算机的图像自动分类识别成为当前的研究热点.常用的图像识别方法包括基于几何特征的识别方法、基于统计学的识别方法、基于模型的识别方法、基于神经网络的识别方法以及各种识别方法的综合应用等[1-4].其中,基于神经网络的识别方法采用当前流行的神经网络作为图像识别的基本核心模型[5-6].神经网络通过模拟人类的神经活动,具有自学习和自适应等优点,能够在人工干预较少的情况下智能地识别出所需目标.而小波变换[7-8]是现代应用数学和工程学科中发展起来的新学科,通过将小波变换和神经网络联合运用,可以发挥两者的优势.小波神经网络[9-10]具有收敛速度快及逼近能力强等优点,其误差函数关于网络权值是凸函数,可以消除网络收敛于局部最小值的问题.通过小波基个数等于神经元节点数等规律确定小波元和神经网络结构的数目,减少设计负担.各个小波神经元之间的相关性较低,可以保证算法较快地收敛.小波变换与神经网络的组合包括两种形式:小波变换与神经网络结合,小波变换与神经网络融合.小波变换与神经网络结合是一种松散的组合应用,将小波变换处理结果作为神经网络的输入,两者可以分开运行;小波变换与神经网络融合是交融的组合应用.以小波基函数替换神经网络中隐节点函数,以小波函数的尺度和平移变换参数替代神经网络中输入层到隐含层的权值和阈值.本文采用小波变换与神经网络融合的方法,利用高斯小波基函数作为神经网络的隐节点函数,结合自适应神经网络各参数初始值设置方法和改进的模拟退火算法自适应控制学习效率,通过对图像特征的学习实现对图像对象的分类识别操作.
基于小波神经网络学习控制的图像挖掘算法能够实现对输入图像的自动分类,其输入是各种类型的图像,输出是图像所属的类标签.为了使各种图片都能顺利分类,需要将图片进行标准化处理,本文算法是将图片进行下采样形成100×100的像素大小.整个处理过程包括学习和分类两个过程.在学习过程中输入带有明确类标签的训练样本对小波神经网络的各种参数进行训练,使其满足算法分类需要.分类过程输入需要分类的测试样本,根据输出的类标签实现图像的分类操作.
与传统的神经网络图像分类算法相比,该算法的创新性表现为:
1) 利用小波基函数代替传统神经网络的线性函数,具有更快的收敛速度和逼近能力;
2) 提出了一种与学习样本和神经元传递函数相结合的网络初始参数自适应设置算法,保证了算法的收敛能力;
3) 利用改进的模拟退火算法对小波神经网络的学习效率进行局部自适应控制调整,加快了学习收敛速度.
小波神经网络以小波基函数作为神经网络中神经元的激励函数.从图像挖掘的实际需求出发,算法采用sigmoid函数代替线性函数作为输出层的激励函数,利用熵函数定义网络误差,采用三层神经网络的形式,即输入层、输出层和一个隐含层.下标k、i、j分别表示输入层、输出层和隐含层的神经元标记,相应的各层结点数分别为m、N、n.输入层的第k个输入样本用xk表示,输出层的第i个输出值用yi表示,隐含层第j个节点和输入层第k个节点之间的连接权值用wjk表示,输出层第i个节点与隐含层第j个节点之间的连接权值用wij表示,输出层第i个节点的阈值用wio表示,隐含层第j个节点的阈值用wjo表示,隐含层第j个节点的伸缩和平移系数分别用aj和bj表示,小波神经网络可表示为
yi(t)=σ
(i=1,2,…,N)
(1)
式中,Ψa,b为小波基函数.假设小波神经网络有P种类型,第p种类型的第k个输入样本为,该类型的第i个网络实际输出为
,对应的期望输出为
,采用熵形式定义的误差函数为
(2)
令,则小波基函数可以表示为
Ψa,b(netj)=Ψ
(3)
此时小波神经网络模型可以表示为
(4)
要计算小波神经网络中的最佳系数,对误差熵求导数可得
(5)
/aj
(6)
/aj
(7)
·
/aj
(8)
引入学习效率η和动量系数u之后的网络参数调整公式为
wjk(t+1)=wjk(t)-ηΔwjk(t)
(9)
wij(t+1)=wij(t)-ηΔwij(t)
(10)
aj(t+1)=aj(t)-ηΔaj(t)
(11)
bj(t+1)=bj(t)-ηΔbj(t)
(12)
其中,小波基函数为高斯小波基函数,其表达式为
Ψ
(13)
其一阶导数表示为
Ψ′
(14)
小波神经网络中各个连接权值和阈值初始值的选择对其收敛能力和收敛速度有直接影响.好的初始值可以保证神经网络较快地收敛到所需结果,坏的初始值不但影响算法效率,甚至会导致算法发散或者收敛到错误值.传统的凭经验设置初始值的方法随机性较大,并且所设置的参数不满足所有情况.解决这个问题的可行方法是将初始值的设定与学习样本和神经元传递函数相结合,得到一种自适应控制的初始参数设置方法.隐含层第j个节点和输入层第k个节点之间的连接权值wjk初始值的设置方法为:
1) 分别产生[-1,1]之间的均匀分布随机数作为输入层和隐含层间连接阈值wjk暂时值.
2) 基于每个隐含层节点对wjk进行初始化,初始化公式为
,2,…,n)
(15)
3) 将归一化结果乘以与输入层节点数和隐含层节点数有关的因子,即
wjk=Cn1/mwjk
(16)
式中,C为与传递函数相关的常数,在高斯小波基函数情况下取值范围为[1.8,2].
4) 结合学习样本对初始值进行修正.如果输入层第k个神经元输入样本的最大值和最小值分别为xkmax和xkmin,则最终的连接权值为
(j=1,2,…,n)
(17)
隐含层第j个节点的阈值wjo初始值设置方法为:
1) 分别产生[-1,1]之间的均匀分布随机数作为每个隐含层节点阈值wjo的暂时值.
2) 将wjo乘以与输入层节点数和隐含层节点数有关的因子,即
wjo=Cn1/mwjo
(18)
3) 将wjo与学习样本的最大值、最小值及连接权值wjk相结合,即
wjo=wjo-0.
(19)
隐含层与输出层之间的连接权值及输出层的阈值初始值的设置方式与上述相应参数初始值设置方法类似.小波基函数的平移参数bj和伸缩参数aj的初始值设置方法分两种情况进行讨论.
1) 输入层节点数为1时,所有小波神经元的伸缩参数aj相同,平移参数bj为
(j=0,1,2,…,n-1)
(20)
式中,M为训练样本的总数.
2) 输入层节点数大于1时,为使小波伸缩参数覆盖输入向量,伸缩参数和平移参数初始值的设定需要满足
(21)
式中:t*为母小波函数的时域中心;ΔΨ为半径.在高斯小波函数中,t*为0,ΔΨ为1.224 74.由式(21)可解得伸缩参数和平移参数的初始值为
(22)
调整学习速率可以使小波神经网络算法较快地收敛,进而提高算法的运算速率.调整方法包括局部学习速率自适应控制调整和全局学习速率自适应控制调整.本文利用改进的模拟退火算法对小波神经网络的学习效率进行局部自适应控制调整,减小了学习过程中的震荡现象并加快了学习收敛速度.在传统的模拟退火算法基础上,将学习过程分为加速阶段和平稳收敛阶段两步.加速阶段使学习速率快速增加到最佳学习效率值,平稳收敛阶段调整学习效率.为了抑制仍然存在的震荡现象,在改进的模拟退火算法中引入了加动量项法,即
Δwij(z)=-η
(23)
式中:α为权值系数;z为更新次数.当前次dE(t)/dwij(t)与上一次符号相同时,Δwij(z)较大,反之较小,说明在增加调节速率的同时稳定了震荡效果.将动量系数引入局部调整过程中,两个时刻的目标函数连接权值梯度符号相同时,根据两者的梯度比值调整权值和步长,从而实现对学习效率的自适应控制调整,算法过程如下:
1) 随机产生较小的起始学习效率ηij(0).
2) 自适应更新局部学习效率和连接权值.在加速阶段,当
≥0
如果
≥threshold
则
如果
则
当
则
在平稳收敛阶段,当
≥0
如果
≥threshold
则
如果
则
当
则
式中:u1取值在1.5~3.0之间;d1在0.3~0.7之间;u2在1.1~1.3之间;d2在0.5~0.9之间;d3和d4在0.7~0.9之间;threshold在2.5~4.0之间.
实验采用Cifar数据集进行图像对象识别.Cifar数据集包括60 000个训练样本和10 000个测试样本,涵盖了汽车、飞机、轮船等人造目标和鸟、猫、狗、马、鹿等动物图像.由于各种人造目标与动物之间差异较大,对其进行识别难度较小.算法选择鸟、猫、狗、马和鹿五种动物进行识别.
从数据集中随机选择1 000个训练样本和500个测试样本进行10次实验,每次实验对每种动物的识别率如图1所示,某次实验的结果数据如表1所示.
图1 各种动物识别率
Fig.1 Recognition rate for various animals表1 单次实验各种动物识别率
Tab.1 Recognition rate for various animalsin single experiment
由实验结果可知,对各种动物的平均识别率为鸟85.7%、猫83.9%、狗83.3%、马79.8%、鹿78.6%,总的正确识别率为82.3%.算法对鸟的识别率最高,这是由于从形态学还是颜色和纹理等特征上,鸟与其他四种动物的区别都最大,因此能够正确区分的程度最高.而马和鹿两种动物无论是在体型、颜色、尾巴和脚等特征上都有较高的相似度,因此,算法在识别时容易将两者误分,识别率较低.选取四次实验中各个类别的具体数据,结果如图2所示.
图2 四次实验识别具体结果
Fig.2 Specific recognition results of four experiments
每个子图中的每一竖列对应每类样本的样本数,每一横列对应识别为该类别的样本数.对角线上元素表示正确分类的数目,灰色元素表示错分数目较大的类别.由图2可知,对于鸟样本,错误分类主要表现为错分为猫和狗两个类别.对于猫和狗样本,错误分类主要表现在将猫分类为狗,将狗分类为猫.对于马和鹿样本,错误分类也主要表现为将马分类为鹿,将鹿分类为马.实验结果与直观印象相符.
将本文算法与传统神经网络算法和稀疏表示算法对比,三种算法的训练样本、测试样本和所选特征均相同,进行10次实验,每次实验对各种动物的平均识别率如表2所示.
表2 三种算法识别率对比
Tab.2 Comparison in recognition rate for three algorithms %
由表2可知,本文算法的平均正确识别率为84.0%,传统神经网络算法的平均正确识别率为79.8%,稀疏表示算法的平均正确识别率为77.9%,本文算法的平均正确识别率优于传统神经网络算法和稀疏表示算法的正确识别率,正确识别率提高了4.2%和6.1%,其原因是小波神经网络算法较普通神经网络算法有更强的非线性逼近能力,其误差函数的凸性可以有效避免收敛于局部最小值.通过采用自适应初始值选择和自适应学习效率调整方法,也提高了算法的执行效率并避免了震荡情况的出现.
本文提出了一种基于小波变换融合神经网络的图像识别挖掘算法.利用高斯小波基函数替代神经网络隐含层中隐节点函数,通过自适应控制的方法设置小波神经网络初始化参数,结合改进的模拟退火算法自适应调整小波神经网络的学习效率并有效避免学习过程中的震荡情况.实验结果表明,对于Cifar数据集中的五类动物图片,算法的平均正确识别率达到了84.0%,分类结果符合人类认知的普遍规律.采用相同数据与传统神经网络算法和稀疏表示算法进行对比实验,该算法较传统神经网络算法和稀疏表示算法正确识别率提高了4.2%和6.1%.
参考文献(References):
[1] Lin Y Q,Lv F J,Zhu S H,et al.Large-scale image classification:fast feature extraction and SVM training [C]//2011 IEEE Conference on Computer Vision and Pattern Recognition.Colorado Springs,USA,2011:1689-1696.
[2] Guo J M,Prasetyo H,Su H S.Image indexing using the color and bit pattern feature fusion [J].Journal of Visual Communication and Image Representation,2013,24(8):1360-1379.
[3] Yang J,Zhu S.An online image retrieval method based on self color correlogram model [J].Journal of Computational Information Systems,2012,8(8):3369-3376.
[4] Iqbal K,Odetayo M O,James A.Content-based image retrieval approach for biometric security using colour,texture and shape features controlled by fuzzy heuristics [J].Journal of Computer and System Sciences,2012,78(4):1258-1277.
[5] Sultana M,Gavrilova M.A content based feature combination method for face recognition [J].Advances in Intelligent Systems and Computing,2013,22(6):197-206.
[6] Sui L,Zhang J,Zhuo L,et al.Research on pornographic images recognition method based on visual words in a compressed domain [J].IET Image Processing,2012,6(1):87-93.
[7] 尚赵伟,国庆,马尚君,等.基于二进小波变换的多车牌定位算法 [J].计算机工程,2011,37(3):16-18.
(SHANG Zhao-wei,GUO Qing,MA Shang-jun,et al.Multi-license plate localization algorithm based on dyadic wavelet transform [J].Computer Engineering,2011,37(3):16-18.)
[8] 刘晓明,王丽君,侯春光,等.基于小波包能量熵的低压串联故障电弧诊断 [J].沈阳工业大学学报,2013,35(6):606-612.
(LIU Xiao-ming,WANG Li-jun,HOU Chun-guang,et al.Diagnosis of low voltage series arc fault based on wavelet packet-energy entropy [J].Journal of Shenyang University of Technology,2013,35(6):606-612.)
[9] 沈显庆,王成元.小波变换和改进谐波法的感应电动机转速辨识 [J].沈阳工业大学学报,2011,33(1):25-30.
(SHEN Xian-qing,WANG Cheng-yuan.Speed identification of induction motor based on wavelet transform and improved harmonic method [J].Journal of Shenyang University of Technology,2011,33(1):25-30.)
[10]周涛,蒋芸,王勇,等.基于小波神经网络的医学图像分类方法 [J].计算机应用,2010,30(10):2857-2860.
(ZHOU Tao,JIANG Yun,WANG Yong,et al.Medical image classification based on wavelet neural network [J].Journal of Computer Applications,2010,30(10):2857-2860.)
PAN Ming-bo
(Information Engineering Institute, Yunnan Technology and Business University, Kunming 651701, China)
Abstract: Aiming at the situation that the convergence speed of traditional neural network algorithm is slow, the oscillation may appear in the learning process, and even the algorithm may converge to the local minimum value, an image classification recognition method based on wavelet transform fusion neural network was proposed. The Gaussian wavelet basis function was used to replace the hidden node function in the hidden layer of neural network. The network weight parameters in the learning process were adaptively adjusted with the wavelet neural network parameter initialization method and the improved simulated annealing algorithm. Therefore, such problem as the low learning efficiency of neural network can be solved. The results show that the correct classification and recognition rate of the proposed algorithm for five kinds of animal images is 84.0%, which increases by 4.2% and 6.1% than that of traditional neural network and sparse representation, respectively.
Key words: wavelet transform; neural network; image mining; image classification; Gaussian wavelet basis; simulated annealing algorithm; connection weight; Cifar dataset
收稿日期: 2017-09-05.
基金项目: 云南省教育厅科学研究基金资助项目(2015C113Y).
作者简介: 潘明波(1984-),男,江苏镇江人,讲师,硕士,主要从事计算机科学技术与应用等方面的研究.
* 本文已于2018-05-03 11∶03在中国知网优先数字出版.
网络出版地址:http:∥kns.cnki.net/kcms/detail/21.1189.T.20180502.1750.006.html
doi:10.7688/j.issn.1000-1646.2018.03.15
中图分类号: TP 391
文献标志码:A
文章编号:1000-1646(2018)03-0322-06
(责任编辑:钟 媛 英文审校:尹淑英)