基于融合不变性特征与混合核方法的体育视频动作识别

刘俊来

(济宁学院 体育系, 山东 济宁 273100)

摘 要: 针对体育视频动作识别方法正确率较低的问题,提出了一种结合融合不变性特征与混合核方法的体育视频动作识别方法.采用高斯混合模型构建不变性特征,并对特征进行降维.采用混合核方法分别完成局部特征与全局特征的分类.标准体育动作数据集上的实验结果表明,降维后的融合不变性特征能够保留体育动作关键信息,与混合核方法配合密切,该方法既能够显著提升识别性能,也能够提升识别效率.该方法可以构建实时、在线的体育视频动作识别,且识别效果良好.

关 键 词: 高斯混合模型; 投影降维; 核方法; 体育视频; 动作识别; 全局特征; 局部特征; 支持向量机

体育视频的动作识别属于多类别模式识别问题,主要面临两个方面的挑战[1-4]:一个是从各类体育视频中较为相似的体育动作中提取出有效的特征;另一个是构建机器学习模型完成对动作特征的分类.一般情况下,体育视频中提取到的动作特征有侧影以及轮廓两种主流形式[5],其中,侧影类动作特征维度高,并且具有大量的噪声,影响机器学习分类算法的应用.而轮廓类特征采用傅里叶变换获取,虽然能够清晰描绘具体的体育动作,但是使用受限、变化范围较大且维度较高,此类特征的分类效果不佳.

现阶段在体育动作识别研究中,基于机器学习的方法已成为主流算法.其中,粒子群优化神经网络[6]采用背景差法获取动作轮廓,并给出体育动作的分割结果.但是在对体育视频动作分析时,由于BP神经网络的权重太多,计算复杂度高,因此很难适应视频分析.高亮[7]采用高斯混合模型与支持向量机完成体育动作识别,然而,该方法使用的高斯混合模型的特征维度太高,不利于支持向量机的分类,因此体育动作识别的效果较差.

鉴于上述问题,本文提出了一种结合融合不变性特征与混合核方法的体育视频动作识别算法.该方法虽然采用高斯混合模型建模,但是针对建模后的高维特征,通过特征降维获取融合不变性特征;随后,针对融合不变性特征,采用一种混合核方法对该特征分类,识别体育视频动作;最后,在标准体育视频动作数据集上进行对比实验,分别从识别率和识别时间上验证本文算法的可行性与有效性.

1 视频动作识别算法

1.1 融合不变性特征

在对视频动作识别过程中,需通过体育动作的运动轨迹描述出相应的体育动作类型,然后通过光流法完成对运动轨迹的跟踪,从而完成视频动作的特征提取[8].由于提取到的体育运动动作特征在不同的视频中位置各不相同,因此需要针对视频序列构建全局高斯混合模型,分别描述体育运动过程中的时间、空间和运动边界信息.

在构建全局统计特征信息中,高斯混合模型应用广泛[9],假设X={x1x2,…,xT}表示视频的有效运动动作序列,且服从独立分布,设符合参数集合λ={wiuiMi},i=1,2,…,k,则k个高斯核函数组成的高斯混合模型可表示为

(1)

式中,wiuiMi分别为高斯混合模型的混合权重、均值以及各个高斯核函数之间的协方差矩阵.i个高斯核函数pi(xi)可被定义为

(2)

式中,d为特征维度.

根据贝叶斯公式可以完成各个高斯核函数在混合模型中的权重分配.在提取融合不变性特征时,假设视频序列X与其相应的参数集合λ之间的对数似然关系为

(3)

随后,求解视频帧xt对于高斯混合函数F=的梯度,即

(4)

式中:为协方差矩阵对应的标准方差;rt(i)为将xt分配至第i个高斯核函数的权重.

通过对多个视频帧组成的运动视频序列及对应的高斯混合函数的梯度计算,可以从视频每个动作中提取多维不变性特征.分别为30维的动作位置信息、480维的动作方向梯度信息、540维的动作光流信息以及960维的运动边界信息,并组成了一个大小为2 010维的体育运动动作不变性特征.

在随机投影特征降维中,针对每个测量矩阵,只需要计算出每列的非零个数,即可达到降维减小时间复杂度的目的,从而提取出稳定的融合不变性特征[10-11].

1.2 混合核方法

核方法也被称为支持向量机(SVM)法,是一种常用的分类与识别方法[12].在核方法中,通过求解线性分类面,将融合不变性特征极大分离开来,从而完成对体育视频运动动作的识别.假设通过高斯混合模型以及随机投影变换方法获得的融合不变性特征以及相应的体育运动动作标签为{αiβii=1,2,3,…,n},则在特征集合与标签下,核方法旨在寻找一个最优的线性分类面ωα+b=0,使得该分类面能够将不同动作标签对应的融合不变性特征分离开来,从而完成对体育运动动作的识别.

在二维空间中要求支持向量到分类面权重的距离最大,则可转化为求解下述带限制条件的二次优化问题,即

s.t.βi(ωαi+b)≥1,i=1,2,…,n

(5)

在实际的体育动作识别中,不同类别的动作通常有一些相似之处,若将相似之处都以严格的支持向量作为区分,那么将会极大地影响识别准确率.因此,在支持向量基础之上,本文还引入了松弛变量,允许某些相似的融合不变性特征可以被错分到相邻类别中,这样虽然引入了少量错误,但是可以让最优分类面变得更宽,能够容纳更多样本分类[13].此外,针对多个类别的最优分类面通常不是线性可分的问题,本文还在支持向量基础上,引入核函数将原始线性不可分的特征空间投影到高维线性可分的空间中,在新的空间中求解最优分类面,然后再将最优分类面变换至原始特征空间中.

在传统核方法基础上,分别引入了松弛变量ξi以及核函数φx,将传统核方法的优化问题转化为

s.t.βi(ωφ(αi)+b)≥1-ξi

ξi≥0,i=1,2,…,n

(6)

式中,C为惩罚系数,其大小由实际数据决定.通过求解转化后的优化问题,可以得出视频动作识别的最优分类面,即

(7)

式中,K(αiαj)为核函数.通过核函数将原本线性不可分的融合不变性特征转换至线性可分的高维空间中,将能极大地解决相似动作的分类问题,提升动作识别的性能和鲁棒性.

实际使用中,核函数均采用试错的方法进行选择,效率低且没有任何理论依据.然而在常用的核函数中,线性函数偏向于局部支持向量分析,径向基函数则偏向于全局支持向量分析.在视频动作识别的融合不变性特征提取中,本文提出的方法既提取了全局的光流信息和动作边界信息,也提取了局部动作位置信息和动作方向梯度信息.因此,在本文的核方法分类与识别过程中,构建了一种混合核函数,该核函数包括局部线性核函数和全局径向基函数,从而使得混合核方法能够处理融合不变性特征[14].在混合核方法中,采用权重θγ来融合线性核函数与径向基函数,构建混合核函数为

Kmix=θKLINE+γKRBF

(8)

式中:KLINE为处理局部特征的线性核函数;KRBF为处理全局特征的径向基函数.在混合核方法中,采用遗传算法求解最优的权重θ*γ*,在实际实验中,根据局部特征和全局特征的比例完成最终的视频动作识别结果.

1.3 体育动作识别流程

结合融合不变性特征与混合核方法的视频动作识别算法主要流程如图1所示.通过高斯混合模型从视频序列中提取出运动动作特征,并将多维特征融合为高维的不变性特征,然后采用随机投影算法降维,选择出最有利于动作识别的融合不变性特征,并计算局部特征与全局特征的比例,最后,通过计算获得的特征比例,结合遗传算法求解出最优的混合核方法权重,采用混合核方法完成对融合不变性特征的分类与识别,实现视频动作识别.

图1 体育视频动作识别流程

Fig.1 Flow chart of sport video motion recognition

2 仿真实验与结果分析

2.1 仿真实验

为了验证所提算法的可行性与有效性,通过仿真对比实验完成算法对视频动作识别性能分析.在仿真实验中,选择了10位运动员,并让每位运动员演示各种简单的体育动作,一共获取了600个体育动作视频.每个动作视频中随机包含有1组固定的5个动作,由行走、跑步、弯腰、下蹲及坐下组成,被试者的视频动作序列如图2所示.

图2 实验中运动员演示的基本动作序列

Fig.2 Basic motion sequences demonstrated by players in experiment

在实验中,将其中400个动作视频划分为训练集,剩下的200个动作视频作为测试集.为了完成动作识别算法的横向对比,本文选择了主流体育视频动作识别算法粒子群优化BP神经网络(PSO-BPNN)[7]与高斯混合模型与支持向量机(GMM-SVM)[14]进行对比分析.PSO-BPNN算法为体育动作识别构建3层BP神经网络,在优化神经网络参数时,PSO算法的种群设置为40个,每个粒子维度为20,迭代1 000次;GMM-SVM算法为动作视频帧构建了5个高斯模型的混合建模,然后在SVM分类器中选择了径向基函数,惩罚参数和核函数参数分别为c=0.01,g=0.2.本文算法首先提取视频动作序列中的高维不变性特征,并通过降维算法降低不变性特征维度;随后,将降维后的不变性特征输入至混合核方法中进行训练、测试,在核函数分类器中惩罚参数依然设置为c=0.01.在混合核方法的权重选择上,经过遗传算法的优化,用于实验对比时的式(8)对应权重θγ的最优值分别为θ*=0.392,γ*=0.608.在3种对比算法中,都采用相同的数据训练模型以及相同的数据测试模型,测试模型采用5×5交叉验证法.实验采用统一环境,即8核2.75 Hz Intel CPU,搭配一块1080Ti GPU,实验算法均基于Python平台完成.实验分析指标采用视频动作识别率作为性能指标,某项动作平均识别时间作为效率指标.

2.2 实验结果分析

图3给出了体育视频动作平均识别率的对比结果.

图3 体育视频动作平均识别率对比

Fig.3 Comparison of average recognition rate of sport video motion

从图3中的结果可以看出:

1) 本文提出的融合不变性特征在表达上更为优秀,并且混合核方法的识别率高于传统的BPNN与SVM等机器学习方法,有效降低了误识率.混合核方法分别采用线性核函数以及径向基函数,获取了体育识别所需的局部动作区别和全局动作轮廓.

2) 与传统高斯混合模型相比,融合不变性特征融入了更多维度的特征,表达出了区分动作的关键特征.实际上,在体育动作识别的原始特征中,存在较多的重复特征和无用特征,这些特征将会对分类器产生负面影响.因此,本文在采用高斯混合模型构建融合不变性特征后,通过投影降维的方式,从融合不变性特征中提取区分不同动作的关键特征.通过这些特性完成分类,极大地提升了视频动作识别结果.

此外,表1给出了3种对比算法在走、跑、蹲、坐及弯腰等5种常见的体育动作中的平均识别时间.从表1的统计结果中可以看出,本文提出的融合不变性特征与混合核方法识别时间最短.虽然融合不变性特征计算了大量的高斯混合模型及其梯度特征,但是经过投影变换降维后,融合不变性特征维度极大降低了,因此在通过混合核方法分类时,时间复杂度较低.混合核方法的分类效率明显高于传统SVM与BPNN方法,可以完成实时在线的视频动作识别工作,满足实际的应用需求.

表1 三种识别算法平均识别时间对比

Tab.1 Comparison of average recognition time among three recognition algorithms ms

体育动作类型本文算法PSO-BPNNGMM-SVM走298334368跑266298313蹲253273288坐278294306弯腰326369423

3 结 论

为了完成对体育视频动作识别,构建统一的体育运动标准,提升体育运动效率,本文提出了一种结合融合不变性特征与混合核方法的体育视频动作识别方法.该方法依靠高斯混合模型构建混合不变特征,并通过投影降维方法降低维度.降维后的融合不变性特征与混合核方法的配合效果更佳,在标准体育视频动作数据集上的对比实验结果表明,本文提出算法分别在动作识别的性能与效率上获得了显著提升.今后的主要工作是为更复杂的体育动作构建稳定的特征,并通过分类性能更好地完成模型动作识别,以构建真实场景可用的实时体育视频动作识别方法.

参考文献(References):

[1]杨静.体育视频中羽毛球运动员的动作识别 [J].自动化技术与应用,2018,37(10):120-124.

(YANG Jing.Action recognition of badminton players in sport video [J].Automation Technology and App-lication,2018,37(10):120-124.)

[2]王国涛,郭天昊.油气管道特殊缺陷的漏磁信号识别方法 [J].沈阳工业大学学报,2019,41(4):401-405.

(WANG Guo-tao,GUO Tian-hao.Magnetic leakage signal identification method for special defects of oil and gas pipelines [J].Journal of Shenyang University of Technology,2019,41(4):401-405.)

[3]柳似霖,王颖,吴峰.基于局部特征词袋模型人体动作识别关键帧选取方法 [J].应用光学,2019(2):265-270.

(LIU Si-lin,WANG Ying,WU Feng.Key frame selection method of human motion recognition based on local feature word bag model [J].Journal of Applied Optics,2019(2):265-270.)

[4]尹坤阳,潘伟,谢立东,等.一种基于深度学习的人体交互行为分层识别方法 [J].厦门大学学报(自然科学版),2016,55(3):413-419.

(YIN Kun-yang,PAN Wei,XIE Li-dong,et al.A layered recognition method for human interaction behavior based on deep learning [J].Journal of Xiamen University (Natural Science Edition),2016,55(3):413-419.)

[5]张瑞,李其申,储珺.基于3D卷积神经网络的人体动作识别算法 [J].计算机工程,2019,45(1):259-263.

(ZHANG Rui,LI Qi-shen,CHU jun.Human motion recognition algorithm based on 3D convolutional neural network [J].Journal of Computer Engineering,2019,45(1):259-263.)

[6]张梅,魏欣,张贵红.粒子群优化神经网络的体育动作识别 [J].现代电子技术,2016,39(19):49-52.

(ZHANG Mei,WEI Xin,ZHANG Gui-hong.Particle swarm optimization neural network sports action recognition [J].Modern Electronic Technology,2016,39(19):49-52.)

[7]高亮.基于计算机视觉的运动员错误动作识别模型构建及仿真 [J].微型电脑应用,2018,34(6):59-62.

(GAO Liang.The model construction and simulation of athlete error recognition based on computer vision [J].Microcomputer Application,2018,34(6):59-62.)

[8]王珂,武军,周天相,等.一种融合全局时空特征的CNNs动作识别方法 [J].华中科技大学学报(自然科学版),2018,46(12):36-41

(WANG Ke,WU Jun,ZHOU Tian-xiang,et al.An action recognition method based on global spatial-temporal feature convolutional neural networks [J].Journal of Huazhong University of Science and Technology (Natural Science Edition),2018,46(12):36-41.)

[9]李玉鹏,刘婷婷,张良.基于深度学习的人体动作识别方法 [J].计算机应用研究,2020,37(1):304-307.

(LI Yu-peng,LIU Ting-ting,ZHANG Liang.Human motion recognition method based on deep learning [J].Computer Application Research,2020,37(1):304-307.)

[10]杨世强,罗晓宇,李小莉,等.基于DBN-HMM的人体动作识别 [J].计算机工程与应用,2019,12(2):1-8.

(YANG Shi-qiang,LUO Xiao-yu,LI Xiao-li,et al.Human motion recognition based on DBN-HMM [J].Computer Engineering and Applications,2019,12(2):1-8.)

[11]曾珍珍,蔡盛腾,吕明琪.基于3D运动轨迹解析与隐马尔可夫模型的动作识别算法 [J].光学技术,2018,44(6):747-756.

(ZENG Zhen-zhen,CAI Sheng-teng,LÜ Ming-qi.Motion recognition algorithm based on 3D trajectory analysis and hidden Markov model [J].Optical Technique,2018,44(6):747-756.)

[12]陈思吉,王欣,申滨.一种基于支持向量机的认知无线电频谱感知方案 [J].重庆邮电大学学报(自然科学版),2019,31(3):313-322.

(CHEN Si-ji,WANG Xin,SHEN Bin.A support vector machine based spectrum sensing for cognitive radios [J].Journal of Chongqing University of Posts and Telecommunications(Natural Science Edition),2019,31(3):313-322.)

[13]蒋留兵,李骢,车俐.利用二维小波包分解实现超宽带雷达人体动作识别 [J].电子测量与仪器学报,2018,32(8):69-75.

(JIANG Liu-bing,LI Cong,CHE Li.Human motion recognition using ultra-wide band radar based on two-dimensional wavelet packet decomposition [J].Journal of Electronic Measurement and Instrumentation,2018,32(8):69-75.)

[14]区峻,石千惠.特征降维和高斯混合模型的体育运动动作识别 [J].现代电子技术,2017,40(11):61-64.

(OU Jun,SHI Qian-hui.Sports movement recognition based on feature reduction and Gaussian mixture model [J].Modern Electronic Technology,2017,40(11):61-64.)

Sport video motion recognition based on fusing invariant features and hybrid kernel methods

LIU Jun-lai

(Department of Physical Education, Jining University, Jining 273100, China)

Abstract Aiming at the low accuracy of sport video motion recognition methods, a sport video motion recognition method fusing invariant feature and hybrid kernel was proposed. A mixed Gaussian model was used to construct the invariant features and reduce the feature dimension. The hybrid kernel method was used to classify both local and global features. The experimental results of the standard sport motion data set show that the fusion of invariant feature after dimension reduction can keep the key information of sport motions, which is closely matched with the hybrid kernel method. The as-proposed method can not only improve the recognition performance significantly, but also enhance the recognition efficiency. The as-proposed method can accomplish the real-time and online sport video motion recognition with excellent recognition results.

Key words mixed Gaussian model; projection dimension reduction; kernel method; sport video; motion recognition; global feature; local feature; support vector machine

中图分类号: TM 343

文献标志码: A

文章编号: 1000-1646(2022)02-0198-05

收稿日期 2019-07-11.

基金项目 山东省科技厅自然科学基金项目(ZR201809370231).

作者简介 刘俊来(1973-),男,山东济宁人,讲师,硕士,主要从事管理与系统工程等方面的研究.

doi:10.7688/j.issn.1000-1646.2022.02.13

(责任编辑:景 勇 英文审校:尹淑英)