- 2022-09-27 发布 |
- 37.5 KB |
- 4页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
基于多特征融合的运动人体行为识别
第29卷第8期计算机应用研究Vol.29No.82012年8月ApplicationResearchofComputersAug.2012*基于多特征融合的运动人体行为识别ab赵海勇,李成友(聊城大学a.计算机学院;b.网络信息中心,山东聊城252000)摘要:提出了一种基于特征级融合的运动人体行为识别方法。应用背景差分法和阴影消除技术获得运动人体区域和人体轮廓;采用R变换提取人体区域特征,采用小波描述子提取人体轮廓特征;然后将这两种具有一定互补性的特征采用K-L变换进行融合,得到一个分类能力更强的特征;最后,在传统支持向量机的基础上,结合模糊聚类技术和决策树构建多级二叉树分类器,从而实现行为多类分类。该方法在Weizmann行为数据库上进行了实验,实验结果表明所提出的识别方法具有较高的识别性能。关键词:行为识别;特征融合;小波描述子;支持向量机中图分类号:TP319文献标志码:A文章编号:1001-3695(2012)08-3169-04doi:10.3969/j.issn.1001-3695.2012.08.098Humanactionrecognitionbasedonmulti-featuresfusionabZHAOHai-yong,LICheng-you(a.SchoolofComputerScience&Technology,b.NetworkInformationCenter,LiaochengUniversity,LiaochengShandong252000,China)Abstract:Thispaperpresentedarecognitionalgorithmofhumanactionbasedonmulti-featuresfusion.First,throughthebackgroundsubtractionandshadowelimination,obtainedhumanmotionsilhouettesandcontours.ItdescribedhumansilhouettefeaturesbyRtransform.ThenfusedthesefeatureswithhumancontourfeatureswhichwereextractedusingwaveletdescriptorbyK-Ltransformtogetanewfeaturewhichhadhigherdiscriminatingpower.Atlast,throughintegratingfuzzyclusteringanddecisiontree,constructedamultilevelbinarytreeclassifier.ItevaluatedthemethodontheWeizmannactiondataset.Theexper-imentalresultsshowthattheapproachhasefficientrecognitionperformance.Keywords:humanactionrecognition;multi-featuresfusion;waveletdescriptor;supportvectormachine考虑可区分性,而且要考虑提取时的难易程度。两类基于形状0引言的特征———人体侧影和轮廓能够鲁棒地获得,因此经常被用于行为特征提取。基于人体侧影的方法应用范围广泛,但是由于近年来,人体行为识别已经成为计算机视觉中的热点研究[1]将整个人体形状所包含的像素考虑在内,计算复杂度较高。基领域。作为人体运动分析的高级阶段,它在智能视频监控、于人体轮廓的方法只考虑人体形状边界所包含的像素,因而计视频注解、人机交互和虚拟现实等领域具有广泛的应用价值。算复杂度较低,但是由于需要准确提取人体轮廓,这就限制了然而,人体行为复杂且多样,对分类的定义模糊,不同的观察者其应用范围。可能将同一段行为运动识别为不同的结果:一方面,相似的行人体行为识别的识别方法中广泛采用了基于图模型的推为在时间尺度上往往不同,并且同一种行为在不同的环境中通理方法,这种方法大体上可以分为基于产生式模型(generative[2]常具有不同的含义;另一方面,同一段行为可能同时被判别models,GM)的方法和基于判别式模型(discriminativemodels,为属于几个类别,因为行为是一些基本运动单元的自然组合。DM)的方法。隐马尔可夫模型(hiddenMarkovmodels,HMM)另外,数据采集的真实环境复杂多样,行为序列分割技术还不是常用的产生式模型,它是一种有效的时变信号处理方法,隐十分完善,以上种种因素使得人体行为识别成为一个非常具有含了对时间的校正,并提供了学习机制和识别能力。但产生式挑战性的研究领域。模型为了降低计算复杂度,往往假设观察序列是基于条件独立[3]行为识别是对人的行为模式进行分析与识别。通常,的,这种不确切的假设导致其不能表示时间序列中的上下文依[4]它可以分为两个层次的任务:a)底层的行为特征提取和表赖关系以及序列间的特征多重重叠。为了改进产生式模型给示;b)高层的行为识别和建模。从图像序列中提取出能够合时间序列建模所带来的问题,人们开始研究基于判别模型的方理表示人体运动的特征,对行为识别和理解至关重要。基于视法。文献[7]将条件随机场模型(CRF)用于行为识别,CRF无[5]觉的动作表示按特征的性质大致可以分为两类:a)二维底须对观测进行建模,因此避免了独立性假设,并且可以满足状层图像信息特征;b)三维模型特征。可利用的二维底层图像[8]态与观测之间在长时间尺度上的交互。支持向量机作为一信息包括:前景目标、前景目标的运动速度、运动轨迹信种判别式分类方法,在解决小样本、非线性及高维模式识别问[6]息、光流信息、前景目标的轮廓和侧影等。不同的行为特征题时具有特有的优势。从不同的角度反映人的运动状态特性,选择一种特征时不仅要本文提出了一种基于多特征融合的人体行为识别算法。收稿日期:2011-12-14;修回日期:2012-01-16基金项目:国家自然科学基金资助项目(61104179)作者简介:赵海勇(1981-),男,山东聊城人,博士,主要研究方向为计算机视觉、模式识别(zhaohaiyong@lcu.edu.cn);李成友(1968-),男,高级工程师,硕士,主要研究方向为人工智能、网络管理等.\n·3170·计算机应用研究第29卷考虑到单独采用基于人体侧影的特征或者单独采用基于人体的侧影。图1给出了其中一帧的人体侧影和轮廓提取结果。轮廓的特征表征人的行为状态都存在不足,因此本文将两种特征融合以更好地表征人的行为状态。特征级融合既能保留多特征的有效鉴别信息,又能在很大程度上消除特征的冗余。传统的特征融合方法将两组特征直接合并为新的特征向量,由于特征合并后的维数是两种原始特征的维数之和,这就导致了合并后新特征的维数急剧增加,从而使得组合后识别的速度大幅1.1基于运动区域的特征提取度地降低。本文采用离散K-L变换,对提取的多种特征进行信[11]本文使用R变换形状描述子提取行为区域特征,R息压缩,实现特征的有效融合,并采用支持向量机方法实现行变换是对Radon变换的一种改进,通过改进使其具有了几何不为识别。为了将支持向量机推广到多类分类,本文结合模糊聚变性(平移不变性、旋转不变性和尺度不变性)。Radon变换是类技术和决策树,构造多级二叉树分类器。首先利用模糊C-计算图像在某一特定角度射线方向上投影的变换方法,对一幅均值聚类技术求取每类行为样本模糊聚类中心,由聚类中心确离散二值图像f(x,y),Radon变换定义为定二叉树型,然后在二叉树各节点处根据聚类中心重新构造学T(ρ,θ)=∫∞∞f(x,y)δ(xcosθ+习样本集和SVM子分类器,从而构造多级二叉树分类器。Rf-∞∫-∞ysinθ-ρ)dxdy=R{f(x,y)}(3)1行为特征提取其中:θ∈[0,π];ρ∈[-∞,∞];δ(·)为dirac-delta函数,1如果x=0运动人体检测是行为识别的第一步,也是最重要的一步,δ(x)={0其他(4)因为识别结果很大程度取决于检测的质量,而遮挡、光照变化通过对式(3)计算分析可知,Radon变换不满足几何不变以及噪声等因素又严重影响检测和分割的质量。数据采集环性。为了解决上述问题,文献[11]提出了R变换,其定义为境为:a)摄像机静止不动;b)摄像机方向与人体运动方向近似R(θ)=∫∞T2f-∞Rf(ρ,θ)dρ(5)垂直;c)环境中只有一个人体运动。通过背景差分法、二值化R变换本身所具有的一些属性使其适合于行为特征的以及阴影消除得到运动人体区域。在人被检测出来以后,提取表示。每帧图像中人体姿态的二值侧影图像和人体轮廓。具体步骤属性1当图像f(x,y)平移向量μ=(x0,y0)时:∞2∞2如下:∫-∞TRf((ρ-x0cosθ-y0sinθ),θ)dρ=∫-∞TRf(ν,θ)dρ=Rf(θ)(6)a)在检测之前,要对图像进行去噪处理。视频序列在获由式(6)可以看出,平移图像并不会改变R变换的结果。取和传输时常常会受到各种各样的噪声干扰,如高斯白噪声、属性2改变图像f(x,y)的尺度,因子为α:脉冲噪声和乘性噪声等,这些噪声会给后续的处理带来很大的1∞21∞21∫-∞TRf(αρ,θ)dρ=∫-∞TRf(ν,θ)dθ=Rf(θ)(7)233不便。本文采用高斯滤波和邻域去噪相结合的方法,对图像进ααα行去噪处理。改变图像的尺度,会引起R变换结果振幅的改变,因此,b)建立一个无参数背景模型[9],模型中每一个像素点的需要对图像进行标准化。概率密度函数可由样本数据通过核密度估计方法计算得到。属性3当图像旋转角度π时:∞2-∞2假设I={x,x,…,x}表示一个像素点的N个样本,其中x∫-∞TRf(-ρ,θ±π)dρ=-∫∞TRf(ν,θ±π)dν=12Nt∞2表示t时刻的观测值。该像素点的概率密度函数可用核密度∫-∞TRf(ν,θ±π)dν=Rf(θ±π)(8)函数估计:由式(8)可以看出,R变换的周期为π,因此,一个180维N的向量就能充分表示人体侧影。图2中第2列给出了六种行p(xt)=∑αiKh(xt-xi)(1)i=1为姿态的R变换结果。由于环境的多样性以及不同人执行动其中:Kh是窗口长度为h的核函数;αi是标准化系数,通作所造成的差异性,R变换结果可能不会完全相同,但是曲线常αi=1/N。的形状大致相同(如图2第3列)。为了使R变换更具有代表在文献[9]中,核函数Kh满足正态分布N(0,Σ),其中Σ性,对多次R变换结果取平均值,图2给出了六种行为姿态的2表示核带宽。假设三种颜色分量的核带宽相互独立,σj表示R变换结果。222第j个颜色分量的带宽,那么Σ=diag(σ1,σ2,σ3),diag(·)为对角矩阵。像素点xt的概率密度函数可以写为Nd(xtj-xij)2(a)步行(b)奔跑11p(xt)=∑∏e2σ2j(2)Ni=1j=12πσ2槡j其中:d表示颜色分量的个数。核带宽σ可以通过样本中位数(c)弯腰走(d)跳行绝对离差得到。如果p(xt)<th,则该像素点被看做运动目标像素点,th为全局阈值。c)运动目标检测的目的是从背景图像中分割提取变化区(e)下蹲(f)晕倒图2六种行为姿态的域,因此在检测运动目标的同时,运动目标投射的阴影也会被检测为运动前景的一部分。本文采用文献[10]提出的方法对1.2基于人体轮廓的特征提取前景与阴影进行分割,该方法适用于室内、户外等多种环境。人体轮廓形状是人行为的重要特征之一,它随时间呈周期d)对提取的运动区域进行形态学处理及连通性分析,最性变化,在人体运动状态描述方面,具有一定的代表性。小波描后采用基于连通性的边界跟踪算法获取整个图像序列中行人述子可以很好地对二维形状轮廓进行描述,最大的优点是对形\n第8期赵海勇,等:基于多特征融合的运动人体行为识别·3171·状的旋转、尺度和平移具有很高的鲁棒性,本文采用离散小波变据作为最后的融合特征。换对人体轮廓进行描述。为了更加显著地表示人体特征、降低[12]2行为识别计算复杂度,将人体二维轮廓特征展开转换为l维距离特征。1)质心计算提取人体轮廓后,可以使用边界提取算法[14]支持向量机(SVM)是解决小样本模式识别问题的有效(如Canny算法)提取轮廓线上的坐标点,利用式(9)计算轮廓方法,其基本原理是通过用核函数将输入样本空间非线性变换的质心坐标:到一个高维空间,然后在这个高维空间求广义最优分类超平1N1Nxc=N∑xi,yc=N∑yi(9)面。SVM是针对两类问题提出来的,为实现对多个类别的识i=1i=1其中,(xc,yc)是质心坐标;N是轮廓线上像素点个数;(xi,yi)别,需要对SVM进行相应的改进。目前,已经提出多种方法将SVM推广到多类分类问题,如用多个两类分类器来实现多类是轮廓线上点的坐标。2)轮廓线展开选定轮廓线上纵坐标最大的点为起点分类,或者用层次型两类分类器实现多类分类等。本文结合模(左下方为图像坐标原点),沿顺时针方向,利用式(10)将轮廓糊聚类技术和决策树构造多级二叉树分类器。决策树从一组线展开为质心到轮廓点欧式距离的一维特征:无次序、无规则的事例中推理出决策树表示形式的分类规则,22用树形结构表示决策集合,是一种高效的分类器,容易产生关di=槡(xi-xc)+(yi-yc)(10)联规则。每个内部节点表示在一个属性上的测试,每个分枝代3)数据标准化为了消除图像尺度和特征长度不同造成表一个测试输出,而每个树叶节点代表类或类分布。的影响,在最大限度地保持特征完整性的前提下,需要将特征为确定二叉树结构,首先利用模糊聚类技术求取每类样本的幅度和长度值标准化,以达到利于分析数据规律和特征的目的聚类中心C={C1,…,CK}作为根节点;再把它们聚类成两的。由式(10)可将轮廓表示为一个由N个元素组成的向量D=[d,d,…,d],统计视频序列中人体轮廓线的像素点个类,将各聚类中心对应的样本数据分别标记为正类Plevel1(即左12N数,95%以上的视频序列满足N∈[400,600],且呈正态分布。子树)和负类Nlevel1(右子树),构造第一级SVM子分类器;然通过边界像素的内插处理将N标准化:N=500。设d'为标准后,将Plevel1对应的聚类中心又聚类成两类,并将各聚类中心对化的距离范围,取d'=100。轮廓特征降维并标准化的结果如应的样本数据也分别标记为正类Plevel2(即左子树)和负类图3所示。Nlevel2(右子树),构造第二级SVM子分类器,对负类Nlevel1做同样操作;用同样的方法构造第三级子分类器,依次下去,直到每离散小波函数族定义如下:jj个子类只包含一个聚类中心点。这样多级二叉树构造成功,K--φj,n(t)=22φ(22t-n)j,n∈Z(11)类行为需要构造K-1个SVM子分类器。2如果上述小波函数族构成L(R)的正交规范基,那么对于2任意f(t)∈L(R)都有离散小波变换:3实验与分析+∞*Cj,n=[f(t),φj,n(t)]=∫-∞f(t)φj,n(t)dt(12)*采用Weizmann数据库对算法效果进行验证。该数据库共其中:φj,n(t)为φj,n(t)的共轭;Cj,n称为f(t)的离散小波系数。计包含90个低分辨率的视频序列(180×144像素,50fps所有选择Coiflet小波基并用h表示,根据式(13)对D进行两动作分别由9名实验人员完成,每人完成10个自然动作,动作层小波变换,得到轮廓的小波描述子W:W=〈〈D,h〉,h〉(13)包括run、walk、skip、jumping-jack、jump-forward-on-two-legs(orjump)、jump-in-place-on-two-legs、gallopsideways、wave-two-选择16个低频段小波描述子系数作为人体轮廓特征。hands、waveone-hand、bend等。由于受阴影、颜色相似性等因1.3基于K-L变换的特征融合素的影响,实际提取的人体剪影存在孔洞、毛刺等噪声。本文在轮廓特征和区域特征融合之前,需要对两种特征进行归[13]对其中的run、walk、skip、bend、jump及sideways进行实验。将一化的处理。采用Z-score归一化方法:假设Xs表示区域9人完成的动作序列分成3组,每组序列由3人完成,其中一特征,Xc表示轮廓特征,经过Z-score归一化后的特征向量为组序列用于训练构造支持向量机多级二叉树分类器,其余两组X's=(Xx-μs)/σs{(14)用于测试。X'c=(Xc-μc)/σc其中:μs和μc分别表示区域特征向量均值和轮廓特征向量均3.1基于K-L变换的特征融合值;σs和σc分别表示区域特征向量和轮廓特征向量标准差。利用侧影和轮廓提取方法,提取行为序列的所有人体侧影采用离散K-L变换对归一化后的特征数据进行压缩融和轮廓,图4给出了示例图像及其相应的人体侧影和轮廓。对合。设Y为N维随机向量,则Y的K-L展开可表示为每种行为序列,分别提取每帧图像的区域特征和轮廓特征。Y'=TY(15)其中,T为正交变换矩阵,其元素由Y的协方差矩阵的特征向量组成,即T=(φ1,φ2,…,φN)。Y的协方差矩阵记作:T∑=E{(Y-Y)(Y-Y)}(16)y其中,Y=E(y)=(Y珔1,Y珔2,…,Y珔N)代表均值向量,存在∑φi=λiφi(17)y其中:λ1>λ2>…>λN≥0是∑y的特征值;φi为对应的特征3.2支持向量机多类分类器构建向量。对提取的特征向量进行K-L变换后,得到新的特征数据,为了识别六种行为,采用模糊C-均值聚类技术得到5个其中每个特征点是原来N个特征的线性组合,选择前K维数聚类中心{C1,C2,C3,C4,C5},构建支持向量机多级二叉树分\n·3172·计算机应用研究第29卷类器如图5所示,每个聚类中心对应一种行为。树分类器,从而实现行为多类分类。实验结果表明,本文提出的识别方法具有较高的识别性能。未来的工作方向为选择更为优越的融合策略。参考文献:[1]RONALDP.Asurveyonvision-basedhumanactionrecognition[J].采用径向基核函数作为支持向量机的核函数。径向基核ImageandVisionComputing,2010,28(6):976-990.[2]黄天羽,石崇德,李凤霞,等.一种基于判别随机场模型的联机行函数定义如下:2为识别方法[J].计算机学报,2009,32(2):275-281.xi-xjK(xi,xj)=exp{-2}(18)[3]黎洪松,李达.人体运动分析研究的若干新进展[J].模式识别与σ人工智能,2009,22(1):70-78.为了验证特征融合后对识别率的提升,表1给出了三种特[4]韩磊,李君峰,贾云得.基于时空单词的两人交互行为识别方法征下等错误率(REE)。惩罚参数为C=10,ε=0.001,核函数[J].计算机学报,2010,33(4):1-11.参数σ=0.2。通过比较可知,本文的融合方法比单一特征方[5]徐光祐,曹媛媛.动作识别与行为理解综述[J].中国图象图形学法在识别性能上有了提高,等错误率降低到0.32%。报,2009,14(2):189-195.表1等错误率比较[6]BASHIRFI,KHOKHARAA,SCHONFELDD.Objecttrajectory区域特征轮廓特征融合特征basedactivityclassificationandrecognitionusinghiddenMarkovmod-REE/%2.41.40.32els[J].IEEETransonImageProcessing,2007,16(7):1912-图6给出了六种行为的识别结果,总体来说本方法对于简1919.单的日常行为具有较高的识别率,表中对弯腰的识别率最高,[7]SMINCHISESCUC,KANSUJIAA,METAXASD.Conditionalmodels而对走、跑和单腿跳识别率较低。这主要是因为本文所用识别forcontextualhumanmotionrecognition[J].ComputerVisionandImageUnderstanding,2006,104(2-3):210-220.方法是以动作序列的人体形状特征为基础的,如果两种行为中[8]QIANHui-min,MAOYao-bin,XIANGWen-bo,etal.Recognitionof人体姿势形状相似,就容易引起错误识别。humanactivitiesusingSVMmulti-classclassifier[J].PatternRecognitionLetters,2010,31(2):100-111.[9]ELGAMMALA,HARWOODD,DAVISL.Non-parametricmodelforbackgroundsubtraction[C]//ProcofECCV.2000:751-767.[10]褚一平,陈勤,黄叶珏,等.基于判别模型的视频前景/阴影自动分割算法[J].模式识别与人工智能,2008,21(6):849-855.[11]TABBONES,WENDLINGL,SALMONJP.AnewshapedescriptordefinedontheRadontransform[J].ComputerVisionandImage4结束语Understanding,2006,102(1):42-51.[12]张浩,刘志镜.加权DTW距离的自动步态识别[J].中国图象图本文提出了一种基于特征融合的人体行为识别方法。首形学报,2009,15(5):830-836.先利用背景差分法和阴影消除技术分别提取轮廓特征和人体[13]敦文杰,穆志纯.基于特征融合的人脸人耳多生物身份鉴别[J].区域特征,将这两种具有一定互补性的特征采用K-L变换进天津大学学报,2009,42(7):636-641.行融合,从而得到一个分类能力更强的特征。最后,在传统支[14]姚勇,赵辉,刘志镜.一种非线性支持向量机决策树多值分类器持向量机的基础上,结合模糊聚类技术和决策树构建多级二叉[J].西安电子科技大学学报,2007,34(6):873-876.(上接第3150页)参考文献:表1几种调焦评价函数计算时间比较/ms[1]曹茂永,孙农亮,郁道银.基于灰度梯度的数字图像评价函数[J].算法最短时间最长时间平均时间光电工程,2003,30(4):69-72.新算法131815.4[2]朱孔凤,姜威,王瑞芳,等.一种新的图像清晰度评价函数[J].红方差函数435047.1外与激光工程,2005,34(4):464-468.SMD函数204429.8[3]HUANGYan,YEDong,CHERen-sheng.Novelauto-focusingmet-熵函数314638.54邻域拉普拉斯函数415647.3hod[C]//ProcofSPIE.2010.由表1可知,与其他三种算法相比较,新算法和SMD函数[4]SUBBARAOM,TYANJK.Selectiontheoptimalfocusmeasureforauto-focusinganddepthfromfocus[J].IEEETransonPattern计算时间较快,实时性最好;新算法较SMD算法有更高的灵敏AnalysisandMachineIntelligence,1998,20(8):864-870.度;综合考虑选择性能最好的新算法和SMD算法作为本文系[5]陈国金,朱妙芬,张克松.图像调焦过程的清晰度评价函数研究统的自动调焦评价算法。[J].数据采集与处理,2009,24(2):165-169.[6]俞璐.灰度图像分割技术研究[D].南京:东南大学,2007.3结束语[7]章毓晋.图像分割[M].北京:科学出版社,2001.[8]石荣刚,李志远,江涛.图像分割的常用方法及其应用[J].现代电聚焦准确的图像有尖锐、清晰的边缘,本文利用这一特征子技术,2007,30(12):111-114.提出了一种基于灰度分割的调焦算法。新算法具有灵敏度可[9]董梁,王忠民.图像边缘检测算法研究[J].现代电子技术,2007,调的特性,并对算法的运算步骤进行合并和简化,使得算法有30(15):179-180.很好的实时性。综上,该图像清晰度算法适合作为自动调焦系[10]曹建农.基于玻耳兹曼熵分析的图像分割方法研究[J].计算机统中的调焦评价函数。应用研究,2011,28(10):3920-3924.查看更多