本科毕业设计论文_视频压缩中基于快匹配算法的运动补偿预测

申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

文档介绍

本科毕业设计论文_视频压缩中基于快匹配算法的运动补偿预测

本科毕业设计论文_视频压缩中基于快匹配算法的运动补偿预测西南交通大学本科毕业设计(论文)视频压缩中基于快匹配算法的运动补偿预测BLOCKMATCHINGALGORITHMBASEDONTHEFORECASTINGMOTIONCOMPENSATIONVIDEOCOMPRESSION2011年06月\n承诺本人郑重所呈交的论文是本人在导师的指导下独立进行研究所取得的成果除文中特别加以标注引用的内容外本文不包含任何其他个人或集体已经发表或撰写的成果对本研究做出贡献的个人和集体均已在文中以明确方式标明签名年月\n日毕业设计(论文)任务书班级07计通本一班学生姓名李波学号20078191发题日期:2011年2月28日完成日期:2011年6月24日题目视频压缩中基于块匹配算法的运动补偿预测1、本论文的目的、意义运动的基本思想是将图像序列的每一帧分成许多互不重叠的宏块,并认为宏块内所有象素的位移量都相同,然后对每个宏块到参考帧某一给定特定搜索范围内根据一定的匹配准则找出与当前块最相似的块,即匹配块,匹配块与当前块的相对位移即为运动矢量。视频压缩的时候,只需保存运动矢量和残差数据就可以完全恢复出当前块.8万字;(6)应完成不少于一万英文字符的翻译及将毕业设计论文的中文摘要翻译成英文。3、论文各部分内容及时间分配:(共17周)第一部分熟悉设计题目功能要求3周第二部分掌握MATLAB仿真工具3周第三部分对运动补偿的三步搜索方法进行仿真5周第四部分完成外文摘要翻译外文资料2周第五部分毕业设计文本打印装订善后2周评阅及答辩1周论文整理1周\n备注答辩前应向指导老师交毕业设计(论文)说明书(书面文档应不少于1万8千个汉字)和电子文档(含毕业设计(论文)说明书及应用软件)。指导教师:年月日审批人:年月日\n摘要多媒体技术在人们的生活中应用得越来越广泛,随着互联网的快速发展,多媒体通信更是成为人们必不可少的需求。多媒体技术的飞速发展,使得许多应用领域对视频图像的实时压缩提出了更高的要求,快速、高效的压缩算法是解决这一问题的关键。影响视频压缩编码质量和效率的因素很多,运动估计是其中最有影响力的因素之一。运动估计得越准确,视频压缩编码的效率就越高,解码出来的视频图像质量越好;而且,运动估计在整个视频压缩编码系统中的计算复杂度最大。因此,快速、高效的运动估计算法是视频压缩编码技术的研究重点。采用运动估计和运动补偿技术可以消除视频信号的时间冗余,从而提高编码效率。研究设计高效、快速、鲁棒的运动估计算法成为目前视频压缩技术中研究的重要课题。在各种运动估计方法中,块匹配法由于其原理简单、便于实现等优点得到了普遍应用,被许多视频编码标准(如MPEG以及TH.26X)所采用,在理论研究和实践应用中,得到了不断的发展和完善,成为数字视频技术的一个研究热点。其相关快速算法也得到了广泛的研究和发展。本论文中,主要的任务是分析和研究几种经典的运动估计算法,并对它们进行相关比较。本文首先介绍了课题的研究背景与意义以及视频压缩技术,然后阐述了基于块匹配的运动估计的基本原理,最后详细介绍了全搜索法和几种典型的块匹配运动估计快速算法,分析了它们各自的技术特点,通过实验数据定量地评价了各算法的优缺点。文章最后对本文工作进行了总结,并对未来的研究方向进行了展望。关键词:运动估计;块匹配;三步搜索法\nAbstractWiththerapiddevelopmentoftheInternet,multimediatechnologyisusedmoreandmorewidelyinourdailylife,andmultimediacommunicationhasbecomeanecessity.Withtherapiddevelopmentofmultimediatechnology,whichputsforwardhigherrequesttoreal-timecompressionofvideoimageinapplicationfields,rapidandhighefficientcompressionalgorithmisthekeytosolvethisproblem.Therearemanyfactorswhichaffectthequalityandefficiencyofvideocompressioncoding,andmotionestimationisoneofthemostinfluentialfactors.Themorepreciseofmotionestimationandthehigherefficiencyofvideocompressioncoding,thebetterqualityofthedecodingvideoimage;Furthermore,inthewholevideocompressioncodingsystem,calculativecomplexityofmotionestimationisthelargest.Therefore,rapidandhighefficientmotionestimationalgorithmisthepointofresearchofvideocompressioncodingtechnology.Themotionestimationandmotioncompensationtechnologycaneliminatetimeredundancyofthevideosignal,soastoimprovethecodingefficiency.Studyinganddesigningtheefficient,fastandrobustmotionestimationalgorithmhasbeentheimportantissueofstudyforthepresentvideocompressiontechniques.Inallkindsofmotionestimationmethods,motionestimationisusedwidelybecauseofitsadvantagessuchassimpleprinciple,easytorealize,andisadoptedbymanyvideocodingstandard,\nsuchastheMPEGandTH.26X.Andinthetheoreticalresearchandpracticalapplication,ithasbecomeahotresearchtopicinthefieldofdigitalvideotechnologygettingcontinuousdevelopmentandimprovement.Thefastrelevantalgorithmalsogetsextensiveresearchanddevelopment.Inthispaper,themaintaskistoanalyzeandstudyseveralclassicalmotionestimationalgorithmsandmakeacomparisonamongthem.Thispaperintroducestheresearchbackgroundandsignificanceofthetopicandvideocompressiontechnologyatfirst,thenexpoundstheprincipleofthemotionestimationbasedonblockmatching.Finally,introducesthefullsearchmethodandseveraltypicalkindsoffastalgorithmofblockmatchingmotionestimation,analysestheirtechnicalcharacteristics,andevaluatestheiradvantagesanddisadvantagesofthealgorithmquantitativelyaccordingtoexperimentaldata.Attheendofthispaper,wesummarizethewholeworkandprospecttheresearchdirectioninthefuture.Keywords:motionestimation;Blockmatching;Three-stepsearchmethod\n目录第1章绪论11.1引言1课题的背景与意义1视频压缩技术介绍31.2运动估计的研究现状71.3本文主要内容和工作安排7第2章运动估计概述及其技术指标92.1运动估计102.2块匹配运动估计的基本原理122.3块匹配的运动估计的参数和指标14分块大小14匹配准则14搜索范围的确定15估计精度162.4算法评定指标16第3章典型块匹配运动估计算法分析183.1全搜索法(FS)183.2快速匹配算法19三步搜索法(FSS)19新三步搜索法(NTSS)21四步搜索法(FSS)24\n钻石搜索法(DS)25六边形搜索法(HEXBS)273.3运动估计算法仿真30实验平台30三步搜索法仿真示例31实验结果33实验结果分析353.4本章小结35结束语374.1本文工作总结374.2研究展望37致谢39参考文献40\n第1章绪论1.1引言课题的背景与意义随着信息技术的发展和社会的不断进步,人类对信息的需求越来越丰富,人们希望无论何时何地都能够方便、快捷、灵活的通过语音、数据、图像与视频等多种方式进行通信。视觉信息给人们直观、生动的形象,图像/视频的传输更受到广泛的关注。数字信号处理技术、物理媒体与网络技术、超大规模集成电路技术突飞猛进的发展,使得多媒体通信成为研究和应用的热点。其中,最为关键的技术是数字视频的处理和传输技术,它将电视技术、计算机技术和通信技术结合在一起,在电视系统、计算机网络和通信产业中得到了广泛的应用,己经进入千家万户的日常生活中。数字视频硬件方面的进步和有关数字视频压缩国际标准的推出,使得数字视频技术领域趋于成熟。自20世纪90年代以来,国际电联ITU和国际标准化组织ISO先后颁布了一系列视频编码和多媒体视频通信的建议和国际标准。如ISO/IEC成立了JPEGJointPhotographicExpertGroup和MPEGMovingPietureExpertsGroup并先后完成了JPEG、JPEG2000、MPEG-l、MPEG-2和MPEG-4标准的制定;ITU-T也先后制定了H.261、H.262与MPEG组织合作、H.263/H.263+和H.264与MPEG组织合作等一系列国际数字视频压缩编码标准。它们为视频编码技术的发展起到了巨大的推动作用。\n在传统的图像通信领域,例如基于ISDN、PSTN以及DDN的会议电视和可视电话等视频通信业务取得巨大成功的同时,新的多媒体通信方式也不断出现,尤其是Internet和数字移动通信的迅速普及,利用IP网络以及宽带无线网络进行图像和视频信息的传输成为倍受人们重视的新方式。但是大量频繁的图像、视频信息的交流与存贮活动也带来了许多新要求和新问题,例如视频图像巨大的信息量与当前有限的信道带宽和传输效率已成为制约多媒体技术发展的一个重要瓶颈,因此人们在努力增加信道带宽和提高信道传输效率的同时,对视频图像采取高效的压缩编码己成为目前的研究热点。例如,1幅640x450分辨率的彩色图像24比特/像素,其数据量约为0.92MB,如果以每秒30帧的速度播放,则视频信号的传输速率高达27.6Mbps,如果存放在容量为650MB的光盘中,在不考虑音频信号的情况下,每张光盘也只能播放24秒。由此可见,数字视频信息的数据量是非常巨大的,若不经过压缩,数字图像传输所需要的高传输速率和数字图像存储所需要的巨大容量将成为推广应用数字视频技术的最大障碍。要解决多媒体信息存储容量大、数据传输率高的难题,就需要采用压缩技术。研究发现,图像数据表示中存在大量的冗余。通过去除那些冗余数据可以使原始图像数据极大的减少,从而解决图像数据量巨大的问题。对于静态图像,最主要的数据冗余是空间冗余。图像帧记录了可见景物的颜色,而同一景物各采样点的颜色之间存在着空间连贯性,但基于离散像素采样来表示物体颜色的方法通常没有利用景物表示颜色的这种空间连贯性,因此产生了空间冗余。序列图像帧内存在空间冗余,而帧间则存在着很大的时间冗余。这是由于序列图像一般是位于同一时间轴区间内的一组连续画面,其相邻帧间变化量一般很小,只是表现为移动物体所在的空间位置略微不同。运动估计和运动补偿技术就是解决图像帧间时间冗余的很好的方法。\n运动估计与运动补偿是现阶段视频压缩编码的关键技术。它是一种实现帧间编码的方法,利用前后两帧或若干帧之间的时间相关性,去除时间冗余度。帧间编码之所以能减少冗余度,是因为在一般视频序列的两帧之间有很大的空间结构相似性,前后两帧的差帧可以用比帧内编码所需少很多的比特数来进行编码。而帧间预测的方法基本上是以基于块匹配的运动估计补偿算法为主。运动估计目前面临的主要问题就是如何比较快速的得到比较准确的运动矢量,因为在整个视频编码的过程中,即使采用快速算法,运动估计仍然是耗时最长、资源占用最高的环节,如在H.261的编码过程中,在采用著名的三步快速搜索法的情况下,运动估计仍要占用整个编码过程的63%的计算量;而在H.263编码器中,运动估计也还占用了42%的计算量。因此,运动估计成了视频压缩编码的瓶颈,特别是对于帧幅较大、帧频较高的视频对象,在编码实时性和硬件实现方面,运动估计还有很多潜力可挖。基于上述原因,高效快速的运动估计算法一直是视频压缩编码领域的研究热点。从全搜索到三步搜索法、菱形搜索、以及六边形搜索法等,提高了基于块匹配的运动估计算法的性能,使实时应用成为了可能,但是由于实际需求越来越高,所以也要求我们不断的改进运动估计算法以满足现实的需求。基于块匹配的运动估计作为视频编码的关键技术,需要解决的问题是如何提高它的估算速度和精度。而鱼和熊掌不能兼得,这两个指标在实际计算过程中往往无法同时达到最优,如何解决这个折衷问题具有很高的理论和实际意义,是一个图像处理领域和图像通信领域极其重要的研究课题。它的研究和应用必将促进计算机通信、图像通信和多媒体技术的发展。\n本课题的意义在于,通过实验和仿真,比较了各种算法的优缺点,找出了最优的算法,确保视频压缩的质量。力求在己有算法的基础上寻找一种新的思路,找出了一种优化和改进的块匹配运动估计算法,使其能够在保证图像质量的同时,搜索速度得到较大的提高。视频压缩技术介绍对视频进行压缩,就要了解视频的构成。普通的未压缩视频都是由一帧帧图像序列组成的,一般1秒中包含24帧图像。一般图像的变化都很小,而且变化都是局部的,甚至是静止的,这样就可以从中找到突破。数字视频中的这些情况都可以称为信息的冗余,因此可以通过除去这些冗余数据来减少大量的原始视频的数据量,从而达到数据压缩以解决视频传输中数据不便传输的问题。通常的视频信息中存在以下三种冗余:[1]空间冗余:这是静态图像存在的最主要的一种数据冗余。研究数据表明,图像帧内的行、列相邻点之间的相关性可以达到90%以上。时间冗余:这是视频里图像序列中最经常包含的冗余。视频序列前后帧之间存在着较大的相关性。同样有研究证明活动图像相邻帧同一位置上前后样值的相关性也达到90%以上。视觉冗余:人类的视觉系统对图像的敏感性是非均匀的和非线性的。人的视觉系统HVS对于某些失真并不敏感。然而,在记录的原始图像数据时,通常假设这个系统是均匀的和线性的,对视觉敏感和不敏感的部分同等对待,从而产生了比理想编码更多的数据,这就是视觉冗余。视频信号都是由一系列单独的图像帧组成。每一帧都可以利用图像编解码器JPEG进行帧内编码Intra-frameCoding,每一帧在内部先进行编码而没有考虑到其它的帧。消除视频序列中的时间冗余(连续视频帧中的相似性),可以达到更好的压缩效果。具体可以通过给图像编解码器增加一个“前后帧”来实现,主要有以下的两个功能:\n1预测:从一个或多个先前传输的帧来建立对当前帧的预测;2补偿:从当前帧中减去预测帧来产生“残差帧”。接着用图像编解码器来处理这个残差帧。经过这个处理,残差帧将包含很少的数据,因而可以用图像解码器对它进行有效的压缩。为了解码帧,解码器必须进行逆反补偿过程,把预测加到解码的残差帧中,这就是帧间编码Inter-frameCoding。视频编码标准的最重要的发展都是源于两大标准组织:ITU前身是CCITT和ISO。1986年,ISO和CCITT联合成立了“联合图片专家组(JPEGJointPhotographicExpertsGroup)”,于1991年3月提交了用于灰度等级和颜色两方面连续变化静止图像编码的JPEG建议草案,于1992年7月通过证实标准。1988年,MPEGMovingPictureExpertGroup运动图像专家组成立,它致力于运动图像及其伴音编码标准化的工作,包括MPEG系统,即MPEG视频和MPEG音频。原先共有三个版本MPEG-1,MPEG-2,MPEG-3,后来又增加了MPEG-4,MPEG-7等,不同的版本对应了不同的应用场合及相关的视频质量,对多媒体通信的发展起到了巨大的影响。[2]1MPEG-1MPEG-1制定于1993年,是针对1.5Mbps以下数据传输率的数字存储媒质运动图像及其伴音编码的国际标准。MPEG-1用于在CD-ROM上存储同步和彩色运动视频信号,可优化为中等分辨率,并在这个优化模式下,采用标准交换格式SIF。它可针对SIF标准分辨率对于NTSC制为352×240;对于PAL制为352×288\n的图像进行压缩,传输速率为1.5Mbits/sec,每秒播放30帧。MPEG-1对色差分量采用4:1:1的二次采样率。MPEG-1旨在达到VRC质量,其视频压缩率为26:1。2MPEG-2MPEG-2制定于1995年,它追求的是CCIR601建议的图像质量DVB,HDTV和DVD等制定的3Mbps~10Mbps的运动图像及其伴音的编码标准。MPEG-2在NTSC制式下的分辨率可达720×486,MPEG-2能够提供广播级的视像和CD级的音质。由于MPEG-2在设计时的巧妙处理,使得大多数MPEG-2解码器可播放MPEG-1格式的数据。正因为MPEG-2的出色性能表现,已能适用于HDTV。除了做为DVD的指定标准外,MPEG-2还可用于为广播、有线电视网、电缆网络以及卫星直播提供广播级的数字视频。还可提供一个较广的范围改变压缩比,以适应不同画面质量、存储容量以及带宽的要求。对于最终用户来说,由于现存电视机分辨率的限制,MPEG-2所带来的高清晰度画面质量如DVD画面在电视上效果并不明显,反而其音频特性如加重低音,多伴音声道等更引人注目。3MPEG-3MPEG-3是ISO/IEC最初为HDTV开发的编码压缩标准。但由于MPEG-2的高速发展,MPEG-3的功能已被淘汰,其原来的工作由MPEG-2小组承担。4MPEG-4MPEG-4于1998年11月公布,该标准提出了基于对象编码的概念,不仅针对一定比特率下的视频编码、音频编码,更加注重于多媒体系统的交互性和灵活性。MPEG-4标准主要应用于视像电话VideoPhone,视像电子邮件VideoEmail和电子新闻ElectronicNews等,其传输速率要求较低,在4800-64000bits/sec之间,分辨率为176×\n144。MPEG-4利用很窄的带宽,通过帧重建技术,压缩和传输数据,以最少的数据能取得最佳的图像质量。MPEG-4是第一个让用户由被动变为主动的动态图像标准,从根源上说,MPEG-4将自然物体与人造物体相溶合视觉效果意义上的,其试图达到两个目标:低比特率下的多媒体通信及多工业的多媒体通信的综合。据此目标,MPEG-4引入了AV对象Audio/VisualObjects,从而使得更多的交互操作成为可能。MPEG-4的应用前景可以说非常广阔。它的出现能推动以下的几个方面:数字电视、动态图像、万维网、实时多媒体监控、低比特率下的移动多媒体通信、Internet/Intranet上的视频流与可视游戏、基于面部表情模拟的虚拟会议、DVD上的交互多媒体应用、基于计算机网络的可视化合作实验室场景应用等。MPEG-4技术还在不断的完善和发展当中,新的MPEG-4标准的应用正在促进多媒体压缩技术经历另一次重大变化。这一变化会与1990年MPEG-2压缩标准的推出一样巨大,而且随着视频通信应用的快速发展,MPEG-4标准势会影响到范围广泛的多种应用领域。5MPEG-7继MPEG-4之后,要解决的矛盾就是对日渐庞大的图像、声音信息的管理和迅速搜索。针对这个矛盾,MPEG提出了这个解决方案MPEG-7。MPEG-7力求能够快速并且有效地搜索出用户所需的不同类型的多媒体信息。该标准没有规定利用描述进行搜索的工具或任何程序。目前MPEG系列国际标准已经成为影响最大的多媒体技术标准,对数字电视、视听消费电子产品、多媒体通信等产业产生了深远影响。ITU主要精力则集中在支持实时、双向视频通信上。而负责发展这些标准的组织就是众所周知的VCEG视频编码专家组,其主要标准有:\n1H.261视频编码标准H.261是ITU-T为在综合业务数字网ISDN上开展双向声像业务而制定的,速率为64kb/s的整数倍。H.261只对CIF和QCIF两种图像格式进行处理,每帧图像被分成图像层、宏块组GOB层、宏块MB层、块Block层来处理。H.261是最早的运动图像压缩标准,包括运动补偿的帧间预测、DCT变换、量化、熵编码,以及与固定速率的信道相适配的速率控制等部分。2H.263视频压缩标准H.263是ITU-T为低于64kb/s的窄带通信信道而制定的视频编码标准。它的标准输入图像格式可以是S-QCIF、QCIF、CIF、4CIF或者16CIF的彩色4∶2∶0亚取样图像。比采用了半象素的运动补偿,且增加了4种有效的压缩编码模式。先进的预测模式允许一个宏块中4个8×8亮度块各对应一个运动矢量,提高了预测精度;两个色度块的运动矢量取这4个亮度块运动矢量的平均值。补偿时,8×8亮度块每个象素的补偿值由3个预测值加权平均而得到。使用这个模式可以产生显著的编码增益,特别是采用重叠的块运动补偿后,能减少块效应,提高主观质量。3H.264视频压缩标准H.264是由ISO/IEC与ITU-T组成的联合视频组JVT制定的新一代视频压缩编码标准。它的主要优点列出如下:在相同重建图像质量下,+和MPEG-4SP减小50%的码率。既可工作于低时延的模式以满足实时业务,如会议电视;又可工作于无时延限制的场合,如视频存储。在编/解码器中采用复杂度可分级设计,在图像质量和编码处理之间可分级,以适应不同复杂度的场合。相对于早期的视频压缩标准,H.264引入了许多相对先进的技术,包括4×\n4的整数变换、空域内的帧内预测、1/4象素精度的运动估计、多参考帧与多种大小块的帧间预测技术等。新技术带来了较高的压缩比,同时大大的提高了算法的复杂度。视频编码通过去除图像的空间与时间相关性来达到数据压缩的目的。空间相关性可以通过有效的变换来去除,如DCT变换、H.264的整数变换;时间相关性则通过帧间预测来去除。这里所说的变换去除空间相关性,仅仅局限在所变换的块内,如8×8或者4×4,并没有块与块之间的处理。H.263+与MPEG-4则引入了帧内预测技术,在变换域中根据相邻块对当前块的某些系数做预测。H.264则是在空域中,利用当前块的相邻象素直接对每个系数做预测,有效地去除相邻之间的相关性,极大地提高了帧内编码的效率。1.2运动估计的研究现状运动估计算法通常分为两大类:一类是象素递归算法PRAPixelRecursiveAlgorithm;另一类是块匹配算法BMABlockMatchingAlgorithm。PRA是基于递归思想,如果连续帧中象素数据的变化是因为物体的移位引起的,算法就会沿着梯度方向对某个象素周围的若干象素做迭代运算,使连续的运算最后收敛于一个固定的运动估计矢量,从而预测该象素的位移;而BMA则是基于当前帧中一定大小的块,在当前帧的前后帧的一定区域内搜索该象素块的最佳匹配块,作为它的预测块。尽管PRA对比较复杂的运动形式来说,其预测精度要高于BMA,但是由于其计算量比BMA大的多,同时BMA本身也拥有较好的性能,因此目前的视频压缩编码国际标准普遍都采用BMA。本文的研究都是针对块匹配的运动估计算法,在后文中,如无特别说明,所提到的运动估计也都是指基于块匹配的运动估计。\n在基于块匹配的运动估计中,最直接的是全搜索算法FullSearch,FS,它能够得到全局最优的运动矢量,但该算法的运算量也相当巨大,成为了编码器实时应用的瓶颈。为了提高运动估计的运算速度,人们不断提出针对块匹配运动估计的改进快速算法,其目标是在保证编码质量的同时,尽可能的降低运算复杂度。快速搜索模板这类算法的主要想法是通过在搜索窗口内按照固定的搜索模板和步骤,对较少的几个点进行匹配运算来降低运算复杂度,这类快速模板算法都是基于一个共同的假设,即在搜索窗内有且仅有一个全局匹配误差最小点,而且匹配误差随着当前点与全局最优点之间距离的增大而增大。模板搜索快速算法是提出最早,发展最为成熟,也是应用最为广泛的一类快速算法。它的优点是算法简单,计算量小,加速比较大,缺点是容易陷入局部最优值,尤其在大运动情况下,搜索的准确度难以保证。该类算法的经典代表有三步法[3]Threestepseareh,TSS、2维对数法[4]2-DimensionLogarithm,2D-LOG、新三步法[5]NewThreestepseareh,NTSS、四步法[6]FourStepSeareh,FSS、菱形法[7]DiamondSeareh,DS、六边形搜索法[8]Hexagon-Basedseareh,HEXBS等。1.3本文主要内容和工作安排本论文的主要工作就是在基于块匹配的视频图像运动估计技术研究的基础上,深入分析、全面总结现有的经典块匹配运动估计算法,并通过仿真实验比较他们的性能。在此基础上,力争提出一种优化和改进后的块匹配运动估计算法,使其能够在保证图像质量的同时,搜索速度得到较大的提高。本论文章节安排如下:第1章\n绪论。通过查阅大量的相关文献,介绍了课题的背景与研究的重要意义,然后对视频压缩技术也进行了简要介绍,最后介绍了运动估计的研究现状。第2章运动估计概述及其技术指标。介绍了运动估计的思想,着重分析了块匹配运动估计的原理,对块匹配运动估计的几项重要的技术指标分块的大小,匹配准则,搜索范围,估计精度的确定进行了重点讨论。第3章典型块匹配运动估计算法分析。详细阐述了各种经典块匹配运动估计算法,并从搜索算法在搜索速度、计算量、匹配质量、等方面的性能进行了分析比较。最后通过仿真、实验数据定量地评价了各算法的优缺点。\n总结与展望。总结了全文的研究成果,并对运动估计算法研究进行了展望,提出了进一步的研究工作。第2章运动估计概述及其技术指标由于视频序列图像在时间上具有较强的相关性,运动估计ME及运动补偿MC技术可以有效的减少时间相关性,因此该技术被广泛应用于各种视频压缩编码方案中。运动估计用来估计物体的位移,得到运动矢量;运动补偿根据得到的运动矢量,对前一帧中由于运动而产生的位移进行调整,从而得到尽可能接近本帧的预测帧。由此可见,运动估计算法越完善,估计出的运动矢量越准确,运动补偿的性能就越好,从而使预测误差越小,编码后需要传输的信息量也将随之大大减少,整个系统的码率压缩比就会得到很大的提高,因此运动估计和补偿技术己经成为视频序列图像编码系统中减少时间冗余、提高压缩比的重要技术。H.26x和MPEG-1,MPEG-2,MPEG-4等标准采用的都是基于块匹配运动估计与运动补偿的帧间压缩方案,其压缩比和基于帧内压缩的标准如JPEG相比有较大的提高。典型的视频压缩编解码系统如图2-1所示,运动估计算法实现帧间编解码的基本过程是这样的:在编码端,如图2-1a所示当前帧与帧存器里的参考帧先进行运动估计,得到当前帧的运动矢量,运动矢量与参考帧又补偿出当前帧的预测帧,预测帧与当前帧相减得到预测误差,然后对预测误差进行DCT变换和量化,最后,把运动矢量和量化后的DCT信息一起进行变长编码,同时,量化后的DCT信息又经过反量化、IDCT变换得到预测误差,预测误差与先前的预测帧相加得到当前帧,存入帧存器作为下一帧的参考帧。a编码器(b)解码器图2-1典型的视频压缩编解码系统在解码端,如图2-1b\n所示,压缩码流经过变长解码分成两部分:运动矢量和预测误差的逆信息,然后将预测误差的逆信息经过反量化、IDCT变换得到预测误差,将运动矢量与帧存器里的前一帧进行运动补偿得到预测帧,再将预测帧与预测误差相加就得到了当前帧的重构图像,同时保存到帧存器里作为下一帧的参考帧。在视频压缩编码中,即使采用快速算法,运动估计仍是最费时的环节,如在H.261的编码过程中,在采用著名的三步快速搜索法的情况下,运动估计仍要占用整个编码过程的63%的计算量;而在H.263编码器中,运动估计占用了42%的计算量。因此,运动估计是视频压缩的瓶颈。基于上述原因,高效快速的运动估计算法一直是视频压缩领域的研究热点。尤其是从1997年10月召开的MPEG会议上开始征集运动估计快速算法以来,在视频编码中的运动估计算法的研究领域中竞争日益激烈。2.1运动估计对于视频序列图像,由于相邻帧间存在很大的时间相关性,即时间兀余Temp-oralRedundancy。所以减少时间冗余,可以大幅度提高视频压缩编码的效率。这方面一种有效的方法就是基于块匹配的运动估计MotionEstimation,ME,因为算法简单,便于实现等优点而得到广泛的应用。其基本思想是将图像序列的每一帧分成M*N的宏块,然后对于当前帧中的每一块根据一定的匹配准则在前一帧或后一帧中在给定的搜索范围内找出与当前块最相似的块,即匹配块,根据匹配块与当前块的相对位置计算出运动位移,所得运动位移既为当前块的运动矢量。运动估计的越准确,补偿的残差就越小,编码效率就越高,解码出来的图像质量就越好。\n运动估计用于帧间编码方式时,通过参考帧图像产生对被压缩图像的估计。运动估计是以宏块为单位进行,计算被压缩图像与参考图像的对应位置上的宏块间的位置偏移。这种位置偏移是以运动矢量来描述的,一个运动矢量代表水平和垂直两个方向上的位移。图2-2宏块、搜索区域与运动矢量的关系运动估计及补偿的基本原理就是利用帧间运动估计得到待编码块的一个参考块,然后用这个参考块进行运动补偿,将补偿后的残差进行DCT变换和可变长编码。运动估计的主要过程如图2-2所示。这样运动补偿方法是基于局部运动估计的,它对图像中的宏块进行操作,在参考帧图像的搜索范围内,搜索与当前帧最接近的宏块,从而得到这个宏块的运动矢量。运动矢量是一个包括水平和垂直分量的二维矢量,编码过程只对这个运动矢量和当前宏块与在参考帧中搜索到的宏块的差值就行编码。运动估计越准确,那么所要编码的残差图像就越小,运动补偿编码所需要的位数就越少。另外,如果运动估计的搜索采用全搜索法,它占用了编码过程中程序运行的大部分时间,所以为了提高搜索速度和效率,搜索策略也很重要。目前研究最多的快速搜索算法,有三步法、四步法、新三步法、菱形法等,这些算法将在第三章详细介绍。2.2块匹配运动估计的基本原理\n运动估计可以看作是对相邻图像帧时域相关性的检测,通过对相邻图像帧之间相似部分的搜寻来获得图像中景物对象的运动信息。运动估计和补偿的基本过程是通过一定的方法在参考帧图像中搜索当前帧图像的运动信息,再根据这些运动信息在参考图像上进行相应的运动补偿操作,得到一个当前帧的重构图像。由于运动估计时得到了当前图像与参考图像的相关信息,这个重构图像与当前图像的差值往往比直接用参考图像和当前图像作差而得到的比特数要少得多,因此,运动估计与补偿技术能有效减少相邻帧之间的数据冗余,从而获得更高的压缩比,降低视频压缩编码后的码率。运动估计的一个基本问题是如何选择运动信息的表示方式,这又与运动估计的算法模型密切相关。最直接的方法是对于每一个当前帧的像素都采用一个二维矢量由于我们这里讨论的都是针对二维图像的运动估计,因此每个被估计的图像单元的运动信息都可以表示为一个由水平方向分量和垂直方向分量构成的二维矢量来表示其运动信息,即我们通常所称的运动矢量。这种方法具有普遍的适用性,但是由于视频图像通常具有非常多的像素,这样对每一个像素都进行运动估计是不现实的,同时这样得到的运动矢量场的数据量太大而使得总的编码比特反而不能减少。因此,在实际中,我们一般将图像帧分割为许多互不重叠的宏块,并假定宏块中的所有像素做相同的平动,这样就可以分别对每个宏块独立地估计其运动信息参数即运动矢量,这就是目前在各种主流的视频压缩标准如MPEG-4、H.264等中被广泛应用的基于块匹配的运动估计方法。这种方法在运动估计精度与计算复杂度之间提供了一个较好的折衷,其基本原理如图2-3所示。在对某一帧图像进行运动估计时,首先将其按照一定的方式划分成互不重叠的若干个宏块,设宏块的大小为M*NH.263、MPEG-2和MPEG-4建议采用MN16,而H.264则可采用几种不同大小的宏块模式进行估计,然后再对每帧中的宏块依次进行运动估计,获得各自的运动矢量。在基于块匹配运动估计和补偿的视频压缩编码系统中,宏块是进行DCT变换、量化、运动估计、运动补偿及图像重建等操作的基本单元,即在运动预测编解码过程中均以宏块作为操作的单位。图2-3块匹配运动估计原理示意图\n为了便于说明块匹配算法的基本原理,设当前帧中的某目标宏块左上角像素点的坐标为:sx,y。需要说明的是,由于假设宏块中的所有像素都作相同的平移运动,因此宏块中的任意一点都可以标明其位置。然后,在参考帧中,以待估计宏块的位置坐标s为中心,在水平方向分别向左和向右扩展一定长度的搜索距离,而在垂直方向分别向上和向下扩展,则可得到一个大小为的搜索窗砰。搜索窗中的每一个点都对应着一个候选匹配宏块,设某个候选宏块的左上角像素点的坐标为,则该候选宏块相对于目标宏块的偏移量mv就是该搜索点对应的运动矢量,即:2-1块匹配运动估计的目的是在搜索窗中搜寻与目标宏块最为匹配的候选宏块,并获得相应的运动矢量。其中,搜索窗的大小由视频中景物对象的运动速度决定。对象的运动速度越块,搜索窗也应越大,即和的取值需加大,以覆盖更大的运动范围,从而获得更高的预测精度。不过,较大的搜索窗通常会使得搜索点增多,从而加大计算量,因此,搜索距离的设定需综合考虑具体视频的运动特性、运动估计的质量以及算法的计算量等因素,以获得最佳的估计性能。2.3块匹配的运动估计的参数和指标基于块匹配的运动估计算法,在具体实现的时候,需要考虑其中的几个参数:分块大小(M,N取值),匹配准则,搜索范围和估计精度。其中每一个都对匹配的效率产生重要影响,有些则是最关键的。分块大小\n上面已经提到过一点,块匹配法有个前提,就是同一个块内的像素运动方向是一致的。因此需要选择合适的块大小。块大小大时,块内各像素作平移运动的可能性比较小,不满足我们的前提条件,会影响估计的精度;块大小小时,会受噪声影响,结果不准确,而且还会导致产生许多运动矢量,使得运算量增加,降低了编码的效率。所以块的大小必须选择合适,满足上面的要求。当前的视频压缩标准,如H.26x和MPEG一般以16×16大小的块作为一个宏块,这是一个已经证明的较好的平衡结果。而且H.263和MPEG-4在进行16×16的宏块运动估计的基础上,还加入了8×8块的处理,使得预测的精度有了提高。H.264更是最小分块达到了4×4,进一步使得运动估计的结果精确。匹配准则块匹配准则是判断块相似程度的算法和标准,准则的好坏直接影响了运动估计的结果。而且匹配运算、数据读取复杂度很大程度上决定于所采用的块匹配准则。在块匹配法中,有三种最优匹配准则:1最小绝对差MADMeanAbsoluteDifference、(2-2)MAD值最小时为最优的匹配点。2最小均方误差函数MSEMeanSquareError(2-3)结果最小时为最优的匹配点。3归一化互相关函数NCCFNormalizedCostCorrelationFunction。(2-4)结果最大时为最优的匹配点。在上式中,M×N为块大小,i,j为位移,-p≤i,j≤\n+p,p为搜索范围,和分别为当前帧和参考帧像素的灰度值。这是由于人眼对灰度值比较敏感,而且灰度也反映了运动的信息,所以匹配时只考虑图像像素的灰度值。有试验证明MSE匹配函数的精度最高,但是它的乘方运算实现起来比较困难;MAD匹配函数效果其次,而且运动估计的精度影响不太大,效果不错。从而不需作乘法运算又易于硬件实现的MAD算法得到广泛的应用。当SAD准则出现后,它却快速的取代MAD,被各种运动估计算法所采用,因为它与MAD的匹配效果相同,又不需要实际运算中不必要的除法,又大量的降低了计算量。SAD描述如下:(2-5)其中N*N为块大小,C为当前块的灰度值,R为搜索区域的灰度值。搜索范围的确定搜索范围(-p,+p)是块匹配中的重要一环,它的大小的选择决定了整个运动估计的精度。搜索范围有以下几个特点:(1)不同的清晰度对应的搜索范围不同,清晰度越高就需要越大的搜索范围来配合;(2)图像的运动程度也有关系,图像运动越剧烈,运动越明显,就需要相应比较大的搜索范围;(3)搜索范围的大小也决定了运算量的大小,当搜索范围取比较大时,就相应计算量也多,占用的资源也越多。从上面看,搜索区域不是随意而定的,也不是越大就越好。当搜索区域变大时,运动估计的性能得到了提高,但同时需要处理的运算量也变大了。因此如何选择搜索区域的大小要根据实际处理的图像来确定。搜索区域的大小的确定就需要具体情况具体分析。估计精度早期的视频压缩标准中,运动估计是基于16×\n16块的块匹配运算,运算精度为整像素。这是由算法的复杂度和当时硬件水平所决定的。实际情况时有时会遇到图像中的物体真实位移,与我们选定的网格不匹配的情况。所以整像素运动估计的精度在这个时候就捉襟见肘了。在不断的发展中,我们改进了相关算法,提升了硬件的水平,在MPEG-4和H.263中,运动估计的精度精确到半像素即亚像素,从而提高了运动估计的性能。半像素级搜索是指,在整像素搜索的基础上,为了寻找更佳匹配,进一步在像素的插值空间上所进行的搜索。一般是在整像素搜索的点周围的一定区域通常为周围8个半像素点作全搜索。本文重点研究的是运动估计的硬件结构,因此在条件允许和自身能力的范围内,选择了整像素进行研究。2.4算法评定指标运动估计算法的设计目的是尽可能准确地为当前帧建立一个模型因为这样可能获得更好的压缩性能,同时在可以接受的计算复杂度内。通过观察匹配效果和搜索的时间复杂度可以评判一个运动估计算法的好坏,具体说来,匹配效果可通过人眼主观和一些客观的指标来评价重构图像的质量。人眼对图像质量的评价是许多因素的一个交互过程,包括人类视觉系统HVS,眼睛和大脑系统等。人类视觉感知受空间保真度和时间保真度的影响,同时还受到其它因素的影响,如观察环境、观察者的精神状态等。这些都具有较大的随意性,不易进行准确的和定量的比较[9][10]。鉴于以上视频效果主观判断的局限性,视频压缩和视频处理的开发者越来越倾向于客观的判断,应用最广泛的就是峰值信噪比PSNRPeakSignaltoNoiseRatio和平均MSE。MSE在前面已经有介绍,PSNR的计算公式如下:2-6\nPSNR的计算非常简单和快捷,因此成为一种应用广泛的客观图像质量评定方法。通常地,PSNR值高表示图像具有比较高的质量,PSNR值低则表示图像具有比较低的质量。因此从PSNR值可以很好的反应图像的质量。\n时间复杂度可通过搜索点数和搜索时间进行比较。由于搜索时间受到运行平台及其它诸多因素的影响,目前最常见的还是比较搜索点数,索过程中进行匹配比较的次数。第3章典型块匹配运动估计算法分析运动估计的搜索算法决定了视频压缩的性能和速度,是系统中最重要的一个环节。评价这个搜索算法的好坏可以从准确度和匹配的速度来衡量。对于准确度,主要是看在最佳匹配后得到运动矢量,进行运动补偿得到残差值。这个残差值越小,准确度就越高,需要传输的数据就越少。匹配速度主要看要匹配的总的像素数目,也就是估计一个运动矢量的平均搜索点的个数。以下是几个经典的快匹配运动估计算法的介绍,最后有对这些算法的分析和评价,以便于我们实现的时候选择合适的算法。3.1全搜索法(FS)为了在参考帧中找到最好的匹配区域,最简单最可靠的方法就是把当前块与参考帧中的每一个可能区域都做一个比较,再选择其中最匹配的。(a)光栅顺序搜索(b)螺旋顺序搜索图3-1全搜索法全搜索法就是这样实现的,对搜索窗口区域内的所有块进行搜索已得到最匹配的块。全搜索主要有两种具体形式:光栅式和螺旋式搜索。如图3-1所示。图a中从左上角的宏块开始一直计算到右下角的宏块,是光栅式搜索方法,方法简单易于实现;图b是从搜索区域中心的宏块开始匹配,一直旋转到边缘的宏块,是螺旋式搜索方法。在所有的搜索算法中,全搜索法是准确度最高的,它不会陷入局部最优的困境,其它所有的算法都是在它的基础上改进的,并且都以全搜索法作为基准进行性能的对比。但是有利必有弊,在高准确度的光环下,隐藏着高运算量的阴影。全搜索算法FullSearch\n是最直接简单同时也是计算量最大的快匹配算法,在最大搜索范围为的情况下,需要进行次的块匹配运算,占整个视频压缩编码过程的60%-80%的计算量,这就大大限制了视频压缩编码实时性的实现,对硬件条件提出了很高的要求。为了减少全搜索算法的匹配次数和数据读取次数,近些年来出现了很多改进的快速运动估计算法。大多数算法都是基于块匹配的,下文将对一些典型的快速块匹配算法进行详细介绍。3.2快速匹配算法三步搜索法(FSS)1)算法基本思想全搜索算法计算的复杂度让人望而却步,特别是对于要求实时的软件编解码器。目前已经发展了一些从运动估计中可选的快速搜索算法。快速搜索法的目的是减小全搜索算法需要的匹配次数,也就是说,只在参考帧搜索区域内找到几个特定的宏块进行匹配来找到运动矢量。在减少了匹配次数的同时,也相应的带来另一个重要的问题,就是快速搜索算法找到的到底是“真正”的最小还是局部的最小。全搜索算法能够保证找到全局最小的SAD,保证最匹配的宏块信息,而快速搜索算法为了保证速度,只在搜索区域中搜索特定的几个可能的宏块,因而易陷入局部最小。结果是快速搜索算法找到的残差值包含的信息往往比全搜索算法找到的残差值的信息多,因此在传输时,快速搜索算法由视频编码器产生的数据也就相应的多一些。\n这个算法由它的三步形式而得名成为三步搜索法(TSS),它的总体思想是在搜索窗口中,以原点为中心,以逐步减小的步长为距离,分三步来匹配特定的宏块,来找到运动矢量。三步搜索法因为它的思想简单,性能良好而流行,是许多在软件中的实现形式。三步搜索算法的基本思想是采用一种从粗到细的搜索模式,利用上一步搜索得到的最佳匹配位置作为当前搜索的中心,每完成一步搜索的步长减半。如果搜索长度为7,搜索精度为1个像素时,则最开始时步长为4,然后递减为2和1,共需三步即可。2)算法描述第一步,从中心开始,以最大搜索长度的一半为步长(步长为4),在周围距离步长的8个点处进行匹配计算。第二步,以第一步得到的最佳匹配位置为中心,步长减半(步长为2),重新在该新中心周围距离步长的8个点处进行匹配计算。第三步,当搜索步长为1时,该点即为最后的最佳匹配点,这个点的位置就是当前块的运动矢量。图3-2表示了三步搜索法的搜索过程:图3-2三步搜索法图3-2解释了当最大搜索距离为7个像素时的情况。图中圆圈的表示第一步的位置,它们包含了原点(彩线交叉点)和距离原点为4个像素的8个点,找到这几个点对应的宏块并和当前帧的宏块匹配后,得到第一步的最优点,即实心圆圈;三角形表示第二步的搜索区域,可以看到中心到了实心圆圈,而且步长减半了(成为4),匹配过后又得到第二步的最优点,实心三角形处;方形代表了第三步的搜索位置,他们以第二步的最优点为圆心,步长为1,匹配后得到整体的最优点,实心方形,也即运动矢量。3)算法分析三步搜索法,最多需要匹配9+8+825个位置,因此,相对于全搜索算法的15×15\n225来说,已经是大大减少了匹配运算的复杂度。而且它的思想相对简单,在现实中也大为流行。但是,三步搜索法有一个很大的缺陷,第一步过于粗糙,在搜索范围较大如16或更大时,最初的步长相对于块的运动矢量的估计来说就太大了,跳出了可能性比较大的区域,尤其是最有可能是运动矢量的中心区域,从而导致搜索方向的不确定性,很容易就陷入局部最优。为了克服三步搜索法的上述缺点,出现了新三步搜索法NTSS、四步法(FSS),这些算法利用视频运动矢量的中心偏置分布特点,加强了对中心区域的搜索,因此搜索精度有一定的提高,这些特点将会在下面详细介绍。新三步搜索法(NTSS)传统的快速搜索算法如三步法等属于多级搜索方法的范畴,在多级搜索的第一步,搜索点是固定的,这些点在搜索窗内的位置,由于假定全局极值点位置出现的概率在搜索窗内均匀分布,所以也是均匀固定分布的,这种搜索模式对于某些仅有细微运动的块来说,并非准确。因此如何在搜索第一步时优化设计搜索模式非常重要。这种优化与全局极值点的概率分布密切相关。因此,我们需要考虑视频序列的全局极值点的概率分布特征。众所周知,自然的视频序列的运动矢量场通常是柔和平滑的,变化也比较缓慢。通过用全搜索算法对全局极值点的概率分布进行统计,研究者发现全局极值点的分布并非像传统的快速搜索算法预先假定的那样在搜索窗内均匀分布,而通常是基于中心偏移的,即在搜索窗中心附近出现全局极值点的概率远远大于在搜索窗边缘出现的概率[11]。如图3-3所示:\n从图中我们可以看出,对于Salesman序列,有约90%的运动矢量被限制在中心附近5x5的区域范围内,而对于MissAmerican序列,虽然看起来它的运动矢量分布比较分散,但它也有约38%的运动矢量被限制在中心附近5x5的区范围内。因此,它们都可以视为是基于中心偏移的序列,如果在搜索的第一步考虑全局极值点向中心偏置的性质,将搜索模式进一步优化,可以得到更精确和快速的搜索方法。RenxiangLi和Bingzeng等在三步算法的基础上做了一些改进得到了新三步搜索NewThree-Stepseareh,NTSS算法。三步算法由于其简单高效和数据存取的规律性受到普遍欢迎,但三步算法对现实视频序列的中心偏置特性欠缺考虑。NTSS算法在这方面做了改进,从而获得比三步算法更好的性能。(a)Salesman序列(b)MissAmencan序列图3-3视频序列的运动矢量分布特性[12]1算法的基本思想在现实的视频序列中,运动矢量的分布是具有中心偏置特性的,为验证此特性,NTSS算法在第一步中通过搜索增加的中心8个点来修改搜索模板。同时NTSS使用半路中止技术来加速静止块的匹配,以此来减少搜索次数。三步算法在第一步对九个点作匹配运算,这九个点在搜索窗口中是等间距分配的,没有考虑块的中心偏置,新三步在第一步对搜索中心周围的八个点也同时作匹配运算,在很多情况下运算可以提前中止。NTSS算法与三步法的不同在于以下两点:改进了原有三步法第一步中搜索固定9个点的方法,采用了基于中心偏置的搜索模式。对静态子块或者准静态子块的搜索引入了中途停止的功能。2算法描述\n第一步:对搜索窗口中心9x9的矩形框和3x3的矩形框的17个点进行匹配运算。这17个点的位置如下图3-4。图3-4NTSS算法第一步搜索点如果第一步搜索中最小SAD像素点发生在搜索窗中心相邻的8个点,第二步的搜索模式有两种可能,其中白点是待搜索点,如图3-5:图3-5NTSS算法第二步可能的搜索模式第二步:根据第一步得到的最小SAD值的位置决定第二步匹配的位置:1如果在搜索窗口的中心位置得到最小的SAD值,则停止搜索;2如果最小的SAD值在3x3的矩形框上得到,则搜索以此点为中心位置的3x3的窗口,并结束搜索;3如果最小的SAD值在9x9的矩形框上得到,则搜索的步骤与TSS算法相同。搜索完成后跳到第三步。第三步:以第二步得到的最佳匹配位置为中心,做最后的3x3窗口中九个点的匹配,得到最小SAD值的位置,就是最佳的匹配位置。3NTSS算法分析由于运动矢量通常总是高度集中分布在搜索窗的中心位置附近,因此NTSS采用基于中心偏置的搜索模式不仅提高了匹配速度,也减少了陷入局部最优的可能性;而采用中止判别技术则大大降低了搜索复杂度,提高了搜索效率。NTSS针对TSS搜索算法中第一步搜索步长过大而容易陷入局部最优的缺陷进行了改进,新增8个搜索点用来保证缓慢运动的要求,第一步大的步长又可以满足快速运动的要求。我们以搜索范围为介-7,7\n搜索窗口大小为15*15巧为例说明这种算法的性能。NTSS算法在最好的情况下只需要做17个点的匹配,在最坏的情况下需要做33个点的匹配,由于运动矢量的中沙合偏置特性在现实视频序列中是普遍存在的,在通常情况下,NTSS算法需要做33点匹配的概率比较小,因此,在低速率视频应用中,如视频电话或视频会议中,NTSS算法的优点可以得到较好的发挥。四步搜索法(FSS)1)算法基本思想四步搜索法是对三步法的一个改进,它也是由于它是分四个步骤搜索而得名的。同样它的思想也是在搜索窗口中,以原点为中心,以一定的步长为距离,分四步来匹配特定的宏块,来找到运动矢量。不同的是步骤和步长。由于大量的视频信息中,前后帧之间图像的运动都很小,因此我们可以认为运动矢量大都是在原点附近的点。由于四步法减小了第一步的步长,因此,能够比三步法更加快速和准确的找到运动矢量。2)算法描述第一步,从原点开始,选取最大搜索长度的四分之一为步长(步长为2),在周围距离步长的8个点处进行块匹配计算并比较。如果最小点为中心原点,直接进行到第四步,否则进行第二步。第二步,以第一步得到的最佳匹配位置作为中心点,步长不变(步长为2)重新在周围距离步长的8个点处进行块匹配计算并比较。如果最小点为中心,直接进行到第四步,否则进行第三步。第三步,与第二步操作相同,搜索新的点并进行匹配,不过不管结果如何,进行第四步。\n第四步,搜索步长为1,找到最佳匹配点,这个点的位置矢量就是当前块的运动矢量。图3-6表示了四步搜索法的搜索过程:(a)第一步最小点为中心的情况(b)四步搜索的情况图3-6四步搜索法从上图3-6a可以看出,如果第一步搜索出来的最小值为中心的话,根据提前中止原则,只需要搜索匹配9个点就可以了,在视频中运动矢量中心偏置的假设下,这个算法是非常吸引人的。就算是全部搜索,如图3-6b所示,最多也是27个搜索点,相对于全搜索的255个已经减少了很多运算量。钻石搜索法(DS)1)算法基本思想当视频序列的运动比较剧烈时,固定步数模板匹配算法容易陷入局部最优,使得视频序列的质量大为下降,因此出现了步数不限的快速模板匹配方法。该算法的主要特点是:1搜索步数不加限制;2搜索模板多样化。钻石搜索法,又叫菱形搜索法,因其搜索的形状模板为菱形而得名,是目前快匹配的快速算法中性能最为优良的算法之一。钻石搜索法采用两种搜索模式,如图2-6所示。第一种模式为大钻石型搜索模式LDSP。该模式包括围绕中心点的8个点,总计9个点,从而形成一个大钻石的形状。第二种模式为小钻石搜索模式SDSP。这种模式包含了5个点,形成一个相对较小规模的钻石形。\n钻石搜索法的基本思想是减少进行块匹配的搜索点,由图2-6可以看到,搜索点大都位于图像的水平和垂直方向上,这是因为现实中的物体在这两个方向运动的概率比较大,图像的频谱多呈菱形分布,是由于图像在水平和垂直方向的相关性大于斜线方向的。(a)大钻石搜索模板(b)小钻石搜索模板图3-7钻石搜索法的两个模板DS算法采用大钻石和小钻石两种形状的搜索块相结合,先用大钻石模式搜索,由于步长大、搜索范围广,可以先进行粗定位,使搜索过程不会陷于局部最小。当粗定位结束后,可以认为最优点就在小钻石模式周围8个点所围的菱形区域中,这时再用小钻石模式来精确定位,使搜索不至于有大的起伏,因此它的性能要优于其它快速算法。2)算法描述第一步,用大钻石模式LDSP在搜索区域中心及周围8个点进行匹配运算,如果最优匹配点出现在中心点,直接转到第三步,否则转第二步;第二步,以第一步找到的最佳匹配点为中心,再次用大钻石模式来计算,如果新的最佳匹配点位于中心,则转到第三步,否则重复第二步;第三步,以上一次找到的最佳匹配点作为中心点,用小钻石模式SDSP代替大钻石模式做匹配运算,最后找到的最优匹配位置即为运动矢量。钻石搜索法的搜索过程如图3-8所示:图3-8砖石搜索法\n钻石搜索法最大的特点是提出了菱形的搜索模式,不限制搜索的步数,以及它对各个方向都进行搜索,而且着重考虑水平和垂直方向,因此可以使得搜索避免陷入局部最佳;另一方面,采用钻石搜索法时各个步骤之间有很强的相关性,模板移动时只需在几个新的检测点处进行匹配,降低了计算量,从而也提高了搜索速度。六边形搜索法(HEXBS)六边形搜索Hexagon-BasedSeareh,HEXBS是由Cezhu,XiaoLin和Lap-puiChau于2000年提出的。DS算法和前面所述算法,都是基于一种假设:搜索窗口内SAD只有一个最小值,并且离最小值点越近对应SAD越小。图3-9中,点9距离点4为拒,距离点5为2,假如本次搜索点9对应的SAD值最小,那么点4对应的SAD值应该比点5对应的小,这与上次搜索的结果相矛盾,所以说点9在本次搜索中并不是一个好的参考点。同理点11,13有相同的结论。从图上我们看出造成这个结论的主要原因是点9,10,11,12,13距离中心点5的距离不一致引起的。我们可以想象,如果参考点均匀分布在以中心点为圆心的圆上,那么就不会有这个矛盾,并且会得到最快的搜索速度。六边形很好地符合了这种特性,从而引出了六边形搜索算法。HEXBS分析了菱形搜索算法中使用的大菱形模板LDSP的一些缺点,提出了新的六边形搜索模板HexagonSearehPattern,HSP。图3-9DS算法特性示例l算法的基本思想块匹配误差实际上是在搜索范围内建立的误差表面函数,全局最小点即对应着最佳运动矢量,而LDSP实际上只是一个旋转了45度的正方形模板,其周围的9个点到中心点距离是不同的,因此使用LDSP进行粗定位时,沿不同方向移动的匹配速度也是不同的,特别是在对角方向上的梯度下降不够快,需要较多步数才能够搜索到最优点。因此要对LDSP进行改进。\nHEXBS提出了六边形搜索模板HSP,如图3-10所示。HSP更接近圆形,其周围各点到圆心的距离都是相同的,因此HSP在各个搜索方向都具有相同的梯度下降速度,搜索速度更快。HEXBS先使用大六边形模板LargeHexagonShaPedPattem,LHSP搜索,当最小MBD点出现在大六边形模板中心时,再使用小六边形模板SmallHexagonShapedPattern,sHsp进行搜索,得到最优匹配点。HEXBS算法采用了两种搜索模板:7个检测点的六边形模板和5个检测点的小六边形模板。搜索时先使用六边形模板进行匹配计算,当最小块误差MBD点出现在中心点时,搜索使用小六边形模板进行匹配计算,这时5个点中的MBD点即为最优匹配点。a大六边形模板b小六边形模板图3-10六边形搜索模板HSP2算法描述第一步:用六边形模板在搜索区域中心及中心周围的6个点处进行匹配计算,若得到的MBD点位于中心点上,则执行第二步,否则执行第一步。第二步:以上一次得到的MBD点作为中心点,用新的六边形模板进行匹配计算,若得到的MBD点位于中心点上,则执行第三步,否则重复执行第二步。第三步:以上一次得到的MBD点作为中心点使用小六边形模板进行匹配计算,找到五个检测点中的MBD点,该点就是所求的最佳匹配点,从而可以得到其对应的最佳运动矢量。3模板及搜索过程图示图3-11显示了一个用HXEBS算法搜索运动矢量-2,4\n的例子,每个点上的数字表明了各搜索阶段计算的候选块的位置,黑色点是每一步的MBD点。搜索共用4步,每一步的MBn点分别为-l,2、-2,4、-2,4、-2,4,使用了三次LHSP和一次SHSP,总共搜索了17个点。4HXEBS算法分析HEXBS算法的特点在于它基于最佳匹配点的分布规律,选用了近于圆形的六边形模板和小六边形模板。先用六边形模板搜索,由于六边形模板搜索步长大,搜索范围广,可以进行最佳匹配点的粗定位,使搜索过程不会陷入局部极小,当粗定位结束后,再使用小六边形模板来精确定位。图3-11HXEBS算法搜索过程同DS算法相比,HEXBS算法搜索时各步骤之间也有很强的相关性,模板移动时只需在几个新的探测点处进行匹配计算;同时在得到同样的运动矢量情况下,HEXBS算法使用了比DS算法更少的检测点,因此提高了算法的搜索速度。此外,每次搜索新增加的搜索点数与方向无关,无论本次MBD点位于模板的什么位置,下次匹配只存在3个新匹配点需要计算。HEXBS算法在粗定位结束后再用SHSP进行准确定位,兼顾了速度和精度的要求。在这些经典的运动估计算法中,全搜索法简单准确,是所有其它算法的基础和对比的基准。但是由于它的计算量过大,在某些情况下发展了快速搜索算法。这些算法并不匹配搜索区域内的所有块,而只是对特定的一些块进行运算比较。所有的快速搜索算法都基于这样的假设:当搜索点远离全局最优点时,块的匹配程度单调下降。但是现实中并不往往是这样的,3SS和4SS等算法会陷入局部最优解。3.3运动估计算法仿真实验平台\n文中的仿真实验在配置为GemiineIntelRCPUT2130@l.87Hzl.86Hz,1GB内存,windowsXP的PC平台下,使用Matlab7.0作为仿真平台,仿真视频序列为4个QCIF标准测试序列Container,Coastguard,News,TableTennis的前100帧。仿真实验时,在测试过程中,运动估计的宏块大小为16xl6,搜索范围为15xl5,即士7个像素点。最佳搜索点采用最小SAD匹配准则。搜索点数和PSNR值均为在视频序列100帧内计算得到的平均值。三步搜索法仿真示例首先,打开Matlab仿真软件,导入主程序以及三步搜索法函数。运行主程序,调用三步搜索法进行仿真。图3-12参考帧选取其中的一帧图像作为参考帧,如图3-12所示,选取之后的第9帧作为当前帧,即要预测的图像,如图3-13所示。图3-13当前帧图3-14两帧差值图3-15运动补偿预测残差运行程序进行仿真,得到仿真结果两帧差值如图3-14所示,以及运动补偿预测残差如图3-15所示。这样,我们在保存的时候只需要保存预测残差,大大节约了保存空间。实验结果表3-l、3-2、3-3、3-4分别给出了对News,Table\nTennis,Coastguard、Container几种经典运动估计算法仿真的实验结果。搜索点数是平均每个宏块在搜索区域内搜索到最佳匹配SAD点所需要搜索的次数,PSNR值是在100帧内PSNR的平均值。表3-1各算法对News序列的性能比较算法平均搜索点数PSNRFS22537.01TSS2536.98NTSS17.1936.99FSS17.0636.97DS13.1136.99HEXBS11.0636.96表3-2各算法对TableTennis序列的性能比较算法平均搜索点数PSNRFS22529.09TSS2528.13NTSS21.9528.39FSS19.4228.18DS17.0528.59HEXBS13.2128.18表3-3各算法对Coastguard序列的性能比较算法平均搜索点数PSNRFS22530.93TSS2530.80NTSS19.7530.90FSS17.8330.81DS14.3130.86HEXBS11.7630.75表3-4各算法对Container序列的性能比较算法平均搜索点数PSNRFS22543.67TSS2543.67NTSS17.0543.67FSS17.0243.67DS13.0343.67HEXBS11.0243.67实验结果分析\n在表3-1到表3-4的实验数据中,PSNR代表的是搜索的精度,也就是搜索的准确性,它反映图像的编码质量,PSNR越大,搜索的精度也就越高,视频序列编码的质量就越好,视频编码损失的细节信息就越小。而平均搜索点数代表的是搜索的速度。搜索点数越多,运算量就越大,占用的运算时间就越长,运算速度就越慢,故在研究搜索方法时必须对算法的运算速度和精度权衡考虑。从实验数据上看,全搜索法FS的PSNR值最高,也就是搜索精度和恢复图像的质量最高,搜索的精确性最好,但对应的高质量是以高的搜索点数为代价的,运算复杂度很高。而三步搜索法TSS算法与FS相比搜索点数已经大幅度下降,但PSNR也会随之下降。新三步搜索法NTSS是在TSS的基础上改进的,但搜索点数明显要比TSS少,而PSNR基本相当,甚至略好,在运动剧烈的视频序列如TableTennis中,PSNR值比TSS的明显要高,恢复图像的质量略有提高。新三步搜索法NTSS的这些优点主要是利用了运动矢量或者说最佳SAD匹配点总是高度集中在搜索区域的中心位置这一特性得到的。四步搜索法FSS和三步搜索法TSS相比,PSNR相差无几,但FSS的搜索点数要少一些。四步搜索法FSS相比三步搜索法TSS在某种意义上能同时在PSNR和搜索点数上能得到提高,是一种非常高效的快速搜索算法。菱形搜索法DS算法相对三步搜索法TSS算法来说,其基于运动矢量最优分布规律的搜索模板使得其性能有较大的提高,尤其是对于非剧烈运动的序列。DS的平均PSNR要高于TSS,而且DS的搜索点数要明显比TSS少。菱形搜索法DS采用了大小两个搜索模板,大模板可以很快地对搜索范围进行粗定位,使搜索范围不至于陷入局部最小,提高PSNR值;小模板可以对最佳的SAD点进行精确定位,减少搜索点的起伏。\n六边形搜索法HEXBS与菱形搜索法DS相比,虽然搜索点数下降,但相应的PSNR值也略有下降,恢复图像的质量不如DS算法。通过对仿真结果的分析,可知:菱形搜索法在性能上相对其他传统的搜索方法而言有很大的提高,是一种在搜索速度和搜索质量上有很好的平衡的一种算法。所以本文在深入分析和研究菱形算法的基础上,对算法进行改进与实现。3.4本章小结本章介绍了运动估计的思想,着重分析了块匹配运动估计的原理,基于本设计采用的是块匹配运动估计算法的考虑,本章对块匹配运动估计的几项重要的技术指标分块的大小,匹配准则,搜索范围,估计精度\n的确定进行了重点讨论,最后对几个典型的块匹配搜索算法在搜索速度、计算量、匹配质量、硬件实现难易等方面的性能进行了分析比较。结束语基于块匹配的运动估计快速算法作为视频编码的重要技术,一直以来都被各个视频编码国际标准采纳为帧间编码的主要技术,也一直都是相关领域的研究热点,而且近年来国际上不断有优秀的算法出现。视频图像的运动估计涉及到的研究内容很广泛,它是计算机视觉领域的一个基本问题,也是数字视频处理的一个核心问题,同时也是一个复杂和困难的问题,因为运动目标的运动状态是多种多样的,一个特定的应用场合和需求直接决定了运动估计所涉及到的不同算法及其实现方式。近年来,快速的块匹配运动估计算法在理论研究和实践应用中得到了不断的发展和完善。尽管通过这几年的研究,这类算法已经达到了一个很高的水平,但是运动估计模块作为视频编码中占用资源最多、耗时最长的部分这一现实并未改变,它仍然是进行高质量、复杂实时编码的瓶颈。因此,能否找到新的突破点使得在保证一定搜索质量的前提下继续提高搜索速度成为了这类算法能否取得更大发展的关键。本文的工作重点就是对基于块匹配的运动估计快速算法进行深入的研究。全面总结和分析现有经典快速算法,比较各种算法的优虐。4.1本文工作总结本文的主要研究和工作包括一下几个方面:l介绍了课题的研究背景与意义以及视频压缩技术2阐述了基于块匹配的运动估计的基本原理3详细介绍了全搜索法和几种典型的块匹配运动估计快速算法,分析了它们各自的技术特点,通过实验数据定量地评价了各算法的优缺点。\n在深入研究和分析了运动估计原理的基础上,对目前较常见的块匹配搜索算法,如全搜索法、三步搜索法、新三步搜索法、四步搜索法、菱形搜索法、六边形搜索法进行了全面详细的分析并总结了各种算法的特点和存在的问题,通过仿真实验验证比较了它们的搜索性能。4.2研究展望由于研究时间的有限,文中对运动估计算法还有待更深刻的理解,对搜索算法的研究还需要做进一步的研究:l文中的搜索算法是在块匹配的基础上进行研究的,搜索的精度理论上最高能达到1个像素的精度。实际的宏块中,有可能运动矢量不是整数个像素单位,需要研究针对亚像素精度的搜索法;2目前常采用PSNR值作为验证搜索法的搜索精度,由于PSNR计算的复杂性,在实际的仿真测试中,存在着PSNR计算精度不高的问题;同时,由于PSNR最终反映的是视频序列的整个编码性能,当存在部分宏块的搜索精度高而部分又很低时,平均的PSNR将趋于一致,无法确切反映算法的搜索精度。对搜索算法的精度的验证条件还需要做深入的理论和实际的研究;3由于块匹配法固有的缺陷,对物体边缘、纹理等区域的估计性能较差,今后的工作中可以将特征识别方法与块匹配法相结合,增强块匹配法对特征区域的搜索性能。\n致谢首先特别感谢我的导师王蕊老师。在论文的选题、设计等研究方面王老师给予了我极大的帮助和悉心的指导。王老师严谨的治学态度和科学的工作方法给了我极大的帮助和影响。其一丝不苟的工作作风和平易近人的高尚品德教会了我如何为人处事。同时我也要感谢我的同学向欣、吕延森,他们在我的研究过程中给我很大的帮助和支持,从他们那里我学到很多知识。感谢同课题组的胡旭、何娱等同学。与他们愉快的合作、广泛而深入的讨论是我顺利完成课题的基础。另外,向所有帮助过我,关心过我的老师、同学和朋友们表示最衷心的感谢。最后,谨以此文献给我的父母,感谢他们一直以来的关心,在他们的支持下,我才能专心完成我的学业,完成我的研究工作,他们是我永远的精神支柱。\n参考文献[1]欧阳合,韩军.视频编解码器设计-开发图像与视频压缩系统[M].国防科技大学出版社,2005年[2]王金明.数字系统设计与VerilogHDL[M].电子工业出版社,2008年[3]唐泽鹏,秦雷,与数字视频.2001.141016-19[4].DisplaeementMeasurementandItsApplicationinInterframeImageCoding.IEETransCorn.Vol-:1799-1808[5]R.Li,B.Zeng,.ANewThree-stepSearehAlgorithmforBloekMotionEstimation.IEEETransCircuitsSystVideoTee.VOI.4:438-442[6]L.MPo,.AnovelFour-stepSearehAlgorithmforFastBloekMotionEstimation.IEEETransCircuitsSystVideoTee.VOI.:313-317[7]刘海峰,郭宝龙.基于块匹配运动估计的菱形.257:747-752[8]ng,.ANovelCross-DiamondSearehAlgorithlnforFastBloekMotionEstimati-on.IEEETransCircuitsSystVideoTechnol.Dec.2002..12:1168-1177[9]刘峰.视频图像编码技术及.78-90[10]Lee.O,YWAng.MotionComPensatedPredictionUsingNodalBasedDeformableBloekMatching.JournalofVisualCommunieationsandImageRePresenta.26-34[11]S.Zhu,.ANewDiamondSearchAlgorithmforFastBloekmatehingMotioestimation.IEEETranshnageProees.-290[12]ToruapisAM,LiouML.PredietiveMotionVeetorFieldAdaptive\nSearchTeehnique-EnhaneingBlockBasedonMotionEstimarion.VisualCommunieationsandImageProees-892西南交通大学本科毕业设计论文第I页西南交通大学本科毕业设计论文第IV页西南交通大学本科毕业设计论文第40页
查看更多

相关文章

您可能关注的文档