一种高效感知视频编码优化方法与流程

文档序号:19221371发布日期:2019-11-26 02:09阅读:300来源:国知局
一种高效感知视频编码优化方法与流程
本发明涉及视频编码领域,尤其是涉及一种高效感知视频编码优化方法。
背景技术
:随着大数据时代的来临和移动智能设备的普及,越来越多的人在腾讯视频、优酷土豆、爱奇艺等视频资源网站上在线观看视频,或在虎牙直播、映客直播等视频直播网站上分享自己的生活。而随着在线视频的数量和在线视频用户的数量急剧上升,如何高效编码、传输、解码视频成了一个巨大的挑战。2013年初,新一代视频编码标准——高效视频编码标准(highefficiencyvideocoding,hevc)的提出较前一代视频编码标准h.264/avc节省了至少一倍的码率。hevc标准中灵活的编码结构、编码技巧同时也带来了大量模式选择的问题。在模式、参数选择当中,编码代价小的模式或参数才是理想的模式或参数。编码代价主要研究的是视频质量和编码比特数的权衡关系。传统视频编码使用客观视频质量评价作为视频失真的测量,而视频或图像最终的接收端是人眼,人类视觉系统(humanvisualsystem,hvs)在评价视频失真上和客观视频质量评价标准并不总是完全相符。为此,基于hvs特性的主观视频质量成为了多媒体领域中一个热门的研究方向之一。而在视频编码中,当基于客观视频质量评价标准的研究达到一定高度和瓶颈时,将主观视频质量评价标准引入整个hevc编码框架中成为了提升编码效率中的一个新颖且高效的方式。通常来说,感知视频编码的研究可以分为两大类。第一类是对图像、视频进行预处理。即在编码之前先使用预处理算法处理待编码的图像、视频。预处理方式会首先识别出待编码图像或帧中人眼敏感的区域和非敏感的区域,对待非敏感区域,通常会使用滤波器去除高频信息部分,仅保留相对重要的低频信息,即识别出视觉显著的感兴趣区域(regionsofinterest,roi),在基本保留符合人眼视觉特性的信息前提下,尽量减少编码量。这类方法的好处是和编码器类型无关、通用性好、可移植性强,同时,这类方法仅仅考虑了预处理过程的特性,而忽视了编码器端的特性。另一类则是直接作用在编码器端和解码器端的算法。比如最直接的方式就是重新定义视频质量衡量标准来模拟hvs的特性。常见的有结构性相似性指数(structuralsimilarityindex,ssim)及其衍生的优化算法。然而,ssim系列的算法衡量的是两幅图像在结构上的相似性,研究的是图像级别的失真,而忽略了细颗粒度的图像信息。技术实现要素:本发明的目的在于克服上述现有技术存在的缺陷而提供一种高效率、高鲁棒性的基于感知权值均方差的高效视频编码优化方法及编码方法,通过消除视频信息中的感知冗余来进一步提高已有的视频压缩标准的编码效率。本发明的目的可以通过以下技术方案来实现:一种高效视频编码优化方法,该方法以感知失真作为客观失真衡量指标优化hevc编码器,包括以下步骤:1)建立基于hvs特性的感知失真模型;2)基于所述感知失真模型拟合获得感知失真所对应的码率,进而推导lambda算子,建立基于感知失真的率失真模型;3)基于所述基于感知失真的率失真模型优化hevc编码器的编码参数。进一步地,所述步骤1)中,利用在时间域、空间域上的视频背景掩蔽调制效应建立基于hvs特性的感知失真模型。进一步地,所述基于hvs特性的感知失真模型表示为:其中,msef表示滤波后的均方差,α、β表示常数参数,rt表示时间域上的混乱度,rs表示空间域上的混乱度。进一步地,所述步骤2)中,构建基于感知失真的率失真模型具体包括:201)根据基于hvs特性的感知失真模型获得每个量化区间内的失真模型;202)通过数据拟合,获得每个量化区间内感知码率模型;203)建立lambda算子自适应计算模型;204)基于步骤201)-203)构建基于感知失真的率失真模型。进一步地,所述每个量化区间内的失真模型表示为:其中,q表示量化参数,α、β表示常数参数。进一步地,所述每个量化区间内感知码率模型表示为:其中,σ、ω为常数参数,θ=β·ln12。进一步地,所述lambda算子自适应计算模型表示为:进一步地,在计算当前帧的编码参数时,同时利用先前的信息,即:其中,σn、ωn为第n帧的编码参数,σn-1、ωn-1为第n-1帧的编码参数,为调整后的第n帧的编码参数,η表示先前信息的权重:其中,y表示常数参数。与现有技术相比,本发明具有如下有益效果:一、高鲁棒性与普适性:本发明通过基于hvs特性的感知失真模型的定义及数据拟合获得基于所述感知失真的率失真模型,所使用的高效视频压缩标准(hevc)下的官方视频序列数据集内容广泛丰富,保证了样本间各项特征的充分差异性。二、高编码效率:本发明对hevc编码器进行优化,优化后的hevc编码器具有较高的编码效率。本发明考虑细颗粒度的图像信息,在图像块级别上实现编码优化。实验中从客观码率节省和主观质量评价两个方面进行评估,在hevc官方视频序列数据集上均表现优良,在随机存取模式和低延迟模式下平均分别可以节省20.39%和30.19%的码率,且编码后的视频的主观质量无可察觉性下降,超过同类其他方法。附图说明图1为本发明的流程示意图;图2为算法一、总算法在不同qp下的主观实验的z值,其中,(2a)为qp=22下算法一的z值,(2b)为qp=22下总算法的z值,(2c)为qp=27下算法一的z值,(2d)为qp=27下总算法的z值,(2e)为qp=32下算法一的z值,(2f)为qp=32下总算法的z值,(2g)为qp=37下算法一的z值,(2h)为qp=37下总算法的z值。具体实施方式下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。如图1所示,本发明提供一种高效视频编码优化方法,该方法以感知失真作为客观失真衡量指标,在hevc框架下提出一个基于感知权值均方差(perceptuallyweightedmeansquarederror,pwmse)的高效视频编码优化技术,并逐帧优化hevc编码器的编码参数。该方法包括以下步骤:1)利用在时间域、空间域上的视频背景掩蔽调制效应,建立基于hvs(人眼视觉系统,humanvisualsystem)特性的感知失真模型;2)基于所述感知失真模型拟合获得感知失真所对应的码率,进而推导lambda算子,建立基于感知失真的率失真(rate-distortionoptimization,rdo)模型;3)基于所述基于感知失真的率失真模型优化hevc编码器的编码参数。步骤1)中,对即将编码的视频帧的失真图像用一个低通滤波器处理以模拟视觉信号处理过程,计算得到基于hvs特性的感知失真,具体包括以下步骤:11)设计频域上的对比敏感度函数(contrastsensitivityfunction,csf),量化hvs对初始视觉信号处理的过程,模拟人眼对不同位置失真的感知能力,量化hvs对初始视觉信号处理:h(f)=(a+b·f)e-c·f其中,f表示频域上的信息,a、b、c表示常数参数,e表示自然常数;12)针对每个执行dct变换的单元(transformunit,tu)进行滤波:其中,ci表示dct变换前的系数,h表示变换滤波器,表示dct变换后的系数;将原有的mse经过步骤11)、12)的滤波得到msef。13)定义时间域上的混乱度,衡量视频背景的掩蔽效应:其中,h、w分别表示图像的高度和宽度,p(i,j)、o(i,j)分别表示预测图像和原始图像在(i,j)的像素值;14)定义空间域上的混乱度,衡量视频背景的掩蔽效应:其中,表示块内像素的平均值;15)基于11)、12)、13)、14)的结果,建立符合人眼对失真的直观感受的失真模型:其中,msef表示滤波后的均方差,α、β表示常数参数。所述步骤2)中,通过数据拟合构建基于感知失真的率失真模型,建立lambda及率失真计算公式。率失真优化技术在视频编码中主要担当编码控制的角色,其本质是编码参数选择优化技术。不同的编码参数可以得到不同的率失真性能,最优编码方案就是在编码系统定义的所有编码参数中使用能够使系统性能最优的参数值,而率失真优化便是基于率失真优化理论选择最优的编码参数。在hevc编码方案中,将这一约束问题,利用拉格朗日优化方法转化为一个等价的无约束问题:minj,j=d+λ·r其中,j为率失真代价,d为采用某种编码参数编码所产生的失真,r为相应编码参数编码需要的码率,λ为拉格朗日乘数,基于已编码帧的率失真进行计算,取率失真代价最低的编码参数为最优编码参数。步骤2)具体包括以下步骤:21)基于数据拟合推导出新提出的pwmse失真模型和码率之间的关系:22)推导每个量化区间内时间域上的混乱度:23)推导每个量化区间内空间域上的混乱度:24)推导每个量化区间内的新提出的pwmse失真模型,其中q表示量化参数:定义,θ=β·ln1225)根据感知失真-码率数据拟合出每个量化区间内感知码率模型:其中,σ、ω为常数参数,由最早编码的视频帧计算得出;26)设计lambda算子自适应计算模型:dprop、rprop、λprop代入公式j=d+λ·r,进行编码参数。在实际视频编码时,先进行两帧编码,之后就能通过这两对率失真值采用步骤21)中的公式计算下一帧的参数ω1和σ1,而计算出来的参数就可以应用在下一帧的编码中。同样的,可以计算出ω2,ω3,...,ωn和σ2,σ3,...,σn。同时,为了减轻场景切换或者i帧与非i帧切换对参数计算带来的剧变效应,在计算当前帧的参数时,同时利用了先前的信息,即参数η表示先前信息的权重:为了验证本发明方法的性能,设计了以下实验。在hevc官方视频序列公开数据集上应用本方法进行感知编码,其中测试序列包含416×240、832×480、1280×720、1920×1080四种分辨率且序列长度为100帧的16种视频,视频编码配置包括了randomaccess和lowdelay,参与实验的算法有2种,包括算法一(只包含了滤波,即只计算到了公式12))和总算法,参考方法为官方原始hm模型提供的编码方法,在给定的四个常用测试量化参数(22,27,32,37)条件下进行实验,采用如公式(1)的码率节省和如公式(2)的δpwmse值作为评价标准。结果如表1-表17所示,在感知失真下降的可接受的范围内,总算法对编码效率的优化显著优于算法一,并且,总算法随机存取(randomaccess)模式和低延迟(lowdelay)模式下都能有效地节省了编码比特率。δpwmse=pwmseprop.-pwmseanc.(2)其中,pwmseanc.和banc.分别代表使用hevc标准编码器时得到的pwmse值和比特率,pwmseprop.和bprop.则代表使用本发明编码视频时得到的pwmse值和比特率。表1hevc官方测试序列数据集编号视频序列分辨率abqterrace1920×1080bcactus1920×1080ckimono1920×1080dparkscene1920×1080ebasketballdrill832×480fbqmall832×480gpartyscene832×480hracehorses832×480ibasketballpass416×240jblowingbubbles416×240kbqsquare416×240lracehorses416×240mfourpeople1280×720njohny1280×720ovidyo11280×720pvidyo31280×720表2ra模式下1920×1080分辨率节省的bitrate表3ra模式下832×480分辨率节省的bitrate表4ra模式下416×240分辨率节省的bitrate表5ra模式下1280×720分辨率节省的bitrate表6ld模式下1920×1080分辨率节省的bitrate表7ld模式下832×480分辨率节省的bitrate表8ld模式下416×240分辨率节省的bitrate表9ld模式下1280×720分辨率节省的bitrate表10ra模式下分辨率1920×1080的δpwmse表11ra模式下分辨率832×480的δpwmse表12ra模式下分辨率416×240的δpwmse表13ra模式下分辨率1280×720的δpwmse表14ld模式下分辨率1920×1080的δpwmse表15ra模式下分辨率832×480的δpwmse表16ra模式下分辨率416×240的δpwmse表17ra模式下分辨率1280×720的δpwmse进一步,本发明做了一系列的主观实验来验证所提出的算法的有效性。每一个视频类中随机选取两个视频序列作为代表,因此,总共共有八个视频序列用于主观实验测试中,包括kimono1,parkscene,bqmall,partyscene,racehorses,basketballpass,vidyo1和vidyo3。总共共有20名测试者参与了本次测试。重构的视频序列分别有两个优化算法产生,分别是算法一和总算法。编码视频总共涵盖四个编码参数,22、27、32和37。衡量标准采用主观多媒体视频质量衡量标准(subjectiveassessmentofmultimediavideoquality,samvq)。具体来说,同一个源视频产生的一对视频序列(一个是通过hevc编码器编码生成的标准视频,另一个是相应的优化算法编码生成的视频)在屏幕上以随意的顺序播放,并且每次实验的实验时间不能超过30分钟。接着,测试者被要求评估每一个视频的质量,并打出分数,这些分数是连续的。最终的数据会利用z检验来判断优化算法处理后的视频与原视频之间是否存在着显著差异。具体来说,首先建立假设,假设优化算法处理后的视频与原视频之间不存在显著差异,即对优化算法处理视频的分数与被标准编码器编码后重构的视频的分数之间没有显著差异。其次,针对算法j,设测试者i对视频k打的分数为uijk,则针对算法j下视频k的被打出的平均分为n表示测试者的人数。针对标准编码器重构出的视频k的被打出的分数uiok的平均分为接着,计算z值其中,其中,标准差sjk可以由下式计算,sok同理。最后,且取置信水平为95%,比较计算出来的z值和阈值1.96的关系。当z值小于阈值时,对应的视频可以被认为和标准编码器重构出来的视频没有明显差别。由莫斯科州立大学图像多媒体实验室所开发的msu感知视频质量工具被用来实现本次主观实验,具体测试视频如下:表18视频编号编号视频序列分辨率1kimono1920×10802parkscene1920×10803bqmall832×4804partyscene832×4805basketballpass416×2406racehorses416×2407vidyo11280×7208vidyo31280×720数据如图2所示,虚线标注的是阈值1.96。从图2可以直观看出,各优化算法处理视频的分数与被标准编码器编码后重构的视频的分数之间没有显著差异,这表明:经优化算法编码后的视频主观感知质量与标准编码器编码重构后的视频主观感知质量基本相同。以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本
技术领域
中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1