一种基于机器学习的3D-HEVC深度图编码单元划分快速决策方法与流程

文档序号：21407617发布日期：2020-07-07 14:41阅读：181来源：国知局

本发明涉及基于3d-hevc的视频编码技术，具体涉及一种3d-hevc编码中基于机器学习的深度图编码单元划分快速决策方法
背景技术：
：随着计算机多媒体技术的兴起，电影、电视等方面的视频技术不断发展和完善，数字视频技术已经成为现代学术界和工业界的研究热点。三维视频不仅给人们感官上带来更高的体验感，而且也具有较为广泛的应用前景，如医学、教育等领域。为了满足用户对于观看舒适度和观看自由度的需求，3d视频应用设备也逐步向能提供更多视点数量的方向发展，比如自动立体显示器(autostereoscopicdisplay)和自由视点电视(freeviewpointtelevision)，使得用户可以自己选择某一视点位置进行观看。因此，这类3d视频应用需要一种特殊的三维视频格式，使得播放端可以绘制出一组连续的视点或者非常多数量的不同视点。包含多个纹理视频序列和对应的多个深度图像序列的多视点视频加深度(multi-viewvideoplusdepth,mvd)[1]格式应运而生(编码端)，该格式本身包含2～3个视点，因此解码端可以在这些已有的视点之间合成多个新的虚拟视点，能提供视点范围更广的多视点视频序列。mvd格式是目前表征三维视频最有效的表现形式，它在多视点纹理图的基础上引入了多视点深度图，因此可以在原有的视点之间合成新的虚拟视点，提供更为舒适和自由的立体视觉观感。国际三维视频编码联合工作组jct-3v已于2015年2月颁布了基于hevc[2]的三维视频编码扩展标准3d-hevc[3]，旨在提高mvd格式的压缩效率。由于深度图的内容特征区别于纹理图，需要采取有效的深度图编码技术才能保证深度图的编码质量，从而保证虚拟视点质量，并且利用纹理图与深度图之间的相关性实现三维视频的高效压缩，而3d-hevc在获得高效深度图编码性能的同时也带来了极高的编码复杂度。因此，为了满足三维视频高效传输和用户舒适观看的需求，如何采取有效的方法对三维视频中的深度图进行高质量和高效率的编码是3d视频处理技术中面临的新挑战。图1所示的是3d-hevc标准下3d视频编码器的基本结构图，需要进行编码的三维视频包括三个视点的纹理图和对应的三个视点的深度图。3d-hevc编码中的深度图表示的是场景中目标物体的深度信息(物体与摄像机之间的距离远近)，从本质上讲，深度图就是一种灰度图像，通过普通的灰度图压缩方式就可以进行编码。对于3d-hevc来说，关注深度图的编码特性，将有利于提高深度图的压缩率和保持深度图的质量，为视点合成提供保障，带来更好的三维视觉感受。3d-hevc深度图编码中，其最大编码单元同hevc一样，为编码树单元(codingtreeunit，ctu)[4]，待编码帧可以被划分为若干个ctu，其尺寸可以被编码器配置为64×64，32×32或16×16，默认大小为64×64。根据图像帧自身的特征，ctu可以进一步基于四叉树结构向下划分成多个编码单元(codingunit,cu)，如图2所示。cu是进行预测编码、变换、量化和熵编码等处理的基本单元，其尺寸可以在64×64，32×32，16×16和8×8间灵活选择，对应编码深度为0，1，2和3。3d-hevc的四叉树编码结构支持将每个cu递归划分为4个相等大小的子cu(cu尺寸可选范围:64×64～8×8)，直至达到四叉树的最大深度(depth＝3)。在编码过程中，需要以深度优先的方式和z扫描的顺序依次遍历完整四叉树中的每个节点(即ctu中的每个cu)；并计算其对应的率失真代价值(rate-distortioncost,rdcost)，进一步通过比较每个父cu与其对应的4个子cu间的rdcost，确定rdcost最小的cu划分组合(若父cu的rdcost小于4个子cu的rdcost之和，则保留父cu；若前者大于后者，则保留4个子cu)，将其作为最终的ctu划分结果。先进的四叉树划分结构在提高编码性能的同时也不可避免的造成了编码复杂度的急剧增加。同样的四叉树划分过程同时应用在纹理视频和深度图编码过程中。深度图相比于纹理图，其特点表现为图中存在着大量的平坦区域以及锐利的边缘信息，而平坦区域采用64×64尺寸编码块，即depth＝0的编码概率很大，对于复杂纹理的编码块进而用到32×32，16×16，8×8，即depth＝1，depth＝2，depth＝3这几种分割。同时，在不同qp配置下，编码单元尺寸划分也存在一定规律，qp值越大，选择大尺寸cu的概率越大，反之，则选择小尺寸cu的概率越高，如图3所示。如果每个编码块都要遍历完整的四叉树划分过程，无疑大大增加了编码复杂度，因此，如果能够根据不同区域的特性进行当前cu是否继续分割的提前判决，在一定程度上可减少计算开销，从而缩短编码时间。附：参考文献[1]mullerk,merklep,wiegandt.3-dvideorepresentationusingdepthmaps[j].proceedingsoftheieee,2011,99(4):643-656.[2]sullivangj,fellow,ieee,etal.overviewofthehighefficiencyvideocoding(hevc)standard[j].ieeetransactionsoncircuitsandsystemsforvideotechnology,2013,22(12):1649-1668.[3]techg,cheny,mullerk,etal.overviewofthemultiviewand3dextensionsofhighefficiencyvideocoding[j].ieeetransactionsoncircuitsandsystemsforvideotechnology,2015,26(1):35-49.[4]kimik,minj,leet,etal.blockpartitioningstructureinthehevcstandard[j].ieeetransactionsoncircuitsandsystemsforvideotechnology,2012,22(12):1697-1706.技术实现要素：本发明的目的在于，针对基于hevc的3d视频编码标准3d-hevc中深度图编码单元四叉树划分方法计算复杂度高的问题，提出了一种基于机器学习的深度图编码单元划分快速决策方法，在保证视频成虚拟视点质量的前提下，有效降低编码复杂度，提高编码效率，缩短编码时间。为解决上述技术问题，本发明采取的技术方案为：一种基于机器学习的深度图编码单元划分快速决策方法，该算法首先利用数据挖掘的手段，获取与cu划分相关的特征量，其次利用机器学习来关联与cu划分相关的属性，从而针对不同大小的cu构建xgboost(extremegradientboosting，极限梯度提升)决策模型，最后ctu编码过程中，对当前cu是否继续划分进行预判，从而跳过某些不必要的编码深度下的模式选择及率失真代价计算等过程，从而有效地降低编码复杂度。本发明的技术方案流程如图4所示。本发明的方法包含如下步骤：s1判断当前cu是否属于为深度图，如为深度图继续进行步骤2，若为纹理图则进行传统的编码过程；s2进行与编码单元划分相关的数据提取和特征量筛选：s2.1：特征量获取：选择具有不同特征的视频序列进行编码以获得更令人信服的数据集。数据集包括newspaper(前景和背景纹理都很复杂)，dancer(仅前景发生变化，而背景纹理平坦且固定)和gt-fly序列(前景和背景都有深度变化)。为了防止由相邻帧和重复的cu样本的相似性引起的数据不平衡，以进行模型训练，我们在每个序列中提取10个样本帧进行编码，以framesampleratio＝8，同时针对不同大小的cu(64×64，32×32，16×16)分别提取特征量及对应的cu是否划分标志构建数据集。实验选取的特征量见表1，其中n为当前编码单元边长，p(i,j)为(i,j)位置的像素值，mean表示当前cu的平均像素值。表1特征量属性g0,g45,g90和g135分别为当前编码单元pu中各像素点水平、45度角、垂直、和135度角方向的边缘梯度分量，p为像素点的亮度值s2.2：将获得的数据集用作训练样本，并对不同的cu深度根据公式(6)～(8)执行基于f-score的特征重要性排序。计算出的f-score值越大，此特征属性对cu划分结果的重要性就越高。图5展示了不同cu大小下各种属性的f-score。tp(真阳性):正样本被正确预测为正样本；fp(假阳性):负样本被错误预测为正样本；tn(真阴性):负样本被正确预测为负样本；fn(假阴性):正样本被错误预测为负样本；β是用来平衡precision,recall在f-score计算中的权重,取值情况有以下三种:如果取1,表示precision与recall一样重要；如果取小于1,表示precision比recall重要；如果取大于1,表示recall比precision重要。在本实验中β取1。s2.3：根据特征量重要性排序，针对不同大小的cu选取各自的特征量子集构建模型训练数据集。特征量选取如表2所示。表2各cu特征量子集cu大小特征量子集cu＝64nmse,var,avs,ccu＝32nmse,qp,avs,c,var_max,varcu＝16qp,nmse,c,avs,vars3基于xgboost的cu划分决策模型训练s3.1：针对不同大小的cu进行模型参数调整。s3.2：针对不同大小的cu构建基于xgboost的划分决策模型。s4模型嵌入：将训练好的决策模型嵌入到htm-16.0编码平台中。在深度图编码过程中，针对不同大小的cu调用各自的划分决策模型，进而得到编码单元的最优划分结果。附图说明图1是3d-hevc标准下的三维视频编码器结构。图2是四叉树编码结构示意图。图3是深度图中各cu大小在不同qp配置下的分布情况。图4是本发明方法的流程图。图5是不同cu大小的各特征属性f-score值。具体实施方式以下结合附图对本发明作进一步详细阐述。本发明针对基于hevc的3d视频编码标准3d-hevc中深度图编码过程计算复杂度高的问题，提出了一种基于机器学习的3d-hevc深度图编码单元划分快速决策方法，在保证视频成虚拟视点质量的前提下，有效降低编码复杂度，提高编码效率，缩短编码时间。本发明方法的具体步骤如下：步骤一：判断当前cu是否属于为深度图，如为深度图继续进行步骤2，若为纹理图则进行传统的编码过程；步骤二：进行与编码单元划分相关的数据提取和特征量筛选：2.1：特征量获取：选择具有不同特征的视频序列进行编码以获得更令人信服的数据集。数据集包括newspaper(前景和背景纹理都很复杂)，dancer(仅前景发生变化，而背景纹理平坦且固定)和gt-fly序列(前景和背景都有深度变化)。为了防止由相邻帧和重复的cu样本的相似性引起的数据不平衡，以进行模型训练，我们在每个序列中提取10个样本帧进行编码，以framesampleratio＝8，同时针对不同大小的cu(64×64，32×32，16×16)分别提取特征量及对应的cu是否划分标志构建数据集。实验选取的特征量见表1。表1特征量属性g0,g45,g90和g135分别为当前编码单元pu中各像素点水平、45度角、垂直、和135度角方向的边缘梯度分量，p为像素点的亮度值2.2：将获得的数据集用作训练样本，并对不同的cu深度根据公式(6)～(8)执行基于f-score的特征重要性排序。计算出的f-score值越大，此特征属性对cu划分结果的重要性就越高。图5显示了不同cu大小下各种属性的f-score。tp(真阳性):正样本被正确预测为正样本；fp(假阳性):负样本被错误预测为正样本；tn(真阴性):负样本被正确预测为负样本；fn(假阴性):正样本被错误预测为负样本；β是用来平衡precision,recall在f-score计算中的权重,取值情况有以下三种:如果取1,表示precision与recall一样重要；如果取小于1,表示precision比recall重要；如果取大于1,表示recall比precision重要。在本实验中β取1.2.3：根据特征量重要性排序，针对不同大小的cu选取各自的特征量子集构建模型训练数据集。特征量选取如表2所示。表2各cu特征量子集cu大小特征量子集cu＝64nmse,var,avs,ccu＝32nmse,qp,avs,c,var_max,varcu＝16qp,nmse,c,avs,var步骤三：基于xgboost的cu划分决策模型训练3.1：针对不同大小的cu进行模型参数调整。3.2：针对不同大小的cu构建基于xgboost的划分决策模型。步骤四：模型嵌入：将训练好的决策模型嵌入到htm-16.0编码平台中。在深度图编码过程中，针对不同大小的cu调用各自的划分决策模型，进而得到编码单元的最优划分结果。为了对算法的可行性和有效性进行验证，本文在3d-hevc测试平台htm-16.0上进行实验，采用全帧内编码配置文件进行编码。本实验选取分辨率为1024×768的balloons、kendo、newspaper1序列以及分辨率为1920×1088的gt_fly、poznan_street、undo_dancer、shark序列。测试序列具体参数见表3。实验的硬件配置及编码参数见表4。表3视频序列参数表4实验配置参数依照公布的3d-hevc的测试标准对3d-hevc标准编码方法和引入基于机器学习的编码单元快速决策方法进行比较。etr(encodingtimereduction)表示与原始htm16.0测试平台相比，本文算法所能节省的时间百分比，计算公式如式(9)所示。在有效降低编码复杂度的同时，还需要保证各个视点视频编码质量以及合成视点的视频质量。因此，还需要对使用原始编码方法和本发明方法编码后的纹理视频和合成视点视频的质量进行比较。结果如图表5所示，其中videopsnr/totalbitrate(简称v/t)表示编码后的视频峰值信噪比(peaksignal-to-noiseratio,psnr)与总比特率的bd-rate的比值；synthpsnr/totalbitrate(简称s/t)表示合成视点的psnr与总比特率的bd-rate的比值。从表5中可看出，与原始的3d-hevc标准编码方法相比，本发明方法在保证较好的视频质量的前提下，可以较好的降低深度图编码的计算复杂度。从而证明本发明方法在3d-hevc深度图编码的准确、高效方面具有先进性。表5本发明方法与标准编码方法的编码性能比较结果(％)sequencesv/ts/tetrballoons-0.07％0.24％42.64％kendo-0.07％1.01％43.58％newspaper-0.18％1.06％45.26％gt_fly-0.08％-0.17％49.35％poznan_street-0.12％0.14％39.91％undo_dancer-0.05％0.65％45.87％shark-0.28％-0.36％38.06％1024x768-0.10％0.77％43.82％1920x1088-0.13％0.07％43.30％average-0.12％0.37％43.52％当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：贾克斌;张儒依;刘鹏宇;孙中华
技术所有人：北京工业大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。