一种多媒体音量调节方法及系统与流程

文档序号：11216380阅读：1787来源：国知局

本发明涉及智能控制领域，特别是涉及一种多媒体音量调节方法及系统。

背景技术：

多媒体是多种媒体的综合，一般包括文本，声音和图像等多种媒体形式。目前对多媒体音量的控制常用的有两种方式：一是通过多媒体设备的音量按钮手动调节；二是通过遥控设备远程调节。相比于手动调节音量的方式，远程调节在一定程度上提高了便捷性。但是不同的多媒体设备需要特定的遥控设备才能进行操作，而且并不是所有的多媒体设备都可以采用遥控设备远程调节音量，例如，电脑的音量调节只能采用手动接触鼠标或键盘的机械交互模式；多媒体课堂中powerpoint展示，可以利用遥控设备进行页面的遥控操作，但是对于视频的音量或者其他多媒体的音量，只能通过鼠标进行调节。因此，现有的多媒体音量调节方式便捷性低。

技术实现要素：

本发明的目的是提供一种多媒体音量调节方法及系统，以提高多媒体音量调节的便捷性。

为实现上述目的，本发明提供了如下方案：

一种多媒体音量调节方法，所述方法包括：

获取用户手势的深度图像，所述深度图像包括所述用户手势中手部关节的空间坐标；

对所述深度图像进行手部目标区域的图像分割，获得分割后的目标区域图像；

根据所述目标区域图像，利用sobel算子进行手势边缘轮廓检测，提取边缘参数特征；

根据所述边缘参数特征利用dag-svms分类器获得手势分类结果；

根据所述手势分类结果调节多媒体的音量级别，不同的手势分类对应不同的音量级别。

可选的，所述获取用户手势的深度图像，具体包括：

根据用户手势，利用kinect摄像机获取所述用户手势的深度图像。

可选的，所述对所述深度图像进行手部目标区域的图像分割，具体包括：

根据所述深度图像绘制图像深度直方图；

根据所述直方图中深度值波谷确定多个待定阈值区间；

利用kinect骨骼追踪技术确定最终阈值区间；

根据所述最终阈值区间进行手部目标区域的图像分割，获得分割后的目标区域图像。

可选的，所述对所述深度图像进行手部目标区域的图像分割之前，还包括：

对所述深度图像进行二值化处理，获得处理后的深度图像。

可选的，所述边缘参数特征包括边缘参数特征hu矩和轮廓边缘参数特征长度矩，其中，

利用hu矩与长度矩的手势边缘特征作为数字手势图像的特征，提取边缘参数特征hu矩和轮廓边缘参数特征长度矩。

一种多媒体音量调节系统，所述系统包括：

深度图像获取模块，用于获取用户手势的深度图像，所述深度图像包括所述用户手势中手部关节的空间坐标；

图像分割模块，用于对所述深度图像进行手部目标区域的图像分割，获得分割后的目标区域图像；

边缘参数特征提取模块，用于根据所述目标区域图像，利用sobel算子进行手势边缘轮廓检测，提取边缘参数特征；

手势分类结果获取模块，用于根据所述边缘参数特征利用dag-svms分类器获得手势分类结果；

音量调节模块，用于根据所述手势分类结果调节多媒体的音量级别，不同的手势分类对应不同的音量级别。

可选的，所述深度图像获取模块为kinect摄像机，用于根据镜头前的用户手势，获取所述用户手势的深度图像。

可选的，所述图像分割模块，具体包括：

直方图绘制单元，用于根据所述深度图像绘制图像深度直方图；

待定阈值区间确定单元，用于根据所述直方图中深度值波谷确定多个待定阈值区间；

最终阈值区间确定单元，用于利用kinect骨骼追踪技术确定最终阈值区间；

图形分割单元，用于根据所述最终阈值区间进行手部目标区域的图像分割，获得分割后的目标区域图像。

可选的，所述系统还包括：

二值化处理模块，用于对所述深度图像进行手部目标区域的图像分割之前，对所述深度图像进行二值化处理，获得处理后的深度图像。

可选的，所述边缘参数特征包括边缘参数特征hu矩和轮廓边缘参数特征长度矩，所述边缘参数特征提取模块用于利用hu矩与长度矩的手势边缘特征作为数字手势图像的特征，提取边缘参数特征hu矩和轮廓边缘参数特征长度矩。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

整个调节过程只需要多媒体设备连接一个外设采集深度图像设备，就能够通过手势操作，实现对多媒体自身音量的大小的控制，控制过程采用生活中常见的数字手势，所以整个控制过程外部设备简单，可操作性强，便捷性高。并且改变了以往对于多媒体的音量只能沟通过手动接触鼠标键盘的机械交互模式，实现了人体手势对多媒体的中远程非接触式控制。

具体实施时，手势识别过程基于kinect带有的深度骨骼深度信息，避免了基于彩色信息识别过程中光照强度会给彩色信息带来的干扰，从而即使在亮度很低的情况下设备甚至黑暗条件下也能够对手势进行识别，降低手势识别过程中的外在环境限制；在数字手势算法中，通过改进dag-svms分类器的策略结构，达到识别算法的优化，提高了算法的识别精度，提高了整个交互系统的识别稳定性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明多媒体音量调节方法实施例1的流程图；

图2为本发明多媒体音量调节方法实施例1中获取的深度图像；

图3为本发明多媒体音量调节方法实施例1中绘制的直方图；

图4为本发明多媒体音量调节方法实施例1中分割后的目标区域图像；

图5a-5b为本发明多媒体音量调节方法实施例1中利用sobel算子检测前后对比图；其中图5a为检测前的图像，图5b为检测后的图像；

图6为本发明多媒体音量调节方法实施例1中手势分类结果图；

图7a-7e为本发明多媒体音量调节方法实施例1中所有手势的深度图像；

图8a-8e为本发明多媒体音量调节方法实施例1中所有手势的深度图像对应的分割图；

图9为本发明多媒体音量调节方法实施例1中所有手势的边缘参数特征图；

图10a-10e为本发明多媒体音量调节方法实施例1中所有手势对应的分类结果图；

图11为本发明多媒体音量调节方法实施例1中音量级别与手势分类对应图；

图12为本发明多媒体音量调节方法实施例2的流程图；

图13为本发明多媒体音量调节方法实施例2的分类结果图；

图14为本发明多媒体音量调节方法实施例2的音量调节示意图；

图15为本发明多媒体音量调节系统结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1：

图1为本发明多媒体音量调节方法实施例1的流程图。如图1所示，所述方法包括：

步骤101：获取用户手势的深度图像。深度图像包括所述用户手势中手部关节的空间坐标，如图2所示，图2为本发明多媒体音量调节方法实施例1中获取的深度图像；

例如，可以采用kinect摄像机获取用户手势的深度图像。kinect是一款3d体感摄影机，是微软在2009年6月2日的e3大展上，正式公布的xbox360体感周边外设。它是一种3d体感摄影机(开发代号“projectnatal”)，同时它导入了即时动态捕捉、影像辨识、麦克风输入、语音辨识、社群互动等功能。采用kinect摄像机作为深度手势图像采集的装置，对深度数字手势图像进行有效识别，兼顾在光照条件差的情况下，基于深度信息的手势分割，克服了基于普通rgb(红、绿、蓝)彩色图像采集设备给手势识别带来的环境限制。在手势图像采集过程中，首先设定手部平面始终与传感器(摄像机)平面保持平行，且位于身体最前部，采集深度图像有效。

步骤102：对深度图像进行手部目标区域的图像分割。对所述深度图像进行手部目标区域的图像分割，获得分割后的目标区域图像，具体过程为：

根据所述深度图像绘制图像深度直方图；图像深度直方图为依据图像深度绘制的直方图，包括深度图像中深度像素值的波峰与波谷的分布。如图3所示，图3为本发明多媒体音量调节方法实施例1中绘制的直方图；

根据所述直方图中深度像素值波谷确定多个待定阈值区间；

利用kinect骨骼追踪技术确定最终阈值区间，最终阈值区间为逼近目标的理想深度阈值区间；

根据所述最终阈值区间进行手部目标区域的图像分割，获得分割后的目标区域图像。如图4所示，图4为本发明多媒体音量调节方法实施例1中分割后的目标区域图像；

在图像分割之前，还可以对所述深度图像进行二值化处理，获得处理后的深度图像。手部目标区域像素点进行图像二值化处理。整个分割过程基于深度信息，有效避免了光照强度带来的干扰，保证了即使在外部亮度较低时也能够进行手势图像的识别。

步骤103：提取边缘参数特征。根据分割后的目标区域图像，利用sobel算子进行手势边缘轮廓检测，提取边缘参数特征。sobel算子即索贝尔算子：计算机视觉领域的一种重要处理方法。主要用于获得数字图像的一阶梯度，常见的应用于边缘检测。采用sobel算子对整个手势轮廓进行提取，采用了典型的边缘参数特征hu矩及轮廓边缘参数特征长度矩作为数字手势的识别特征，如图5所示，图5a-5b为本发明多媒体音量调节方法实施例1中利用sobel算子检测前后对比图；其中图5a为检测前的图像，图5b为检测后的图像；hu矩即为用一组简单的数据(图像描述量)来描述整个图像，是图像的用于识别的一组参数特征。

步骤104：获得手势分类结果。根据提取的边缘参数特征利用dag-svms(有向无环图支持向量机)分类器获得手势分类结果，如图6所示，图6为本发明多媒体音量调节方法实施例1中手势分类结果图。dag-svms(databaseavailabilitygroup-supportvectormchine)即有向无环图支持向量机，又称为可调用数据库支持向量机，其为结构策略图具有决策导向，且无闭环结构。

要想实现利用dag-svms作为分类器进行分类，首先需要构建包括多种手势分类的分类器，具体构建过程如下：

获得所有手势的深度图，如图7所示，图7a-7e为本发明多媒体音量调节方法实施例1中所有手势的深度图像；

获得所有手势的目标区域分割图，如图8所示，图8a-8e为本发明多媒体音量调节方法实施例1中所有手势的深度图像对应的分割图；其中图8a为图7a对应的分割图，图8b为图7b对应的分割图，图8c为图7c对应的分割图，图8d为图7d对应的分割图。

利用sobel算子获得所有手势的边缘参数特征，如图9所示，图9为本发明多媒体音量调节方法实施例1中所有手势的边缘参数特征图；采用sobel算子对整个手势轮廓进行提取，作为分类器分类训练的模板，采用了典型的边缘参数特征hu矩及轮廓边缘的长度矩参数作为数字手势的识别特征，进行分类器dagsvm(层次分类器)的训练，构建满足五类要求的分类器。如图10所示，图10a-10e为本发明多媒体音量调节方法实施例1中所有手势对应的分类结果图。

步骤105：调节多媒体音量级别。根据所述手势分类结果调节多媒体的音量级别，不同的手势分类对应不同的音量级别。如图11所示，图11为本发明多媒体音量调节方法实施例1中音量级别与手势分类对应图。其中，不同的数字手势对应不同的音量级别，每个音量级别对应音量的具体数值，也可以根据实际需求，重新设置每一个音量级别对应的音量数值。

手势交互是人机交互中一种十分重要的交互方式，它主要是从计算机视频图像中检测手势并进行跟踪、识别，从而理解人的意图。手势识别是通过计算机对人的手势进行的精确解释，但现行的手势识别系统之所以不够普及，很大一部分在于识别算法的实时性和抗干扰性得不到保证。这是因为使用基于计算机视觉图像处理手段的手势识别系统，在实际操作中会受到光照、遮蔽、阴影等因素的制约，每一种因素的变化都会对最终的识别精度造成影响。

随着体感游戏的流行，目前基于体感外设3d摄像机kinect的手势识别技术在大众视野里已不再陌生，而现如今多媒体已经成为一种在报告、会议、教学等活动形式下非常重要的展示方法，运用kinect进行多媒体音量控制，包括ppt内添加的视频内容等音量的大小控制可以最大程度的简化多媒体演示形式，使整个多媒体控制过程变得更加便捷，提高了展示操作人传授知识的效率。

通过研究深度数据的手势识别技术来准确判断不同的手势，并在识别过程中降低光照强度给识别精度带来的影响。采用优化算法提高手势识别准确率，保证手势识别的实时性，实现数字手势对多媒体播放器音量进行精确的短程控制。

实施例2：

图12为本发明多媒体音量调节方法实施例2的流程图；如图12所示，图12为按照本发明多媒体音量调节方法执行的具体流程图。输出的分类结果图趣图13所示，图13为本发明多媒体音量调节方法实施例2的分类结果图；图中显示，分类结果为第1类手势，对应根据手势分类结果调节多媒体音量的级别为1级，本实施例中第一级音量级别对应的音量大小为20；如图14所示，图14为本发明多媒体音量调节方法实施例2的音量调节示意图。

图15为本发明多媒体音量调节系统结构图。如图15所示，该系统包括：

深度图像获取模块1501，用于获取用户手势的深度图像，所述深度图像包括所述用户手势中手部关节的空间坐标；所述深度图像获取模块1505具体可以采用kinect摄像机，根据镜头前的用户手势，获取所述用户手势的深度图像。

图像分割模块1502，用于对所述深度图像进行手部目标区域的图像分割，获得分割后的目标区域图像；图像分割模块1502具体包括：

直方图绘制单元，用于根据所述深度图像绘制图像深度直方图；

待定阈值区间确定单元，用于根据所述直方图中深度值波谷确定多个待定阈值区间；

最终阈值区间确定单元，用于利用kinect骨骼追踪技术确定最终阈值区间；

图形分割单元，用于根据所述最终阈值区间进行手部目标区域的图像分割，获得分割后的目标区域图像。

边缘参数特征提取模块1503，用于根据所述目标区域图像，利用sobel算子进行手势边缘轮廓检测，提取边缘参数特征；边缘参数特征包括边缘参数特征hu矩和轮廓边缘参数特征长度矩，边缘参数特征提取模块1503利用hu矩与长度矩的手势边缘特征作为数字手势图像的特征，提取边缘参数特征hu矩和轮廓边缘参数特征长度矩。

手势分类结果获取模块1504，用于根据所述边缘参数特征利用dag-svms分类器获得手势分类结果；

音量调节模块1505，用于根据所述手势分类结果调节多媒体的音量级别，不同的手势分类对应不同的音量级别。

所述系统还可以包括：二值化处理模块，用于对所述深度图像进行手部目标区域的图像分割之前，对所述深度图像进行二值化处理，获得处理后的深度图像。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李孟歆;林佰凤;张锐;张颖;侯静
技术所有人：沈阳建筑大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。