一种手势识别家庭影院系统的制作方法

文档序号:14525548阅读:225来源:国知局
一种手势识别家庭影院系统的制作方法

本实用新型涉及家庭影院系统,具体涉及一种手势识别家庭影院系统。



背景技术:

在2017年3月,联想发布了65i3,65i3是一台会聊天的智能电视,实现了完全的语音操控,65i3集成远场语音、近场摇控器语音,它能够做到识别、理解并回应。65i3去除了影音设备的额外设备,如遥控器等,其增强了用户体验的舒适感,减少了设备的成本。另外,目前还出现了一套适用于智能家居环境的手势操作指令集及其识别方法,其是针对家庭内部所有的设备提出的手势操作方案,其提供了一套适用于智能家居环境的手势操作指令集及其基于计算机视觉的识别方法,其指令集包括通用操作方法手势和快捷方式操作手势,在通用操作方式下提出了一种利用双目摄像头以人眼位置和手指指向判断待控设备的方法。

我国智能家居起步很晚,研究不够深入,技术还不够成熟,智能家庭影院的发展还存在一些比较明显的问题和缺陷。上述的65i3虽然是语音控制,但是文化背景不同的地域语言的差异较大,所以并不能很顺利的推广出去。上述的智能家居环境的手势操作指令集及其识别方法中使用的双目摄像头需要对人眼、人脸、手指、手势多处进行跟踪识别,无法保证其图像处理的质量和复杂程度,因此无法保证指令的有效性。另外,智能家居环境的手势操作指令集及其识别方法中提到的受控家具较多,而人类的手势种类有限,无法对所有家具设备都有详细的控制指令。同种手势对多种家具有不同的控制指令,使得两种家具不方便同时使用操作,会形成“机器的误解”,从而会使得用户体验不佳。



技术实现要素:

本实用新型的目的在于提供一种手势识别家庭影院系统,用以实现使用语音和手势相结合的模式精确控制影音设备。

为解决上述目的,本实用新型采用如下技术方案:

一种手势识别家庭影院系统,包括拾音模块、控制模块、影音设备和摄影机,所述控制模块分别与拾音模块、影音设备和摄影机连接;所述拾音模块用于识别开机语音信号,识别成功后发送开机信号至控制模块;所述控制模块用于接收拾音模块的开机信号,然后对影音设备和摄影机发出开机指令;所述控制模块用于接收摄影机的信号,然后对影音设备发出操作指令;所述摄影机内设有手势识别模块,所述手势识别模块与控制模块连接;所述手势识别模块用于识别摄影机所摄取的手势图像信号,将识别结果发送至控制模块。

作为优选,所述摄影机为Kinect摄影机。

作为优选,所述手势识别模块包括图像预处理模块、手势分割模块、手势特征提取模块和手势匹配模块,所述图像预处理模块、手势分割模块、手势特征提取模块和手势匹配模块依次连接。

作为优选,所述手势分割模块包括肤色分割模块和轮廓分割模块,所述肤色分割模块和轮廓分割模块连接。肤色分割模块中的基于肤色分割和轮廓分割模块中的基于手部形状轮廓分割两者顺利可以互换,即预处理后的图像可先进入肤色分割模块中进行基于肤色分割,后进入轮廓分割模块进行基于手部形状轮廓分割,亦可先进入轮廓分割模块进行基于手部形状轮廓分割,后进入肤色分割模块中进行基于肤色分割。

作为优选,所述手势匹配模块内设有手势库,所述手势库中包含一个以上的手势,每个手势对应不同的操作指令,该操作指令用于发送至控制模块。

作为优选,所述手势库中包含14个不同的手势,14个不同的手势分别对应上一首曲目或上一个频道、上一首曲目或上一个频道、减小一级音量、增加一级音量、减小五级音量、增加五级音量、弹出菜单进行系统设置、确定选中的选项、选择上一选项、选择下一选项、静音、释放静音、暂停正在播放的视频和关机的操作指令。

一种手势识别家庭影院系统的运作方法,该运作方法中采用卷积神经网络,其包括以下步骤:

1)拾音模块接收并识别开机的语音信号,识别成功后发送开机信号到控制模块,控制模块对影音设备和摄像机发出开机指令;

2)摄像机接收并识别手势图像,识别成功后发送识别结果到控制模块,控制模块对影音设备发出操作指令。

所述步骤2)中,摄像机接收到手势图像后,对手势图像中的深度图像进行识别,包括以下步骤:

a)对深度图像进行噪声滤波操作;

b)对噪声滤波操作后的深度图像进行分割;

c)在分割后的深度图像上提取深度图像特征作为样本;

d)将提取的深度图像特征样本与手势库中的数据进行一对多的对比匹配,匹配出对应的操作指令。

所述步骤b)中经过噪声滤波操作后的深度图像利用基于肤色和基于手部形状轮廓两种方法对其进行分割。

本实用新型的有益效果是:

1.本实用新型手势识别家庭影院系统通过设有拾音模块和手势识别模块,结合了语音和手势两种操作方法,用户只要通过手势的改变就可以调节影音设备状态,比如加减音量,转换频道,音乐播放暂停,系统设置,关机等等一系列操作,其控制灵活和精确度高,用户体验效果佳;

2.本实用新型手势识别家庭影院系统的运作方法采用的是卷积神经网络对手势进行训练和识别,该运作方法对手势识别的精度高,稳定性好;

3.本实用新型手势识别家庭影院系统完全脱离遥控器的限制,节省额外设备的制造成本,有利于市场发展。

附图说明

图1为本实用新型实施例提供的手势识别家庭影院系统结构框图。

图2为本实用新型实施例提供的手势识别家庭影院系统中手势识别模块结构框图。

图3为本实用新型实施例提供的手势识别家庭影院系统工作流程图。

图4为本实用新型实施例中神经网络的每个单元的示意图。

图5为本实用新型实施例中一个具有一个隐含层的神经网络的示意图。

具体实施方式

下面结合图1-5对本实用新型提供的技术方案进行更为详细的阐述。

本实用新型实施例提供一种手势识别家庭影院系统,如图1所示,该手势识别家庭影院系统包括拾音模块、控制模块、影音设备和Kinect摄影机,控制模块分别与拾音模块、影音设备和摄影机连接。

拾音模块用于识别开机语音信号,识别成功后发送开机信号至控制模块。

控制模块用于接收拾音模块的开机信号,然后对影音设备和Kinect摄影机发出开机指令;控制模块用于接收Kinect摄影机的信号,然后对影音设备发出操作指令。

通过使用Kinect摄影机,使本实用新型实施例中的手势识别家庭影院系统可以获取手势图像的深度信息,并且可以对图像进行3D处理,能更加准确的判断手势动作,对于近距离和远距离的手势能够进行区别划分,比使用一般的摄影机都要智能。如图1所示,Kinect摄影机内设有手势识别模块,手势识别模块与控制模块连接;手势识别模块用于识别Kinect摄影机所摄取的手势图像信号,将识别结果发送至控制模块。如图2所示,手势识别模块包括图像预处理模块、手势分割模块、手势特征提取模块和手势匹配模块,图像预处理模块、手势分割模块、手势特征提取模块和手势匹配模块依次连接。图像预处理模块用于对Kinect摄影机接收的手势图像进行预处理,预处理过程就是通过去除噪声进行图像增强,Kinect摄影机的传感器由于采用激光散斑技术,因而获取的深度信息常常包含很大的噪声,这对于后续的数据处理和实验会产生不小的影响,因此在预处理阶段需要对深度图像进行噪声的滤波操作。

手势分割模块包括肤色分割模块和轮廓分割模块,肤色分割模块和轮廓分割模块连接。手势分割有基于肤色分割的和基于手部形状轮廓分割两种方法,两种方法单独操作都存在很大的不足,结合两种方法可以使手势图像的分割既不会受到背景颜色的影响,又可以根据手部形状轮廓进行准确的分割,即手势分割融合了两种判定方法,避免了单种判定方法的局限性导致机器识别准确率低的问题。图像预处理模块、肤色分割模块、轮廓分割模块和手势特征提取模块依次连接,预处理后的图像先进入肤色分割模块中进行基于肤色分割,再进入轮廓分割模块进行基于手部形状轮廓分割,最后进行手势特征提取。手势分割中基于肤色分割的划分需要注意的就是与背景颜色的区分以及不同人种的肤色区分。手势分割模块可以去除一部分手部冗余信息,保留重要信息,以备特征提取使用。要获得手势图像深度区间的特征就要考虑区间的划分,在包含整个手势图像信息的情况下,适当的权衡每个区间的长度和总区间数,使得区分尽可能的明显,如此便可以提取到手势图像的深度信息的特征。

手势匹配模块内设有手势库,手势库中包含14个不同的手势,每个手势对应不同的操作指令,该操作指令用于发送至控制模块,通过设置多种手势动作形成了更为完善的手势库,操作指令旋转种类多,该手势库中的手势均按照人们生活习惯设计而成,操作简单灵活,容易被人们接受。14个不同的手势分别对应上一首曲目或上一个频道、上一首曲目或上一个频道、减小一级音量、增加一级音量、减小五级音量、增加五级音量、弹出菜单进行系统设置、确定选中的选项、选择上一选项、选择下一选项、静音、释放静音、暂停正在播放的视频和关机的操作指令。手势对应的操作指令如下表:

如图3所示,手势识别家庭影院系统的工作流程是:拾音模块先接收开机的语音指令,Kinect摄影机开启后采集接收手势图像,图像预处理模块对接收的手势图像进行预处理,手势分割模块对预处理后的手势图像进行分割,手势特征提取模块对分割后的手势图像进行特征提取,提取后的特征与已经训练好的手势库中的匹配相应的手势特征,匹配成功后,输出相应的操作指令,匹配失败后,Kinect摄影机重新采集接收手势图像,匹配成功后对应的操作指令输出至控制模块,控制模块最后对影音设备发出对应的操作指令。

一种手势识别家庭影院系统的运作方法,该运作方法中采用卷积神经网络。通过采集手势作为训练集,训练卷积神经网络,卷积神经网络与普通神经网络的区别在于,卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。在CNN的一个卷积层中,通常包含若干个特征平面,每个特征平面由一些矩形排列的的神经元组成,同一特征平面的神经元共享权值,这里共享的权值就是卷积核。卷积核一般以随机小数矩阵的形式初始化,在网络的训练过程中卷积核将学习得到合理的权值。共享权值带来的直接好处是减少网络各层之间的连接,同时又降低了过拟合的风险。子采样也叫做池化,通常有均值子采样和最大值子采样两种形式。子采样可以看作一种特殊的卷积过程。卷积和子采样大大简化了模型复杂度,减少了模型的参数。卷积神经网络由三部分构成,第一部分是输入层,第二部分由n个卷积层和池化层的组合组成,第三部分由一个全连结的多层感知机分类器构成。神经网络中的每个单元如图4所示,对应的公式如下:

其中,该单元也可以被称作是Logistic回归模型。当将多个单元组合起来并具有分层结构时,就形成了神经网络模型。

如图5所示,其展示的是一个具有一个隐含层的神经网络,这是很简单的三层神经网络模型,包括输入层、隐含层以及输出层。类似的可以根据需求将隐含层扩展到三层、四层或者更多层。以上的神经网络模型公式如下:

一种手势识别家庭影院系统的运作方法,包括以下步骤:

1)拾音模块接收并识别开机的语音信号,识别成功后发送开机信号到控制模块,控制模块对影音设备和Kinect摄像机发出开机指令;

2)Kinect摄像机接收并识别手势图像,识别成功后发送识别结果到控制模块,控制模块对影音设备发出操作指令。

上述步骤2)中,Kinect摄像机接收到手势图像后,对手势图像中的深度图像进行识别,包括以下步骤:

a)对深度图像进行噪声滤波操作;

b)对噪声滤波操作后的深度图像进行分割;

c)在分割后的深度图像上提取深度图像特征作为样本;

d)将提取的深度图像特征样本与手势库中的数据进行一对多的对比匹配,匹配出对应的操作指令。

上述步骤b)中经过噪声滤波操作后的深度图像利用基于肤色和基于手部形状轮廓两种方法对其进行分割。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1