本发明属于电器技术领域,具体涉及一种指令识别方法、装置、存储设备、移动终端及电器,尤其涉及一种基于图像和语音识别的空调控制方法、与该方法对应的装置、存储有该方法对应的指令的存储设备、能够执行该方法对应的指令的移动终端、以及具有该方法对应的装置的空调器。
背景技术:
图像识别,可以是利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。现有的图像识别技术,在缺乏辅助定位条件下,需要连续对所采集的整幅图像进行分析运算,从而提取相关特征信息。其中,大量的运算容易造成识别滞后,同时存在识别定位错误。
现有技术中,存在缺乏辅助定位,导致识别效率低、定位准确性差和用户体验差等缺陷。
技术实现要素:
本发明的目的在于,针对上述缺陷,提供一种指令识别方法、装置、存储设备、移动终端及电器,以解决现有技术中缺乏辅助定位需要连续对采集的图像进行分析运算导致识别效率低的问题,达到提升识别效率的效果。
本发明提供一种指令识别方法,包括:对当前场景中的声音进行分析,确定所述声音的声源,并语音定位所述声源所在区域;对所述当前场景的图像位于所述声源所在区域中的第一图像区域进行分析,确定所述第一图像区域中是否有设定的图像识别操作;当所述第一图像区域中有所述图像识别操作时,将所述图像识别操作转换为所需指令。
可选地,还包括:在所述对当前场景中的声音进行分析之前,获取所述当前场景中的所述声音;和/或,在所述对所述当前场景的图像位于所述声源所在区域中的第一图像区域进行分析之前,获取所述当前场景中的所述图像、所述第一图像区域中的至少之一;和/或,在所述对所述当前场景的图像位于所述声源所在区域中的第一图像区域进行分析之前,确定所述语音定位得到的所述声源所在区域是否有效;以当所述声源所在区域有效时,才对所述第一图像区域进行分析。
可选地,所述获取所述当前场景中的所述声音,包括:
接收由声音采集模块采集到的所述当前场景中的所述声音;其中,所述声音采集模块,包括:麦克风、声音传感器中的至少之一;
和/或,所述获取所述当前场景中的所述图像、所述第一图像区域中的至少之一,包括:接收由图像采集模块采集到的所述当前场景中的所述图像、所述第一图像区域中的至少之一;其中,所述图像采集模块,包括:摄像头、红外传感器、ccd图像传感器、超声波传感器中的至少之一。
可选地,还包括:当所述第一图像区域中没有所述图像识别操作时,对所述图像中除所述第一图像区域之外的第二图像区域进行分析,以确定所述第二图像区域中是否有所述图像识别操作;或者,对所述图像中的所有图像区域进行分析,以确定所述所有图像区域中是否有所述图像识别操作。
可选地,所述确定所述第一图像区域中是否有设定的图像识别操作,包括:对所述第一图像区域进行人脸识别,确定所述第一图像区域中是否有操作者;当所述第一图像区域中有所述操作者时,确定所述操作者是否有所述图像识别操作,以当所述操作者有所述图像识别操作时,确定所述第一图像区域中有所述图像识别操作。
可选地,确定所述操作者是否有所述图像识别操作,包括:图像定位所述操作者在所述第一图像区域中的位置;根据所述位置,锁定所述操作者,并跟踪所述操作者的动作;对所述动作进行手势识别,确定所述动作是否为设定操作,以当所述动作是手势操作时,确定所述动作是图像识别操作。
与上述方法相匹配,本发明另一方面提供一种指令识别装置,包括:语音识别模块,用于对当前场景中的声音进行分析,确定所述声音的声源,并语音定位所述声源所在区域;图像识别模块,用于对所述当前场景的图像位于所述声源所在区域中的第一图像区域进行分析,确定所述第一图像区域中是否有设定的图像识别操作;所述图像识别模块,还用于当所述第一图像区域中有所述图像识别操作时,将所述图像识别操作转换为所需指令。
可选地,还包括:接收模块;用于在所述对当前场景中的声音进行分析之前,获取所述当前场景中的所述声音;和/或,所述接收模块;还用于在所述对所述当前场景的图像位于所述声源所在区域中的第一图像区域进行分析之前,获取所述当前场景中的所述图像、所述第一图像区域中的至少之一;和/或,所述图像识别模块,还用于在所述对所述当前场景的图像位于所述声源所在区域中的第一图像区域进行分析之前,确定所述语音定位得到的所述声源所在区域是否有效;以当所述声源所在区域有效时,才对所述第一图像区域进行分析。
可选地,所述接收模块,包括:声音采集模块;所述接收模块,用于通过所述声音采集模块,接收由声音采集模块采集到的所述当前场景中的所述声音;其中,所述声音采集模块,包括:麦克风、声音传感器中的至少之一;和/或,所述接收模块,还包括:图像采集模块;所述接收模块,还用于接收由图像采集模块采集到的所述当前场景中的所述图像、所述第一图像区域中的至少之一;其中,所述图像采集模块,包括:摄像头、红外传感器、ccd图像传感器、超声波传感器中的至少之一。
可选地,还包括:所述图像识别模块,还用于当所述第一图像区域中没有所述图像识别操作时,对所述图像中除所述第一图像区域之外的第二图像区域进行分析,以确定所述第二图像区域中是否有所述图像识别操作;或者,对所述图像中的所有图像区域进行分析,以确定所述所有图像区域中是否有所述图像识别操作。
可选地,所述图像识别模块,包括:人脸识别模块,用于对所述第一图像区域进行人脸识别,确定所述第一图像区域中是否有操作者;动作识别模块,用于当所述第一图像区域中有所述操作者时,确定所述操作者是否有所述图像识别操作,以当所述操作者有所述图像识别操作时,确定所述第一图像区域中有所述图像识别操作。
可选地,所述动作识别模块确定所述操作者是否有所述图像识别操作,具体包括:图像定位所述操作者在所述第一图像区域中的位置;根据所述位置,锁定所述操作者,并跟踪所述操作者的动作;对所述动作进行手势识别,确定所述动作是否为设定操作,以当所述动作是手势操作时,确定所述动作是图像识别操作。
与上述方法相匹配,本发明又一方面提供一种存储设备,包括:所述存储设备中存储有多条指令;所述多条指令,用于由处理器加载并执行以上所述的指令识别方法。
与上述方法相匹配,本发明又一方面提供一种移动终端,包括:处理器,用于执行多条指令;存储器,用于存储多条指令;其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行以上所述的指令识别方法。
与上述存储设备、移动终端、装置中的至少之一相匹配,本发明再一方面提供一种电器,包括:以上所述的指令识别装置、所述的存储设备、所述的移动终端中的至少之一。
可选地,所述电器,包括:空调器、冰箱、电视机、热水器、饮水机、空气净化器、抽油烟机中的至少之一。
本发明的方案,通过语音识别辅助定位,提高图像识别效率和准确率。
进一步,本发明的方案,通过图像识别结合语音识别定位,提高图像识别控制锁定操作者方位的准确性,从而提高后续控制的准确性。
进一步,本发明的方案,通过语音识别定位声音源方位,为图像识别定位操作者位置提供定位参考,提高图像识别进行控制空调的响应速度和准确率。
进一步,本发明的方案,通过语音识别定位,确定人的方位,从而为图像识别给予参考,快速定位人在图像中的准确位置,提高图像识别效率和准确率。
进一步,本发明的方案,通过语音识别定位声音源方位,为图像识别定位操作者位置提供定位参考,提高图像识别进行控制空调的响应速度和准确率。
由此,本发明的方案,通过语音和图像相结合地进行识别和定位,解决现有技术中缺乏辅助定位需要连续对采集的图像进行分析运算导致识别效率低的问题,从而,克服现有技术中识别效率低、定位准确性差和用户体验差的缺陷,实现识别效率高、定位准确性好和用户体验好的有益效果。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明的指令识别方法的一实施例的流程示意图;
图2为本发明的方法中确定所述第一图像区域中是否有设定的图像识别操作的一实施例的流程示意图;
图3为本发明的方法中确定所述操作者是否有所述图像识别操作的一实施例的流程示意图;
图4为本发明的指令识别装置的一实施例的结构示意图;
图5为本发明的移动终端的一实施例的结构示意图;
图6为本发明的电器(例如:空调器)的一实施例的结构示意图;
图7为本发明的电器(例如:空调器)中语音识别区域的一实施例的结构示意图;
图8为本发明的电器(例如:空调器)的一实施例的控制流程示意图。
结合附图,本发明实施例中附图标记如下:
102-接收模块;1022-声音采集模块;1024-图像采集模块;104-语音识别模块;106-图像识别模块;200-移动终端;202-存储器;204-处理器。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的实施例,提供了一种指令识别方法(例如:基于图像和语音识别的空调控制方法),如图1所示本发明的方法的一实施例的流程示意图。该指令识别方法可以包括:
在步骤s110处,对当前场景中的声音进行分析,确定所述声音的声源,并语音定位所述声源所在区域(例如:通过语音识别模块104,语音定位所述声源的方位、位置等)。
例如:对所述声音进行分析,确定所述声音的声源(即声音源),并定位所述声源所在区域。
例如:语音识别,通过正常语音或语音指令定位声源,计算声源位置,得到语音定位位置信息。
例如:语音识别模块104能够定位声音源并能对声音源语音进行分析识别。例如:语音识别模块104能够对麦克风采集的语音信息进行分析并定位声音源。
例如:可以先分析识别到声音源,再对声音源进行定位。
例如:语音识别模块104实时采集语音分析并定位声音源,并将声音源信息传递或共享给图像识别模块106。
在步骤s120处,对所述当前场景的图像位于所述声源所在区域中的第一图像区域进行分析,确定所述第一图像区域中是否有设定的图像识别操作(例如:手势操作)。
例如:通过图像识别模块106,以所述声源所在区域为第一识别区域,对所述图像位于所述第一识别区域中的第一图像区域进行分析,确定所述第一图像区域中是否有图像识别操作(例如:对所述待控制电器的图像识别操作)。
例如:基于图像识别和语音识别本身都具备定位功能,可将语音识别所定位的声音源位置传递给图像识别模块106,让图像识别模块106优先分析声音源区域的图像,提高图像识别定位的效率,更快找到操作者。
例如:图像识别模块106在具备声音源的位置信息情况下,优先对声音源位置对应的图像区域进行分析,查找是否存在控制操作者,以达到快速确定声音源位置是否有图像操控需求,以便更快提供服务;如没有,再查找其他区域是否存在,以便更快定位操作者方位,为其提供手势操作等服务和交互。
可选地,可以结合图2所示本发明的方法中确定所述第一图像区域中是否有设定的图像识别操作的一实施例的流程示意图,进一步说明步骤s120中确定所述第一图像区域中是否有设定的图像识别操作的具体过程。
步骤s210,对所述第一图像区域进行人脸识别,确定所述第一图像区域中是否有操作者。
例如:通过人脸识别,能够确定所述第一图像区域中是否有人。
例如:人脸录入(将操作者人脸信息录入图像识别系统):操作者可通过发出声响或语音指令(如人脸录入)让语音识别模块104定位到操作者的位置,让图像识别模块106定位到待录入人脸信息者位置,进行人脸信息的采集。
步骤s220,当所述第一图像区域中有所述操作者时,确定所述操作者是否有所述图像识别操作,以当所述操作者有所述图像识别操作时,确定所述第一图像区域中有所述图像识别操作;或当所述操作者没有所述图像识别操作时,确定所述第一图像区域中没有所述图像识别操作。
例如:图像识别模块106,具备对采集的图像进行分析识别功能,例如:具备手势识别、人脸检测(例如:人脸检测能够检测某个物体是否是人)等功能,能够对采集画面(即采集的图像)进行分析定位操作者的位置,锁定跟踪操作者识别出其手势样式,并转换成特定空调控制指令,实现对空调的控制。
例如:手势操作:操作者可通过发出声响或语音指令(如手势控制)让语音识别模块104定位到操作者的位置,以便图像识别系统快速准确定位到操作者。
由此,通过人脸识别,确定是否有操作者,以在有操作者时再通过动作识别确定图像识别操作,识别的效率高,准确性好。
更可选地,可以结合图3所示本发明的方法中确定所述操作者是否有所述图像识别操作的一实施例的流程示意图,进一步说明步骤s220中,确定所述操作者是否有所述图像识别操作的具体过程。
步骤s310,图像定位所述操作者在所述第一图像区域中的位置。
步骤s320,根据所述位置,锁定所述操作者,并跟踪所述操作者的动作。
步骤s330,所述动作进行手势识别,确定所述动作是否为设定操作(例如:手势操作),以当所述动作是手势操作时,确定所述动作是图像识别操作;或当所述动作不是手势操作时,确定所述动作不是图像识别操作。
例如:图像识别操作,可以包括:手势操作:操作者可通过发出声响或语音指令(如手势控制)让语音识别模块定位到操作者的位置,以便图像识别系统快速准确定位到操作者。
例如:图像识别操作,还可以包括:人脸录入(将操作者人脸信息录入图像识别系统):操作者可通过发出声响或语音指令(如人脸录入)让语音识别模块定位到操作者的位置,让图像识别模块定位到待录入人脸信息者位置,进行人脸信息的采集。
例如:图像识别控制(如手势控制则需要定位追踪手势、人脸检测控制则需要定位检测人脸)大都基于对采集图像进行分析识别,首先定位操作者位置,然后再跟踪分析操作者的动作完成对空调的一系列控制,但可能由于所处场景复杂的背景导致定位失败,如背景画面存在人物照,易误识别导致手势控制无法进行。
由此,通过定位操作者的位置,锁定并跟踪操作者的动作,进而获取操作者的手势等图像识别操作,可靠性高,精准性好。
在步骤s130处,当所述第一图像区域中有所述图像识别操作时,将所述图像识别操作转换(例如:按设定的转换方式)为所需指令(例如:能够控制当前场景中的待控制电器的控制指令、操作指令等)。
其中,当识别到图像识别操作时,可以根据预先设定的图像识别操作与控制指令的对应关系,确定相应图像识别操作对应的控制指令。
例如:手掌面对空调摄像头悬停1~5秒(例如:2秒)表示唤醒图像手势操作。
由此,通过语音识别定位声源,可以缩小图像识别的识别区域,进而提升图像识别的效率,操作过程简单,识别效率高。
在一个可选实施方式中,还可以包括:在步骤s110中所述对当前场景中的声音进行分析之前,获取所述当前场景中的所述声音。
例如:采集语音。
由此,通过获取当前场景中的声音,可以为语音识别提供精准而可靠的依据。
可选地,所述获取所述当前场景中的所述声音,可以包括:接收由声音采集模块1022采集到的所述当前场景中的所述声音。其中,所述声音采集模块1022,可以包括:麦克风、声音传感器中的至少之一。
例如:与所述声音采集模块1022适配,还可以设置扩音器,以对所述声音采集模块1022采集到的所述声音进行放大,有利于语音识别模块104接收并识别。
例如:语音识别控制一般采用麦克风阵列(如双麦、四麦、八麦)进行语音采集从而定位说话者的方位,然后锁定跟踪说话者并对其语音进行分析识别,再将语音转化为控制指令完成对设备的控制。
例如:语音装置,可以包括:语音采集模块(例如:麦克风)和语音识别模块104。例如:麦克风与语音识别模块104相连。
由此,通过声音采集模块获取声音,获取方式简便,获取的声音可靠性高。
在一个可选实施方式中,还可以包括:在步骤s120中所述对所述当前场景的图像位于所述声源所在区域中的第一图像区域进行分析之前,获取所述当前场景中的所述图像、所述第一图像区域中的至少之一。
例如:获取所述当前场景中的所述图像、所述第一图像区域中的至少之一,可以是:先获取当前场景中的全部图像,或先获取第一图像区域中的部分图像。
例如:采集图像。
例如:空调配置有图像装置和语音装置。
例如:获取当前场景(例如:待控制电器所处环境)中的声音和图像。
例如:图像装置,可以包括:图像采集模块1024(例如:摄像头)和图像识别模块106。例如:摄像头与图像识别模块106相连。
由此,通过获取当前场景中的图像,可以为图像识别提供精准而可靠的依据,且便捷性好。
可选地,所述获取所述当前场景中的所述图像、所述第一图像区域中的至少之一,可以包括:接收由图像采集模块1024采集到的所述当前场景中的所述图像、所述第一图像区域中的至少之一。其中,所述图像采集模块1024,可以包括:摄像头、红外传感器、ccd图像传感器、超声波传感器中的至少之一。
由此,通过图像采集模块获取图像,获取方式简便,获取的声音可靠性高。
在一个可选实施方式中,还可以包括:在步骤s120中所述对所述当前场景的图像位于所述声源所在区域中的第一图像区域进行分析之前,确定所述语音定位得到的所述声源所在区域是否有效(例如:所述声源所在区域是否在所述当前场景中,所述声源所在区域是否在待控制电器能够识别的区域内,所述声音是否不是人发出的声音,所述声音是否是噪音,等等);以当所述声源所在区域有效时,才对所述第一图像区域进行分析;或当所述声音所在区域无效时,不对所述第一图像区域进行分析,可对所述所有图像区域进行分析,以确定所述所有图像区域中是否有所述图像识别操作。
例如:参见图7所示的例子,语音定位信息有效,即语音定位声源所在区域在图像边界区域+d区域内。
例如:通过图像识别模块106,确定语音定位位置信息是否有效:有效时,根据语音定位位置信息在图像画面中的位置,在该位置所在预设范围的区域内,查找是否有图像操作信号,是则操作;否则正常查找。
由此,通过确定声源定位信息的有效性,可以进一步提升图像识别的效率和可靠性,人性化强。
在一个可选实施方式中,还可以包括:当所述第一图像区域中没有所述图像识别操作时(例如:当所述第一图像区域中没有所述图像识别操作、和/或当所述声源所在区域无效时),对所述图像中除所述第一图像区域之外的第二图像区域进行分析,以确定所述第二图像区域中是否有所述图像识别操作。
在一个可选实施方式中,还可以包括:当所述第一图像区域中没有所述图像识别操作时(例如:当所述第一图像区域中没有所述图像识别操作、和/或当所述声源所在区域无效时),对所述图像中的所有图像区域(例如:包含所述第一图像区域和所述第二图像区域的所有图像区域)进行分析,以确定所述所有图像区域中是否有所述图像识别操作。
例如:无效时,正常查找,所有图像画面中是否有图像操作信号,有则操作,无则重新识别。
由此,通过在声源所在区域中无图像识别操作、或声源所在区域的定位无效时,对其它区域或全部区域进行图像识别,可以提升图像识别的全面性和精准性,人性化好。
经大量的试验验证,采用本实施例的技术方案,通过语音识别辅助定位,提高图像识别效率和准确率。
根据本发明的实施例,还提供了对应于指令识别方法的一种指令识别装置(例如:基于图像和语音识别的空调控制装置)。参见图4所示本发明的装置的一实施例的结构示意图。该指令识别装置可以包括:语音识别模块104和图像识别模块106。
在一个可选例子中,语音识别模块104,可以用于对当前场景中的声音进行分析,确定所述声音的声源,并语音定位所述声源所在区域(例如:通过语音识别模块104,语音定位所述声源的方位、位置等)。该语音识别模块104的具体功能及处理参见步骤s110。
例如:对所述声音进行分析,确定所述声音的声源(即声音源),并定位所述声源所在区域。
例如:语音识别,通过正常语音或语音指令定位声源,计算声源位置,得到语音定位位置信息。
例如:语音识别模块104能够定位声音源并能对声音源语音进行分析识别。例如:语音识别模块104能够对麦克风采集的语音信息进行分析并定位声音源。
例如:可以先分析识别到声音源,再对声音源进行定位。
例如:语音识别模块104实时采集语音分析并定位声音源,并将声音源信息传递或共享给图像识别模块106。
在一个可选例子中,图像识别模块106,可以用于对所述当前场景的图像位于所述声源所在区域中的第一图像区域进行分析,确定所述第一图像区域中是否有设定的图像识别操作(例如:手势操作)。该图像识别模块106的具体功能及处理参见步骤s120。
例如:通过图像识别模块106,以所述声源所在区域为第一识别区域,对所述图像位于所述第一识别区域中的第一图像区域进行分析,确定所述第一图像区域中是否有图像识别操作(例如:对所述待控制电器的图像识别操作)。
例如:基于图像识别和语音识别本身都具备定位功能,可将语音识别所定位的声音源位置传递给图像识别模块106,让图像识别模块106优先分析声音源区域的图像,提高图像识别定位的效率,更快找到操作者。
例如:图像识别模块106在具备声音源的位置信息情况下,优先对声音源位置对应的图像区域进行分析,查找是否存在控制操作者,以达到快速确定声音源位置是否有图像操控需求,以便更快提供服务;如没有,再查找其他区域是否存在,以便更快定位操作者方位,为其提供手势操作等服务和交互。
在一个可选例子中,所述图像识别模块106,还可以用于当所述第一图像区域中有所述图像识别操作时,将所述图像识别操作转换(例如:按设定的转换方式)为所需指令(例如:能够控制当前场景中的待控制电器的控制指令、操作指令等)。该图像识别模块106的具体功能及处理还参见步骤s130。
其中,当识别到图像识别操作时,可以根据预先设定的图像识别操作与控制指令的对应关系,确定相应图像识别操作对应的控制指令。
例如:手掌面对空调摄像头悬停1~5秒(例如:2秒)表示唤醒图像手势操作。
由此,通过语音识别定位声源,可以缩小图像识别的识别区域,进而提升图像识别的效率,操作过程简单,识别效率高。
可选地,所述图像识别模块106,可以包括:人脸识别模块和动作识别模块。
在一个可选具体例子中,人脸识别模块,可以用于对所述第一图像区域进行人脸识别,确定所述第一图像区域中是否有操作者。该人脸识别模块的具体功能及处理还参见步骤s210。
例如:通过人脸识别,能够确定所述第一图像区域中是否有人。
例如:人脸录入(将操作者人脸信息录入图像识别系统):操作者可通过发出声响或语音指令(如人脸录入)让语音识别模块104定位到操作者的位置,让图像识别模块106定位到待录入人脸信息者位置,进行人脸信息的采集。
在一个可选具体例子中,动作识别模块(例如:手势识别模块),可以用于当所述第一图像区域中有所述操作者时,确定所述操作者是否有所述图像识别操作,以当所述操作者有所述图像识别操作时,确定所述第一图像区域中有所述图像识别操作;或当所述操作者没有所述图像识别操作时,确定所述第一图像区域中没有所述图像识别操作。该动作识别模块的具体功能及处理还参见步骤s220。
例如:图像识别模块106,具备对采集的图像进行分析识别功能,例如:具备手势识别、人脸检测(例如:人脸检测能够检测某个物体是否是人)等功能,能够对采集画面(即采集的图像)进行分析定位操作者的位置,锁定跟踪操作者识别出其手势样式,并转换成特定空调控制指令,实现对空调的控制。
例如:手势操作:操作者可通过发出声响或语音指令(如手势控制)让语音识别模块104定位到操作者的位置,以便图像识别系统快速准确定位到操作者。
由此,通过人脸识别,确定是否有操作者,以在有操作者时再通过动作识别确定图像识别操作,识别的效率高,准确性好。
更可选地,所述动作识别模块确定所述操作者是否有所述图像识别操作,具体可以包括:图像定位所述操作者在所述第一图像区域中的位置。该动作识别模块的具体功能及处理还参见步骤s310。
例如:动作识别模块,可以包括图像定位模块,通过图像定位模块,可以进行图像定位。
更可选地,所述动作识别模块确定所述操作者是否有所述图像识别操作,具体还可以包括:根据所述位置,锁定所述操作者,并跟踪所述操作者的动作。置。该动作识别模块的具体功能及处理还参见步骤s320。
例如:动作识别模块,可以包括锁定跟踪模块,通过锁定跟踪模块,可以进行锁定及跟踪。
更可选地,所述动作识别模块确定所述操作者是否有所述图像识别操作,具体还可以包括:对所述动作进行手势识别,确定所述动作是否为设定操作(例如:手势操作),以当所述动作是手势操作时,确定所述动作是图像识别操作;或当所述动作不是手势操作时,确定所述动作不是图像识别操作。该动作识别模块的具体功能及处理还参见步骤s330。
例如:图像识别操作,可以包括:手势操作:操作者可通过发出声响或语音指令(如手势控制)让语音识别模块定位到操作者的位置,以便图像识别系统快速准确定位到操作者。
例如:图像识别操作,还可以包括:人脸录入(将操作者人脸信息录入图像识别系统):操作者可通过发出声响或语音指令(如人脸录入)让语音识别模块定位到操作者的位置,让图像识别模块定位到待录入人脸信息者位置,进行人脸信息的采集。
例如:动作识别模块,可以包括动作识别模块(例如:手势识别模块),通过动作识别模块,可以进行动作识别(例如:通过手势识别模块进行手势识别)。
例如:图像识别控制(如手势控制则需要定位追踪手势、人脸检测控制则需要定位检测人脸)大都基于对采集图像进行分析识别,首先定位操作者位置,然后再跟踪分析操作者的动作完成对空调的一系列控制,但可能由于所处场景复杂的背景导致定位失败,如背景画面存在人物照,易误识别导致手势控制无法进行。
由此,通过定位操作者的位置,锁定并跟踪操作者的动作,进而获取操作者的手势等图像识别操作,可靠性高,精准性好。
在一个可选实施方式中,还可以包括:接收模块102。
在一个可选例子中,接收模块102,可以用于在所述对当前场景中的声音进行分析之前,获取所述当前场景中的所述声音。
例如:采集语音。
由此,通过获取当前场景中的声音,可以为语音识别提供精准而可靠的依据。
可选地,所述接收模块102,可以包括:声音采集模块1022。
在一个可选具体例子中,所述接收模块102,可以用于通过所述声音采集模块1022,接收由声音采集模块1022采集到的所述当前场景中的所述声音。其中,所述声音采集模块1022,可以包括:麦克风、声音传感器中的至少之一。
例如:与所述声音采集模块1022适配,还可以设置扩音器,以对所述声音采集模块1022采集到的所述声音进行放大,有利于语音识别模块104接收并识别。
例如:语音识别控制一般采用麦克风阵列(如双麦、四麦、八麦)进行语音采集从而定位说话者的方位,然后锁定跟踪说话者并对其语音进行分析识别,再将语音转化为控制指令完成对设备的控制。
例如:语音装置,可以包括:语音采集模块(例如:麦克风)和语音识别模块104。例如:麦克风与语音识别模块104相连。
由此,通过声音采集模块获取声音,获取方式简便,获取的声音可靠性高。
在一个可选例子中,接收模块102,还可以用于在所述对所述当前场景的图像位于所述声源所在区域中的第一图像区域进行分析之前,获取所述当前场景中的所述图像、所述第一图像区域中的至少之一。
例如:获取所述当前场景中的所述图像、所述第一图像区域中的至少之一,可以是:先获取当前场景中的全部图像,或先获取第一图像区域中的部分图像。
例如:采集图像。
例如:空调配置有图像装置和语音装置。
例如:获取当前场景(例如:待控制电器所处环境)中的声音和图像。
例如:图像装置,可以包括:图像采集模块1024(例如:摄像头)和图像识别模块106。例如:摄像头与图像识别模块106相连。
由此,通过获取当前场景中的图像,可以为图像识别提供精准而可靠的依据,且便捷性好。
可选地,所述接收模块102,还可以包括:图像采集模块1024。
在一个可选具体例子中,所述接收模块102,还可以用于接收由图像采集模块1024采集到的所述当前场景中的所述图像、所述第一图像区域中的至少之一。其中,所述图像采集模块1024,可以包括:摄像头、红外传感器、ccd图像传感器、超声波传感器中的至少之一。
由此,通过图像采集模块获取图像,获取方式简便,获取的声音可靠性高。
在一个可选实施方式中,所述图像识别模块106,还可以用于在所述对所述当前场景的图像位于所述声源所在区域中的第一图像区域进行分析之前,确定所述语音定位得到的所述声源所在区域是否有效(例如:所述声源所在区域是否在所述当前场景中,所述声源所在区域是否在待控制电器能够识别的区域内,所述声音是否不是人发出的声音,所述声音是否是噪音,等等);以当所述声源所在区域有效时,才对所述第一图像区域进行分析;或当所述声音所在区域无效时,不对所述第一图像区域进行分析,可对所述所有图像区域进行分析,以确定所述所有图像区域中是否有所述图像识别操作。
例如:参见图7所示的例子,语音定位信息有效,即语音定位声源所在区域在图像边界区域+d区域内。
例如:通过图像识别模块106,确定语音定位位置信息是否有效:有效时,根据语音定位位置信息在图像画面中的位置,在该位置所在预设范围的区域内,查找是否有图像操作信号,是则操作;否则正常查找。
由此,通过确定声源定位信息的有效性,可以进一步提升图像识别的效率和可靠性,人性化强。
在一个可选实施方式中,所述图像识别模块106,还可以用于当所述第一图像区域中没有所述图像识别操作、和/或当所述声源所在区域无效时,对所述图像中除所述第一图像区域之外的第二图像区域进行分析,以确定所述第二图像区域中是否有所述图像识别操作。
在一个可选实施方式中,所述图像识别模块106,还可以用于当所述第一图像区域中没有所述图像识别操作、和/或当所述声源所在区域无效时,对所述图像中的所有图像区域(例如:包含所述第一图像区域和所述第二图像区域的所有图像区域)进行分析,以确定所述所有图像区域中是否有所述图像识别操作。
例如:无效时,正常查找,所有图像画面中是否有图像操作信号,有则操作,无则重新识别。
由此,通过在声源所在区域中无图像识别操作、或声源所在区域的定位无效时,对其它区域或全部区域进行图像识别,可以提升图像识别的全面性和精准性,人性化好。
由于本实施例的装置所实现的处理及功能基本相应于前述图1至图3所示的方法的实施例、原理和实例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此不做赘述。
经大量的试验验证,采用本发明的技术方案,通过图像识别结合语音识别定位,提高图像识别控制锁定操作者方位的准确性,从而提高后续控制的准确性。
根据本发明的实施例,还提供了对应于指令识别方法的一种存储设备。该存储设备可以包括:所述存储设备中存储有多条指令;所述多条指令,用于由处理器加载并执行以上所述的指令识别方法。
例如:所述多条指令,用于由处理器(例如:处理器204)加载并执行以上所述的指令识别方法中的各步骤。
由于本实施例的存储设备所实现的处理及功能基本相应于前述图1至图3所示的方法的实施例、原理和实例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此不做赘述。
经大量的试验验证,采用本发明的技术方案,通过语音识别定位声音源方位,为图像识别定位操作者位置提供定位参考,提高图像识别进行控制空调的响应速度和准确率。
根据本发明的实施例,还提供了对应于指令识别方法的一种移动终端。参见图5所示本发明的移动终端的一实施例的结构示意图。该移动终端可以包括:存储器202和处理器204。
可选地,存储器202,可以用于存储多条指令。
可选地,处理器204,可以用于执行多条指令。
其中,所述多条指令,可以用于由所述存储器存储,并由所述处理器204加载并执行以上所述的指令识别方法。
由于本实施例的移动终端所实现的处理及功能基本相应于前述图1至图3所示的方法的实施例、原理和实例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此不做赘述。
经大量的试验验证,采用本发明的技术方案,通过语音识别定位,确定人的方位,从而为图像识别给予参考,快速定位人在图像中的准确位置,提高图像识别效率和准确率。
根据本发明的实施例,还提供了对应于指令识别装置的一种电器。该电器可以包括:以上所述的指令识别装置、以上所述的存储设备、以上所述的移动终端中的至少之一。
可选地,所述电器,可以包括:空调器(例如:能够基于图像识别进行自动指令识别的空调器)、冰箱、电视机、热水器、饮水机、空气净化器、抽油烟机中的至少之一。
例如:该电器,可以包括:空调器、热水器、饮水机、电视机、空气净化器、电视机等家用电器。
例如:参见图6和图8所示的例子,该空调器的主控制器,可以与语音识别模块104和图像识别模块106等适配设定。
其中,与图像识别模块106,可以适配设定摄像头。与语音识别模块104,可以适配设定麦克风。
由于本实施例的电器所实现的处理及功能基本相应于前述所示的存储设备、移动终端、指令识别装置中的至少之一的实施例、原理和实例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此不做赘述。
经大量的试验验证,采用本发明的技术方案,通过人脸认证注册的方式进行人脸识别,有利于提升人脸识别的精准性和可靠性,进而提升可靠地向待指令识别对象播放指令识别信息的精准性。
经大量的试验验证,采用本发明的技术方案,通过语音识别定位声音源方位,为图像识别定位操作者位置提供定位参考,提高图像识别进行控制空调的响应速度和准确率。
综上,本领域技术人员容易理解的是,在不冲突的前提下,上述各有利方式可以自由地组合、叠加。
以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。