一种视频动作评分方法及系统与流程

文档序号:13770590阅读:783来源:国知局

本申请涉及信息技术领域,尤其涉及一种视频动作评分方法及系统。



背景技术:

唱歌评分系统,又叫语音卡拉ok评分系统是大家十分熟悉的唱歌娱乐系统。基本功能如图1所示,包括:

(1)播放一首原唱歌曲

(2)用户模仿原唱歌曲

(3)麦克风提取用户的声音

(4)语音卡拉ok评分系统把用户声音与原唱声音比对,根据规则给予评判。

语音卡拉ok评分系统是自助学习唱歌的好方式,掌握唱歌技能的有效途径。

随着用户生活水平的提高,出现了越来越多的需求,例如除了自助学习唱歌之外,用户还可能具有自助学习健身、瑜伽、武术、气功、太极、街舞等运动的需求。由于这些需求不同于唱歌,无法仅用声音的方式进行模仿学习,因此现有的唱歌评分系统无法用于解决用户的上述需求。

申请内容

本申请的一个目的是提供一种视频动作评分方法及系统。

为实现上述目的,本申请提供了一种视频动作评分方法,包括:

播放标准视频,所述标准视频中包括标准动作的二维图像;

采集用户动作的二维图像,其中,所述用户动作是由用户模仿所述标准视频中的标准动作所做出;

对所述标准动作和用户动作的二维图像进行处理,获取所述标准动作和用户动作的相似度评分。

进一步地,所述标准视频中包括一组标准动作的二维图像序列;

对所述标准动作和用户动作的二维图像进行处理,获取所述标准动作和用户动作的相似度评分,包括:

获取当前评分时刻和上一评分时刻的标准动作的二维图像的第一运动差值,以及当前评分时刻和上一评分时刻的用户动作的二维图像的第二运动差值;

根据所述第一运动差值和第二运动差值,确定当前评分时刻所述标准动作和用户动作的相似度评分。

进一步地,该方法还包括:

获取每一个评分时刻所述标准动作和用户动作的相似度评分;

根据每一个评分时刻的相似度评分,确定所有动作的整体相似度评分。

进一步地,获取当前评分时刻和上一评分时刻的标准动作的二维图像的第一运动差值,以及当前评分时刻和上一评分时刻的用户动作的二维图像的第二运动差值之前,还包括:

对所述标准动作和用户动作的二维图像进行灰度化处理。

进一步地,所述标准视频中还包括与所述标准动作的二维图像同步播放的辅助图像。

进一步地,该方法还包括:

播放与所述标准动作的二维图像同步的音频。

进一步地,所述用户动作的二维图像的采集角度与所述标准动作的二维图像的采集角度相同。

基于本申请的另一方面,还提供了一种视频动作评分系统,包括:

播放装置,用于播放标准视频,所述标准视频中包括标准动作的二维图像;

采集装置,用于采集用户动作的二维图像,其中,所述用户动作是由用户模仿所述标准视频中的标准动作所做出;

处理装置,用于对所述标准动作和用户动作的二维图像进行处理,获取所述标准动作和用户动作的相似度评分。

进一步地,所述标准视频中包括一组标准动作的二维图像序列;

所述处理装置,用于获取当前评分时刻和上一评分时刻的标准动作的二维图像的第一运动差值,以及当前评分时刻和上一评分时刻的用户动作的二维图像的第二运动差值;根据所述第一运动差值和第二运动差值,确定当前评分时刻所述标准动作和用户动作的相似度评分。

进一步地,所述处理装置,还用于获取每一个评分时刻所述标准动作和用户动作的相似度评分;以及根据每一个评分时刻的相似度评分,确定所有动作的整体相似度评分。

进一步地,所述处理装置,还用于获取当前评分时刻和上一评分时刻的标准动作的二维图像的第一运动差值,以及当前评分时刻和上一评分时刻的用户动作的二维图像的第二运动差值之前,对所述标准动作和用户动作的二维图像进行灰度化处理。

进一步地,所述标准视频中还包括与所述标准动作的二维图像同步播放的辅助图像。

进一步地,该系统还包括:

所述播放装置,还用于播放与所述标准动作的二维图像同步的音频。

进一步地,所述用户动作的二维图像的采集角度与所述标准动作的二维图像的采集角度相同。

与现有技术相比,本申请提供的方案中,首先向用户播放标准视频,所述标准视频中包括标准动作的二维图像,例如这些标准动作可以是由老师预先录制的健身、瑜伽、武术、气功、太极、街舞等运动的相应动作,使得用户可以查看这些标准动作的二维图像从而进行模仿学习,并做出相应的用户动作,然后采集用户动作的二维图像,对所述标准动作和用户动作的二维图像进行处理,获取所述标准动作和用户动作的相似度评分,使得用户可以实时获得自己做出的动作与标准动作之间的相似性,为用户的模仿学习提供参考,从而满足用户自助学习的需求。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1为语音卡拉ok评分系统的基本功能示意图;

图2为本申请实施例提供的一种视频动作评分系统的结构示意图;

图3为本申请实施中用户动作和标准动作之间相似度评分的原理示意图;

图4为本申请实施例中对模仿的用户动作进行相似度评分的一种处理流程图;

图5为本申请实施例提供的一种视频动作评分方法的流程图;

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中,终端、服务网络的设备均包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。

本申请实施例提供了一种视频动作评分系统,该系统的结构如图2所示,包括三个部分,即播放装置210、采集装置220和处理装置230。其中,播放装置210用于播放标准视频,所述标准视频中包括标准动作的二维图像,这些标准动作可以是由老师预先录制的健身、瑜伽、武术、气功、太极、街舞等运动的相应动作,使得用户可以查看这些标准动作的二维图像从而进行模仿学习,并做出相应的用户动作。

进一步地,所述播放装置210还用于播放与所述标准动作的二维图像同步的音频,例如该音频可以是对于一些标准动作进行解说的音频或者是有助于用户放松的背景音乐等。

在实际场景中,播放装置的具体实现可以是任意能够用于播放视频的屏幕,若需要播放音频则还可以包含音响。这些屏幕和音响可以是任意互联网终端的显示屏和音箱,比如手机屏幕、平板电脑屏幕、台式机屏幕、智能电视机屏幕、机顶盒链接电视机的屏幕等。从用户体验来看,建议使用较大的屏幕,比如智能电视机屏幕、机顶盒链接电视机的屏幕等。

采集装置220用于采集用户动作的二维图像,其中,所述用户动作是由用户模仿所述标准视频中的标准动作所做出。

在实际场景中,采集装置可以是任意互联网终端内嵌的或者外插的摄像头,比如手机自带摄像头、平板电脑自带摄像头、台式机自带或者外接usb摄像头、智能电视机自带或者外接usb摄像头、机顶盒外接usb摄像头等。需要说明的是,本申请实施例中的方案首先考虑的使用环境是现在已有的家庭通用互联网设备,作为视频采集输入的只能是普通的摄像头。在本申请实施例中,该摄像头仅需要具备2d图像的采集能力即可,对于任意特制的摄像头,比如3d摄像头,红外摄像头,双摄像头组成的立体摄像头等,会造成用户需要额外高价购买设备,不具备推广的普遍性,此类摄像头若应用于本申请实施例的方案中,也仅使用其2d摄像功能。

处理装置230用于对所述标准动作和用户动作的二维图像进行处理,获取所述标准动作和用户动作的相似度评分。这些最终计算出的相似度评分可以通过一定的方式反馈给用户,例如通过播放装置主动向用户呈现或者进行保存后可以由用户通过任意的方式进行查询等。

在实际场景中,所述处理装置可以是任意终端设备的处理器,比如手机、平板电脑、台式机、智能电视机、机顶盒等的cpu、cpu或者相应的处理模组。需要说明,互联网终端性能千差万别,类似机顶盒等主要用来播放是视频的,gpu能力较强,而处理算法的cpu比较弱。所以处理视频相似性的算法必须精简高效,能在家庭任何普通终端上有效运行,比如不仅仅支持windows系统,而且还支持android系统或者ios系统的终端设等。

由于处理装置能够对所述标准动作和用户动作的二维图像进行处理,获取所述标准动作和用户动作的相似度评分,由此使得用户可以实时获得自己做出的动作与标准动作之间的相似性,为用户的模仿学习提供参考,从而满足用户自助学习的需求。在实现本申请实施例的目的时,往往存在一个误区,即视频主要反应的是人体的运动,而人体的运动是三维方向进行,是否需要用三维的采集技术来采集信息,并进行三维的运动的评判。

首先,如果专业的角度用三维的摄像头捕捉三维的运动的确是最佳的,如果再配合三维人体骨架构造和实时关节点的计算效果更好。但是从互联网推广角度来看,由于三维运动的采集和三维运动的评判需要额外添置专业设备以及复杂的判断算法,由此使得整套系统的推广和普及变得十分困难。

而事实上,当我们无法对实际物体进行评测时,用实际物体表现出来的某个特征来替代物体的完整特征是非常有效的方法。在本申请实施例提供的系统中,作为学员的用户可以不用理解老师做了哪些动作,假定老师的动作是标准的,此时处理装置需要的只是判定用户的动作与老师的标准动作的相似性即可,所以可以采用相同的角度用普通的摄像头连续拍摄老师的标准视频和用户的实时视频,使得所述用户动作的二维图像的采集角度与所述标准动作的二维图像的采集角度相同。

由此,用户动作的二维图像和标准动作的二维图像都是真实的三维动作在同一二维平面上的投影,通过二维平面的图像特征来替代动作的完整三维特征,进行相似性的判断。如果老师和用户的动作的二维投影相同,则可以推断出用户模仿的动作相似性高,反之如果双方的二维投影完全不同,可以推断动作模仿的相似性低。由此,可以大大的降低对设备功能以及相应判断算法复杂性的要求,有利于系统的推广和普及。

当本申请实施例提供的方案应用于健身、瑜伽、武术、气功、太极、街舞等运动的自助学习时,标准视频可以是预先拍摄的老师整套动作视频,该视频作为模板,用于播放为用户,并用作与用户的动作进行比对的标准。在实际的应用场景中,标准视频最好符合以下的要求:

1.老师拍摄的标准视频因为需要用来和用户拍摄实时视频比对,所以视频的一致性有严格要求,老师拍摄视频的方式必须和用户锻炼时候摄像头拍摄的方式一样。即固定机位连续拍摄,使得两者的采集角度一致,视频中严禁多机位不同角度的拍摄,远景和近景的交叉后期制作等。

2.视频比对是针对运动部分进行的,所以会提取老师视频中运动的部分,要求视频中除了老师的动作,背景不能有其它运动的部分,例如被风吹动的窗帘,路过的行人等。具体从视频图像中识别出相应动作的方式可以采用任意一种成熟的图像识别算法。

相应地,采集关于用户动作的运动视频时,也最好符合以下要求:

1.用户进行模仿运动,用户动作被摄像头拍摄成视频,与事先准备的标准视频中的标准动作比对,所以要求用户在摄像头拍摄范围内的动作和老师的一致。比如老师的视频是全身的动作那么用户的摄像头拍摄视频也要是全身的,老师站立在视频图像范围的当中,用户也尽量站立在图像范围的中间。

2.由于同样需要提取用户运动视频中运动的部分,来识别出用户动作,因此要求视频中除了用户的动作,背景不能有其它运动的部分,比如被风吹动的窗帘,路过的行人等。

由于本申请提供的方案一般会被用户用于进行相应动作的模仿学习,为了使得用户能够更加明确地掌握动作的要领,播放装置210所播放的标准视频中,还可以包含与所述标准动作的二维图像同步播放的辅助图像,在实际场景中,对于辅助图像的内容并没有严格的限制,例如可以是关于动作要领的解说文字、特定的背景图像或者其它角度的二维图像等。

而关于前述提及的标准视频的背景中不能有运动物体,有可能会造成内容较为单一。由此可以将标准视频分前后二期处理。例如可以拍摄时候用绿屏背景等成熟技术,原视频拍摄结束后,前期,针对绿屏视频做预处理,提取标准视频中的一组标准动作的二维图像序列,实际场景中可以是标准动作的二维图像和对应其时间戳,这个预处理的结果供以后与用户视频做比对。后期,绿屏背景的标准视频可以做后期处理,可以添加任意的辅助图像作为背景,这个经过后期制作的视频可以作为播放给用户模仿动作的标准视频。

此种方式将用于对比的信息(预处理提取的标准动作的二维图像和对应时间戳)和用于播放给用户的视频内容分离,可以让用户看到的教学视频丰富多彩,又不影响用户的动作比对,极具实际使用意义。

处理装置220进行相似度对比的处理流程如下:

首先,获取当前评分时刻和上一评分时刻的标准动作的二维图像的第一运动差值,以及当前评分时刻和上一评分时刻的用户动作的二维图像的第二运动差值。例如当进行实时评分时,采集到最新动作的当前时刻即为当前评分时刻t1,而采集到上一动作的时刻即为上一评分时刻t0。

然后,根据所述第一运动差值和第二运动差值,确定当前评分时刻所述标准动作和用户动作的相似度评分,即将第一运动差值和第二运动差值进行对比,确定两者之间的第三差值,该第三差值即为标准动作和用户动作的不同之处,第三差值越大,则用户模仿的相似度越低,反之用户模仿的相似度越高。具体的评分原理可以如图3所示。

进一步地,由于整套模仿动作会包含一系列动作序列,因此,处理装置还可以获取每一个评分时刻所述标准动作和用户动作的相似度评分,然后根据每一个评分时刻的相似度评分,确定所有动作的整体相似度评分,例如进行加权平均或者算术平均,给出一个关于整套动作的整体相似度评分。

由于视频图像中的一些色彩可能会对评分结果造成干扰,因此在本申请提供的一种优选的实施方式中,所述处理装置会在获取当前评分时刻和上一评分时刻的标准动作的二维图像的第一运动差值,以及当前评分时刻和上一评分时刻的用户动作的二维图像的第二运动差值之前,对所述标准动作和用户动作的二维图像进行灰度化处理,以灰度化的图像进行后续的处理。

图4示出了本申请实施例中对模仿的用户动作进行相似度评分的一种处理流程,包括了以下步骤:

步骤s401,把标准视频和关于用户动作的视频进行灰度化处理。

步骤s402,同组视频把当时t1的帧与上一次时间t0帧进行差值计算,得到两个视频帧中不相同的部分。该不相同的部分就是两帧之间动作的运动差值,由此可以得到t1时间老师的标准动作的第一运动差值和用户动作的第二运动差值。在实际场景中,对于一个标准视频中的一套标准动作,可以预先计算并保存其各个评分时刻的第一运动差值,在需要与第二运动差值进行时直接调用即可。

步骤s403,把两组的运动差值在进行差值计算,结果就是两组视频之间的不同之处,由此可以确定两者的相似度评分。如果最终的差值很小,表示两组运动相似性高,反之表示相似性差,从而实现对单个动作的评价。

步骤s404,持续按照时间轴进行上面的处理,得到每个评分时刻t1、t2、t3、……tn的相似度评分,进而计算整套动作的完整相似度评分,从而实现对整套动作的评价。

基于同一发明构思,本申请实施例中还提供了视频动作评分方法,所述方法即为前述设备实现视频动作评分的方法,并且其解决问题的原理与该设备相似。

图5示出了本申请实施例提供了一种视频动作评分方法的处理流程图,该方法包括了如下的处理步骤:

步骤s501,播放标准视频,所述标准视频中包括标准动作的二维图像,这些标准动作可以是由老师预先录制的健身、瑜伽、武术、气功、太极、街舞等运动的相应动作,使得用户可以查看这些标准动作的二维图像从而进行模仿学习,并做出相应的用户动作。

进一步地,在播放标准视频的同时,还可以播放与所述标准动作的二维图像同步的音频,例如该音频可以是对于一些标准动作进行解说的音频或者是有助于用户放松的背景音乐等。

在实际场景中,用于播放的装置的具体实现可以是任意能够用于播放视频的屏幕,若需要播放音频则还可以包含音响。这些屏幕和音响可以是任意互联网终端的显示屏和音箱,比如手机屏幕、平板电脑屏幕、台式机屏幕、智能电视机屏幕、机顶盒链接电视机的屏幕等。从用户体验来看,建议使用较大的屏幕,比如智能电视机屏幕、机顶盒链接电视机的屏幕等。

步骤s502,采集用户动作的二维图像,其中,所述用户动作是由用户模仿所述标准视频中的标准动作所做出。

在实际场景中,用于采集的装置可以是任意互联网终端内嵌的或者外插的摄像头,比如手机自带摄像头、平板电脑自带摄像头、台式机自带或者外接usb摄像头、智能电视机自带或者外接usb摄像头、机顶盒外接usb摄像头等。需要说明的是,本申请实施例中的方案首先考虑的使用环境是现在已有的家庭通用互联网设备,作为视频采集输入的只能是普通的摄像头。在本申请实施例中,该摄像头仅需要具备2d图像的采集能力即可,对于任意特制的摄像头,比如3d摄像头,红外摄像头,双摄像头组成的立体摄像头等,会造成用户需要额外高价购买设备,不具备推广的普遍性,此类摄像头若应用于本申请实施例的方案中,也仅使用其2d摄像功能。

步骤s503,对所述标准动作和用户动作的二维图像进行处理,获取所述标准动作和用户动作的相似度评分。这些最终计算出的相似度评分可以通过一定的方式反馈给用户,例如通过播放的装置主动向用户呈现或者进行保存后可以由用户通过任意的方式进行查询等。

在实际场景中,用于处理的装置可以是任意终端设备的处理器,比如手机、平板电脑、台式机、智能电视机、机顶盒等的gpu、cpu或者相应的处理模组。需要说明,互联网终端性能千差万别,类似机顶盒等主要用来播放是视频的,图像处理能力较强,而其它终端的处理器可能针对图像的处理能力较弱。所以处理视频相似性的算法必须精简高效,能在家庭日常使用的任何普通终端上有效运行,比如不仅仅支持windows系统,而且还支持android系统或者ios系统的终端设等。

由于能够对所述标准动作和用户动作的二维图像进行处理,获取所述标准动作和用户动作的相似度评分,由此使得用户可以实时获得自己做出的动作与标准动作之间的相似性,为用户的模仿学习提供参考,从而满足用户自助学习的需求。在实现本申请实施例的目的时,往往存在一个误区,即视频主要反应的是人体的运动,而人体的运动是三维方向进行,是否需要用三维的采集技术来采集信息,并进行三维的运动的评判。

首先,如果专业的角度用三维的摄像头捕捉三维的运动的确是最佳的,如果再配合三维人体骨架构造和实时关节点的计算效果更好。但是从互联网推广角度来看,由于三维运动的采集和三维运动的评判需要额外添置专业设备以及复杂的判断算法,由此使得整套系统的推广和普及变得十分困难。

而事实上,当我们无法对实际物体进行评测时,用实际物体表现出来的某个特征来替代物体的完整特征是非常有效的方法。在本申请实施例提供的系统中,作为学员的用户可以不用理解老师做了哪些动作,假定老师的动作是标准的,此时需要的只是判定用户的动作与老师的标准动作的相似性即可,所以可以采用相同的角度用普通的摄像头连续拍摄老师的标准视频和用户的实时视频,使得所述用户动作的二维图像的采集角度与所述标准动作的二维图像的采集角度相同。

由此,用户动作的二维图像和标准动作的二维图像都是真实的三维动作在同一二维平面上的投影,通过二维平面的图像特征来替代动作的完整三维特征,进行相似性的判断。如果老师和用户的动作的二维投影相同,则可以推断出用户模仿的动作相似性高,反之如果双方的二维投影完全不同,可以推断动作模仿的相似性低。由此,可以大大的降低对设备功能以及相应判断算法复杂性的要求,有利于系统的推广和普及。

当本申请实施例提供的方案应用于健身、瑜伽、武术、气功、太极、街舞等运动的自助学习时,标准视频可以是预先拍摄的老师整套动作视频,该视频作为模板,用于播放为用户,并用作与用户的动作进行比对的标准。在实际的应用场景中,标准视频最好符合以下的要求:

1.老师拍摄的标准视频因为需要用来和用户拍摄实时视频比对,所以视频的一致性有严格要求,老师拍摄视频的方式必须和用户锻炼时候摄像头拍摄的方式一样。即固定机位连续拍摄,使得两者的采集角度一致,视频中严禁多机位不同角度的拍摄,远景和近景的交叉后期制作等。

2.视频比对是针对运动部分进行的,所以会提取老师视频中运动的部分,要求视频中除了老师的动作,背景不能有其它运动的部分,例如被风吹动的窗帘,路过的行人等。具体从视频图像中识别出相应动作的方式可以采用任意一种成熟的图像识别算法。

相应地,采集关于用户动作的运动视频时,也最好符合以下要求:

1.用户进行模仿运动,用户动作被摄像头拍摄成视频,与事先准备的标准视频中的标准动作比对,所以要求用户在摄像头拍摄范围内的动作和老师的一致。比如老师的视频是全身的动作那么用户的摄像头拍摄视频也要是全身的,老师站立在视频图像范围的当中,用户也尽量站立在图像范围的中间。

2.由于同样需要提取用户运动视频中运动的部分,来识别出用户动作,因此要求视频中除了用户的动作,背景不能有其它运动的部分,比如被风吹动的窗帘,路过的行人等。

由于本申请提供的方案一般会被用户用于进行相应动作的模仿学习,为了使得用户能够更加明确地掌握动作的要领,播放的标准视频中,还可以包含与所述标准动作的二维图像同步播放的辅助图像,在实际场景中,对于辅助图像的内容并没有严格的限制,例如可以是关于动作要领的解说文字、特定的背景图像或者其它角度的二维图像等。

而关于前述提及的标准视频的背景中不能有运动物体,有可能会造成内容较为单一。由此可以将标准视频分前后二期处理。例如可以拍摄时候用绿屏背景等成熟技术,原视频拍摄结束后,前期,针对绿屏视频做预处理,提取标准视频中的一组标准动作的二维图像序列,实际场景中可以是标准动作的二维图像和对应其时间戳,这个预处理的结果供以后与用户视频做比对。后期,绿屏背景的标准视频可以做后期处理,可以添加任意的辅助图像作为背景,这个经过后期制作的视频可以作为播放给用户模仿动作的标准视频。

此种方式将用于对比的信息(预处理提取的标准动作的二维图像和对应时间戳)和用于播放给用户的视频内容分离,可以让用户看到的教学视频丰富多彩,又不影响用户的动作比对,极具实际使用意义。

进行相似度对比的处理流程如下:

首先,获取当前评分时刻和上一评分时刻的标准动作的二维图像的第一运动差值,以及当前评分时刻和上一评分时刻的用户动作的二维图像的第二运动差值。例如当进行实时评分时,采集到最新动作的当前时刻即为当前评分时刻t1,而采集到上一动作的时刻即为上一评分时刻t0。

然后,根据所述第一运动差值和第二运动差值,确定当前评分时刻所述标准动作和用户动作的相似度评分,即将第一运动差值和第二运动差值进行对比,确定两者之间的第三差值,该第三差值即为标准动作和用户动作的不同之处,第三差值越大,则用户模仿的相似度越低,反之用户模仿的相似度越高。具体的评分原理可以如图3所示。

进一步地,由于整套模仿动作会包含一系列动作序列,因此,该方法还可以获取每一个评分时刻所述标准动作和用户动作的相似度评分,然后根据每一个评分时刻的相似度评分,确定所有动作的整体相似度评分,例如进行加权平均或者算术平均,给出一个关于整套动作的整体相似度评分。

由于视频图像中的一些色彩可能会对评分结果造成干扰,因此在本申请提供的一种优选的实施方式中,会在获取当前评分时刻和上一评分时刻的标准动作的二维图像的第一运动差值,以及当前评分时刻和上一评分时刻的用户动作的二维图像的第二运动差值之前,对所述标准动作和用户动作的二维图像进行灰度化处理,以灰度化的图像进行后续的处理。

图4示出了本申请实施例中对模仿的用户动作进行相似度评分的一种处理流程,包括了以下步骤:

步骤s401,把标准视频和关于用户动作的视频进行灰度化处理。

步骤s402,同组视频把当时t1的帧与上一次时间t0帧进行差值计算,得到两个视频帧中不相同的部分。该不相同的部分就是两帧之间动作的运动差值,由此可以得到t1时间老师的标准动作的第一运动差值和用户动作的第二运动差值。在实际场景中,对于一个标准视频中的一套标准动作,可以预先计算并保存其各个评分时刻的第一运动差值,在需要与第二运动差值进行时直接调用即可。

步骤s403,把两组的运动差值在进行差值计算,结果就是两组视频之间的不同之处,由此可以确定两者的相似度评分。如果最终的差值很小,表示两组运动相似性高,反之表示相似性差,从而实现对单个动作的评价。

步骤s404,持续按照时间轴进行上面的处理,得到每个评分时刻t1、t2、t3、……tn的相似度评分,进而计算整套动作的完整相似度评分,从而实现对整套动作的评价。

相较于目前市场上的几种解决方案,例如本申请实施例提供的方案都具有很大的优势。

1.类似微软推广xbox和kinect摄像头技术,或者其它双摄像头3d技术等。

此类技术的原理就是试图掌握用户的动作,从获取用户三维影像开始,重构人体动作,再比对老师的动作,比较相似性。就目前的设备而言,需要额外采购专用设备,需要的计算量较大主机性能要求较高。使用环境也有严格要求不能有红外干扰等。特别麻烦是有些运动场景比如扭身,倒立,弯腰等人体严重变形,骨架被重叠掩盖。造成骨架点的计算和预测能力严重下降,计算相似性非常困难。实际使用效果不佳。

而本申请提供的方案系统把老师和用户的三维运动按照记录为同样形式,即通过摄像头都投影到二维平面中,与具体做的动作无关,没有骨架的判定动作的理解,反而能适应各种不同种类的运动,且实现成本低,适合推广和普及。

2.类似wii推广的手柄技术,或者其它穿戴外设技术。

此类技术依托某一个或多个外设,无法真正反应全身的运动场景。而且与人体接触的设备容易造成设备损坏,电池供电不足等困难。而且此方法无法获取用户的真正的影像,从而无法验证用户身份。不能作为教学评分的依据。

而本申请提供的方案通过摄像头拍摄用户做出动作的视频,不与用户的身体进行直接接触。用户全身没有任何穿戴设备,全身都可以自由参与运动。拍摄的视频可以清晰判定用户身份,不但适合娱乐还适合教学评估。

3.直接观看视频模仿技术。

很多的互联网运动教学都有app,提供老师的视频,视频可以是多角度的,全景和局部特写,语音提示等知道用户模仿参与运动。缺少的摄像头采集机制和评分功能,这种运动学习是单向的。用户不知道自己的动作是否正确,老师也无法获得学员的锻炼反馈,是不完整的学习方式。而本申请提供的方案则可以对用户模仿的动作进行相似度评分,使得用户能够知晓自己的动作是否正确,而老师也能够获知学员的锻炼反馈。

综上所述,本方案的设计把动作比对从必须一定要理解用户的骨骼和理解用户的动作这个前提中解放出来,变成二维图像的相似性比对,由此可以大大降低设备的性能要求以及评价算法的复杂性要求。

并且,相较于语音卡拉ok评分系统,本申请的方案虽然只是从语音拓展到视频,使用的场景却变的十分广泛。任何的学习都是模仿,任何与身体动作相关的学习都可以用本方案做成闭环教学。即老师给你教学示范视频,用户学习麻烦,自动比对做相似性评价。用户很容易知晓哪些动作不对,需要改进,也很容易知道整体动作完成的好坏。同时,整个评价过程中,用户的运动视频都是可以记录下来的。保留下来的视频比对保留下来的语音根据实际意义。因为保留的视频更加直观的可以看到用户是谁,与相似性评价结合,可以清晰的反应哪一位用户做哪一个操,做的结果如何。这个在教学和评判上根据实际意义。

需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(asic)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,ram存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。

对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1