动作检测方法和动作检测模型的训练方法及相关装置与流程

文档序号:31400555发布日期:2022-09-03 04:28阅读:138来源:国知局
动作检测方法和动作检测模型的训练方法及相关装置与流程

1.本技术涉及图像处理技术领域,特别是涉及一种动作检测方法和动作检测模型的训练方法及相关装置。


背景技术:

2.在现实生活中,对动作进行识别或查找在众多场景中格外重要。例如,在图像搜索场景中,通过动作检测,有助于相关人员快速缩小搜索范围;或者,在视频查找场景中,通过对视频中的帧图像进行动作检测,有助于快速定位到对应视频内容,如此种种,不一而足。
3.目前,动作检测一般是采用深度学习模型对待测图像进行直接预测,该预测的动作类别只能是在对深度学习模型进行训练的过程中样本数据的动作类别。若需添加新的检测动作类别时,必须采用新动作类别的样本数据对深度学习模型进行重新训练,降低了动作检测的效率。有鉴于此,如何提高动作检测的适用性成为亟待解决的问题。


技术实现要素:

4.本技术主要解决的技术问题是提供一种动作检测方法和动作检测模型的训练方法及相关装置,能够提高动作检测的适用性。
5.为了解决上述技术问题,本技术第一方面提供了一种动作检测方法,包括:对待测图像序列进行特征提取,得到待处理特征,并对模板图像序列的模板特征和待处理特征进行匹配处理,得到匹配特征,再利用匹配特征进行预测,确定待测图像序列的动作检测结果,动作检测结果包括待测图像序列是否存在模板图像序列对应的模板动作。
6.为了解决上述技术问题,本技术第二方面提供了一种动作检测模型的训练方法,包括:利用动作检测模型的特征提取网络分别对样本待测图像序列和样本模板图像序列进行特征提取,得到样本待测图像序列样本待测特征和样本模板图像序列的样本模板特征;并利用匹配模块对样本模板特征和样本待测特征进行匹配处理,得到样本匹配特征;再利用预测模块基于样本匹配特征进行预测,确定样本待测图像序列的样本动作检测结果;最后,基于样本动作检测结果,调整动作检测模型的网络参数。
7.为了解决上述技术问题,本技术第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面中的动作检测方法或上述第二方面中的动作检测模型的训练方法。
8.为了解决上述技术问题,本技术第四方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面中的动作检测方法或上述第二方面中的动作检测模型的训练方法。
9.上述方案,通过对待测图像序列进行特征提取,得到待处理特征,并对模板图像序列的模板特征和待处理特征进行匹配处理,得到匹配特征。在此基础上,利用匹配特征进行预测,确定待测图像序列的动作检测结果,动作检测结果包括待测图像序列是否存在模板图像序列对应的模板动作,一方面通过对基于待处理特征与模板特征得到的匹配特征进行
预测,实现对待测图像序列是否存在模板图像序列中的模板动作的检测,相比于直接利用待测图像序列的图像特征进行预测,能够提高动作检测的准确性,而且由于直接利用待测图像序列的图像特征进行预测,预测网络只能预测已知模板动作,而本方案通过匹配特征确定待测图像序列是否存在模板图像序列中的模板动作,即使预测网络在预测之前未知模板图像序列中的模板动作,也可实现其模板动作的检测,即实现对预测网络在预测之前未知的模板动作的检测,进而提高动作检测的适用性;另一方面,利用匹配特征进行预测,能够尽可能地提高动作检测的简单性和高效性。
10.此外,本技术方案的动作检测过程可以采用动作检测模型执行,由于本技术方案通过匹配特征确定待测图像序列是否存在模板图像序列中的模板动作,故即使该模板图像序列中的模板动作未在动作检测模型的训练过程中出现过,也能够直接利用当前动作检测模型实现该未知模板动作的检测,且无需重新训练,故提高动作检测的适用性,且提高动作检测的效率。
11.再者,本技术方案的动作检测过程采用动作检测模型执行时,在对动作检测模型训练过程中,还利用两个相同的特征提取网络对样本待测图像序列和样本模板图像序列进行特征提取,并对提取到的特征进行匹配,进而预测得到样本检测结果,最后基于样本检测结果对模型进行调整,能够使训练好的动作检测模型泛化效果更好。
附图说明
12.图1是本技术动作检测方法一实施例的流程示意图;图2是模板特征和待处理特征匹配得到匹配特征一实施例的示意图;图3是动作检测模型一实施例的示意图;图4是本技术动作检测模型的训练方法一实施例的流程示意图;图5是对动作检测模型进行测试一实施例的示意图;图6是本技术动作检测装置一实施例的框架示意图;图7是本技术动作检测模型的训练装置一实施例的框架示意图;图8是本技术电子设备一实施例的框架示意图;图9是本技术计算机可读存储介质一实施例的框架示意图。
具体实施方式
13.下面结合说明书附图,对本技术实施例的方案进行详细说明。
14.以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本技术。
15.本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
16.请参阅图1,图1是本技术动作检测方法一实施例的流程示意图。具体而言,可以包括如下步骤:步骤s11:对待测图像序列进行特征提取,得到待处理特征。
17.在一个实施场景中,待测图像序列包括若干待测图像,该待测图像序列的待处理特征包含各待测图像的特征。该若干待测图像可以是通过拍摄器件在若干时刻对待测场景分别进行拍摄的若干张图像,也可以是从通过拍摄器件对待测场景进行拍摄的视频中选取的若干视频帧,通常该若干视频帧可以选择视频中最大时间间隔小于预设时间间隔的若干视频帧,例如从视频中选择连续的若干视频帧。待测图像序列可以根据实际情况进行选择,在此不做具体限定。
18.在一个实施场景中,可以通过lbp算法(local binary patterns,局部二值模式)对待测图像序列进行特征提取,还可以通过hog特征提取算法(histogram of oriented gradient,方向梯度直方图)对待测图像序列进行特征提取,也可以通过特征提取网络对待测图像序列进行特征提取,示例性地,特征提取网络可以是cnn(convolution neural network,卷积神经网络),也可以是rcnn(region based convolutional neural network,基于区域的卷积神经网络)等。特征提取方式可以根据实际情况进行选择,在此不做具体限定。
19.步骤s12:对模板图像序列的模板特征和待处理特征进行匹配处理,得到匹配特征。
20.本技术动作检测的方式是基于模板图像序列和待测图像序列之间的匹配特征检测待测图像序列中是否存在模板图像序列中的模板动作。故在一个实施场景中,在进行本步骤之前,还需获取模板图像序列的模板特征。需要说明的是,模板图像序列和待测图像序列的动作检测对象相同或相似,示例性地,当进行手部动作检测时,模板图像序列和待测图像序列均为手部动作检测图像序列;当进行头部动作检测时,模板图像序列和待测图像序列均为头部动作检测图像序列,动作检测的应用场景可以根据实际情况进行选择,在此不做具体限定。该模板图像序列包括若干模板图像,该模板图像序列的待处理特征包含各模板图像的特征,该若干模板图像具体可以是通过拍摄器件在若干时刻对一场景分别进行拍摄的若干张图像,也可以是从通过拍摄器件对一场景进行拍摄的视频中选取的若干视频帧。在一些实施例中,为了便于后续的动作检测,节省处理资源,该模板图像可以是从上述拍摄期间拍摄到的原始图像中对动作检测对象进行裁剪得到的局部图像,例如,动作检测图像为人,该模板图像是将拍摄到的原始图像的该人的检测框部分进行裁剪得到的局部图像。可以理解的是,该模板图像序列中的模板图像数量与待测图像序列中的待测图像数量可以为相同或不同。
21.在一个实施场景中,待处理特征和模板特征可以利用相同的特征提取网络提取得到的,当然,待处理特征和模板特征也可以利用网络结构和参数相同的两个特征提取网络分别提取得到的。上述方式,通过具有相同权重的特征提取网络提取得到待处理特征和模板特征,有助于提高类别不平衡时网络的鲁棒性,进而使动作检测方法的使用场景更广泛。可以理解的是,该模板特征可以是提前利用上述的特征提取网络对模板图像序列进行特征提取得到的,例如,在确定将一种模板动作的图像序列作为模板图像序列之后,可先利用上述的特征提取网络对模板图像序列进行特征提取得到模板特征,并将模板特征保存在特征库中,以便于后续在获得待测图像序列后,与待测图像序列的待处理特征进行匹配进而实现待测图像序列的动作检测;又或者,可以先保存模板图像序列,在需要对待测图像序列进行动作检测时分别利用上述的特征提取网络对模板图像序列、待测图像序列进行特征提
取,以得到模板特征和待处理特征,进而利用模板特征和待处理特征进行匹配以实现待测图像序列的动作检测。
22.在一个实施场景中,匹配特征可以包含模板特征和待处理特征的融合特征。具体如,可以对模板特征和待处理特征在维度上进行特征拼接,进而得到匹配特征。
23.在另一个实施场景中,为了进一步提升匹配特征的准确性,可以利用匹配网络对模板特征和待处理特征进行匹配处理,得到匹配特征。具体地,可以先利用模板特征和待处理特征进行第一融合处理,得到相似度特征;再利用模板特征和待处理特征进行互相关处理,得到互相关特征,示例性地,当模板特征为c*a*b(c为模板特征个数,即为模板图像的数量,a为模板特征高度,b为模板特征的宽度),待处理特征为c*1*1(c为待处理特征个数,即为待测图像的数量,1为待处理特征高度,1为待处理特征的宽度),用模板特征c*a*b和待处理特征c*1*1做乘积,得到互相关特征c*a*b。在此基础上,对相似度特征和互相关特征进行第二融合处理,得到匹配特征,示例性地,当相似度特征为c*a*b,互相关特征也为c*a*b,可以先相似度特征和互相关特征进行拼接,得到拼接结果2c*a*b,然后再对拼接结果进行卷积操作,得到匹配特征c*a*b;或者,也可以先对相似度特征和互相关特征进行拼接,确定拼接结果,再对拼接结果进行降维处理,得到匹配特征。第二融合处理方式可以根据实际情况进行选择,在此不做具体限定。上述方式,通过模板特征和待处理特征进行处理分别得到相似度特征和互相关特征,进而通过相似度特征和互相关特征得到匹配特征,可以进一步提高匹配特征的高效性,从而提高动作检测的准确性。
24.在一个实施场景中,为了得到相似度特征,可以对模板特征进行降采样处理,得到采样特征,在此过程中,对特征进行降采样处理可以进一步减少对模板特征的计算量。在得到采样特征之后,可以对采样特征与待处理特征进行第一融合处理,得到相似度特征,具体地,第一融合处理方式可以为先对采样特征与待处理特征进行拼接,再进行卷积操作,得到相似度特征,示例性地,若采样特征与待处理特征均为c*a*b,进行拼接后得到特征为2c*a*b,再进行卷积操作得到相似度特征c*a*b;第一融合处理方式还可以先对采样特征与待处理特征进行拼接,再进行降维处理,得到相似度特征。相似度特征的获取方式可以根据实际情况进行选择,在此不做具体限定。上述方式,通过对模板特征进行降采样处理,有助于减少对模板特征的计算量,进而提高动作检测方法的简单性和高效性。
25.在一个具体实施场景中,为了得到采样特征,可以对模板特征分别进行第一池化处理和第二池化处理,对应得到第一池化特征和第二池化特征,其中,第一池化处理和第二池化处理中一者可以是平均池化处理,另一者可以是最大池化处理,第一池化处理和第二池化处理在此不做具体限定,可以根据实际情况进行选择。在得到第一池化特征和第二池化特征之后,可以融合第一池化特征和第二池化特征,即对第一池化特征和第二池化特征进行拼接,得到维度为预设维度的两倍的拼接特征,示例性地,若第一池化特征为c*1*1,第二池化特征也为c*1*1,对第一池化特征和第二池化特征进行拼接得到的拼接特征为2c*1*1。在得到拼接特征之后,可以对拼接特征进行降维处理,得到预设维度的采样特征,也可以对拼接特征进行卷积操作,得到预设维度的采样特征。获取采样特征的方式可以根据实际情况进行选择,在此不做具体限定。需要说明的是,模板特征和待处理特征、第一池化特征、第二池化特征、采样特征、复制特征的维度均为预设维度。上述方式,通过对模板特征进行池化处理,可以在保留主要特征的同时减少参数和计算量,防止过拟合,进而尽可能地提高
动作检测的简单性和高效性。
26.在一个具体实施场景中,为了得到相似度特征,可以通过复制采样特征的方式,生成与待处理特征大小相同的复制特征,具体地,可以分别对采样特征中每个维度上的特征进行复制,得到预设维度且分辨率与待处理特征的分辨率相同的复制特征,示例性地,若采样特征为c*1*1,待处理特征的分辨率为c*a*b,则对采样特征在每个维度上进行复制,即经过a*b次复制,得到复制特征为c*a*b。在此基础上,对复制特征和待处理特征进行第一融合处理,得到相似度特征。需要说明的是,模板特征和待处理特征、第一池化特征、第二池化特征、采样特征、复制特征的维度均为预设维度。上述方式,通过对采样特征进行复制,进而节省了计算成本,有助于提高动作检测的高效性。
27.请参阅图2,图2是模板特征和待处理特征匹配得到匹配特征一实施例的示意图,模板图像序列的模板特征为c*h*w(c为模板特征个数,h为模板特征高度,w为模板特征宽度),待处理特征为c*h*w(c为待处理特征个数,h为待处理特征高度,w为待处理特征宽度),先对模板特征进行第一池化处理和第二池化处理,得到第一池化特征和第二池化特征,此时,第一池化特征和第二池化特征均为c*1*1,然后对第一池化特征和第二池化特征进行拼接,得到拼接特征2c*1*1,然后对拼接特征进行降维处理,得到采样特征c*1*1。再对采样特征与待处理特征进行第一融合处理,得到相似度特征,可以先通过复制采样特征的方式,得到复制特征,具体地,分别对采样特征中每个维度上的特征进行复制,得到预设维度且分辨率与待处理特征的分辨率相同的复制特征c*h*w;然后再对复制特征和待处理特征进行第一融合处理,得到相似度特征,具体地,可以对先对复制特征和待处理特征进行拼接得到2c*h*w的特征,并对该特征进行卷积操作,得到相似度特征c*h*w。此外,对模板特征和待处理特征进行互相关处理,具体地,对每个c维度上用采样特征尺寸1*1和待处理特征尺寸h*w做乘积,得到互相关特征c*h*w。在此基础上,对相似度特征和互相关特征进行第二融合处理,具体地,可以先对相似度特征和互相关特征拼接得到2c*h*w特征,然后再对该特征进行卷积操作,得到匹配特征c*h*w。
28.步骤s13:基于匹配特征进行预测,确定待测图像序列的动作检测结果,动作检测结果包括待测图像序列是否存在模板图像序列对应的模板动作。
29.在一个实施场景中,动作检测结果包括待测图像序列中存在模板动作的位置信息和位置信息的置信度。需要说明的是,模板动作的位置信息可以通过待测图像中模板动作区域的外接矩形进行表征(例如包含该外接矩形的左上角和右下角的坐标),也可以通过待测图像中模板动作区域中关键点进行表征,模板动作的位置信息的表征方式可以根据实际情况进行选择,在此不做具体限定。
30.在一个实施场景中,为了获取动作检测结果,可以通过预测网络对匹配特征进行预测,示例性地,预测网络可以包括但不限于:cnn、rcnn,当然,预测网络还可以由两个模块组成,分别为回归模块和分类模块,回归模块用于预测待测图像序列中存在模板动作的位置信息,分类模块用于预测待测图像序列中是否存在模板图像序列对应的模板动作的表征信息,具体地,该表征信息可以为位置信息的置信度(即该置信度可以理解为模板动作概率),故可以根据该置信度的大小确定待测图像序列中是否存在模板图像序列对应的模板动作,且根据上述位置信息确定可能存在的模板动作所在的位置。预测网络可以根据实际情况进行选择,在此不做限定。
31.请参阅图3,图3是动作检测模型一实施例的示意图,如图3所示,对待测图像序列进行特征提取,得到待处理特征,并对模板图像序列的模板特征和待处理特征进行匹配处理,得到匹配特征;基于匹配特征进行预测,确定待测图像序列的动作检测结果的步骤可以由动作检测模型执行。具体,可以先利用动作检测模型的特征提取网络对待测图像序列进行特征提取,得到待处理特征;再利用动作检测模型的匹配网络对模板图像序列的模板特征和待处理特征进行匹配处理,得到匹配特征;在此基础上,利用动作检测模型的预测网络基于匹配特征进行预测,确定待测图像序列的动作检测结果,动作检测结果包括待测图像序列是否存在模板图像序列对应的模板动作。
32.在一个具体实施场景中,在动作检测模型训练过程中,动作检测模型包括特征提取网络,特征提取网络包括第一子网络和第二子网络,并且第一子网络和第二子网络的网络结构和参数相同,可以利用第一子网络对样本待测图像序列进行特征提取,得到样本待处理特征;以及利用第二子网络对样本模板图像序列进行特征提取,得到样本模板特征;利用匹配网络对样本模板特征和样本待测特征进行匹配处理,得到样本匹配特征;利用预测网络基于样本匹配特征进行预测,确定样本待测图像序列的样本动作检测结果;基于样本动作检测结果,调整动作检测模型的网络参数;且动作检测模型训练完成后,将第一子网络和第二子网络中的至少一个作为训练完成后的动作检测模型中的特征提取网络,即训练好的动作检测模型除包含上述匹配网络和预测网络以外,还包括上述第一子网络和第二子网络中的至少一个,例如,训练好的动作检测模块可以仅保留第一子网络和第二子网络中的一者(如只保留上述的第一子网络),以用于提取上述的待处理特征;又例如,若训练好的动作检测模块可以保留第一子网络和第二子网络,该第一子网络和第二子网络均用于提取上述的待处理特征。上述方式,通过对待测图像序列进行特征提取,并通过样本模板特征和样本待测特征得到匹配特征,有助于提高匹配过程中的准确性,进而提高动作检测的准确性。
33.在一个实施场景中,模板特征是利用上述特征提取网络或模板特征提取网络对模板图像序列进行特征提取得到的,模板特征提取网络和特征提取网络的网络结构和参数相同。示例性地,若训练好的动作检测模块仅保留第一子网络,则第一子网络为特征提取网络,可以通过特征提取网络对模板图像序列进行特征提取得到模板特征,也可以通过具有与特征提取网络(第一子网络)的网络结构和参数相同的模板特征提取网络提取得到模板特征,此时,模板特征提取网络可以是第二子网络。模板特征提取网络可以根据实际情况进行选择,在此不做具体限定。
34.上述方案,通过对待测图像序列进行特征提取,得到待处理特征,并对模板图像序列的模板特征和待处理特征进行匹配处理,得到匹配特征。在此基础上,利用匹配特征进行预测,确定待测图像序列的动作检测结果,动作检测结果包括待测图像序列是否存在模板图像序列对应的模板动作,一方面通过对基于待处理特征与模板特征得到的匹配特征进行预测,实现对待测图像序列是否存在模板图像序列中的模板动作的检测,相比于直接利用待测图像序列的图像特征进行预测,能够提高动作检测的准确性,而且由于直接利用待测图像序列的图像特征进行预测,预测网络只能预测已知模板动作,而本方案通过匹配特征确定待测图像序列是否存在模板图像序列中的模板动作,即使预测网络在预测之前未知模板图像序列中的模板动作,也可实现其模板动作的检测,即实现对预测网络在预测之前未知的模板动作的检测,进而提高动作检测的适用性;另一方面,利用匹配特征进行预测,能
够尽可能地提高动作检测的简单性和高效性。
35.此外,本技术方案的动作检测过程可以采用动作检测模型执行,由于本技术方案通过匹配特征确定待测图像序列是否存在模板图像序列中的模板动作,故即使该模板图像序列中的模板动作未在动作检测模型的训练过程中出现过,也能够直接利用当前动作检测模型实现该未知模板动作的检测,且无需重新训练,故提高动作检测的适用性,且提高动作检测的效率。
36.再者,本技术方案的动作检测过程采用动作检测模型执行时,在对动作检测模型训练过程中,还利用两个相同的特征提取网络对样本待测图像序列和样本模板图像序列进行特征提取,并对提取到的特征进行匹配,进而预测得到样本检测结果,最后基于样本检测结果对模型进行调整,能够使训练好的动作检测模型泛化效果更好。
37.请参阅图4,图4是本技术动作检测模型的训练方法一实施例的流程示意图。具体而言,可以包括如下步骤:步骤s41:利用动作检测模型的特征提取网络分别对样本待测图像序列和样本模板图像序列进行特征提取,得到样本待测图像序列样本待测特征和样本模板图像序列的样本模板特征。
38.在一个实施场景中,对样本待测图像序列中样本动作类别的位置信息和样本动作类别进行标记,示例性地,样本待测图像序列的样本动作类别标记为手部动作,样本动作类别的位置信息可以通过对待测图像中动作类别区域的外接矩形进行标记,也可以通过动作类别区域中关键点进行标记,标记方式可以根据实际情况进行选择,在此不做具体限定。
39.在一个实施场景中,动作检测模型训练过程中,动作检测模型包括特征提取网络,特征提取网络包括第一子网络和第二子网络,第一子网络和第二子网络的网络结构和参数相同,可以利用动作检测模型的特征提取网络分别对样本待测图像序列和样本模板图像序列进行特征提取,得到样本待测图像序列样本待处理特征和样本模板图像序列的样本模板特征,具体地,可以先利用第一子网络对样本待测图像序列进行特征提取,得到样本待测特征,示例性地,样本待测特征为c*h*w(c为样本待测特征个数,h为样本待测特征高度,w为样本待测特征宽度);再利用第二子网络对样本模板图像序列进行特征提取,得到样本模板特征,示例性地,样本模板特征为c*h*w(c为样本模板特征个数,h为样本模板特征高度,w为样本模板特征宽度),由于样本模板图像和样本待测图像的尺寸大小会有差异,因而样本模板特征和样本待测特征的尺寸大小会不一致。上述方式,通过利用网络结构和参数相同的第一子网络和第二子网络进行特征提取,由于本技术方案通过匹配特征确定待测图像序列是否存在模板图像序列中的模板动作,故即使该模板图像序列中的模板动作未在动作检测模型的训练过程中出现过,也能够直接利用当前动作检测模型实现该未知模板动作的检测。
40.步骤s42:利用匹配模块对样本模板特征和样本待测特征进行匹配处理,得到样本匹配特征。
41.在一个实施场景中,匹配模块对样本模板特征和样本待测特征进行匹配处理的方式,可以参照前述公开实施例中匹配模块对模板特征和待测特征进行匹配处理的方式,在此不再赘述。
42.步骤s43:利用预测模块基于样本匹配特征进行预测,确定样本待测图像序列的样本动作检测结果。
43.在一个实施场景中,预测模块可以将匹配特征输入到预设尺寸的卷积层进行特征提取,再经过激活层进行非线性变换,最后传入另一个预设尺寸的卷积层进行卷积操作,进而得到样本待测图像序列的样本动作检测结果。在此过程中,预测模块可以由两个子模块组成,分别为回归子模块和分类子模块,回归子模块用于预测样本待测图像序列中存在模板动作的位置信息,分类子模块用于预测位置信息的置信度。
44.步骤s44:基于样本动作检测结果,调整动作检测模型的网络参数。
45.在一个实施场景中,可以通过样本动作检测结果得到动作检测模型的网络损失,并且可以通过损失函数对动作检测模型进行监督,示例性地,损失函数可以是l1损失函数,也可以是三元组损失函数,损失函数的类别可以根据实际情况进行选择,在此不做具体限定。当然,也可以通过多个损失函数同时进行监督,在使用多个损失函数同时进行监督时,可以对多个损失函数根据预设权重进行叠加,再通过反向传播算法迭代更新动作检测模型的网络参数。示例性地,可以通过l1损失函数监督样本模板动作的位置信息,l1损失函数的公式表示如下:其中,样本模板动作的位置信息可以通过外接矩形进行输出,是样本待测图像序列中模板动作的外接矩形的位置信息,是样本待测图像序列中标记的样本模板动作的外接矩形的位置信息,,为外接矩形的中心点,h,w为外接矩形的宽度和高度。在对样本模板动作的位置信息进行监督的基础上,还可以通过焦点损失函数(focal loss)对样本待测图像序列中模板动作的外接矩形中是否出现类别动作进行监督,焦点损失函数的表示如下:其中,是两个超参数,可以分别设置为2和4,代表了(x, y)处的模型预测的模板动作概率,表示坐标在(x, y)处的标记的模板动作。此外,还可以通过三元组损失函数(triplet loss)对样本待测图像序列和样本模板图像序列之间的相似性进行监督,三元组损失函数的表示如下:其中,a是锚示例,p是正示例,n是负示例,通过优化锚示例与正示例的距离小于锚示例与负示例的距离,实现样本数据之间的相似性计算。也即是说,a是样本模板图像序列,p和n是样本待测图像序列,且p与a是具有相同模板动作的图像序列,示例性地,p与a均为手部模板动作的图像序列;n与a是具有不同模板动作的图像序列,示例性地,n为手部模板动作的图像序列,a为头部模板动作的图像序列。margin是一个大于0的常数,d是一个相似度函数,此时,通过d实现两个样本数据之间的相似度计算。在得到三个损失函数计算结果之
后,可以通过预设权重进行叠加处理,公式表示如下:其中,均为预设权重,在得到通过预设权重进行叠加处理的l之后,对动作检测模型的网络参数进行调整。需要说明的是,动作检测模型训练完成后,两个特征提取网络保留至少一个。上述方式,通过对动作检测模型进行训练之后,可以使动作检测模型具有较好的泛化能力,进而使模型的鲁棒性更强。
46.请参阅图5,图5是对动作检测模型进行测试一实施例的示意图,在对动作检测模型进行训练之后,还可以对动作检测模型进行测试,若在动作检测模型训练完成之后,第一子网络和第二子网络均保留,则利用第一子网络或第二子网络对测试待测图像序列进行特征提取,得到测试待测特征,并利用另一个子网络对测试模板图像序列进行特征提取,得到测试模板特征;若在动作检测模型训练完成之后,第一子网络和第二子网络只保留一个,示例性地,第一子网络和第二子网络中保留了第一子网络,则可以通过第二子网络对测试模板图像序列进行特征提取,得到测试模板特征;也可以通过保留的第一子网络对测试模板图像序列进行特征提取,得到测试模板特征,进而形成测试模板特征库。测试模板特征库的获取方式可以根据实际情况进行选择,在此不做具体限定。在获取测试模板特征库之后,通过第一子网络(保留的子网络)对测试待测图像序列进行特征提取,得到待测模板特征,再利用匹配模块对测试模板特征库和测试待测特征进行匹配处理,得到测试匹配特征,在此基础上,再利用预测模块基于测试匹配特征进行预测,确定测试待测图像序列的测试动作检测结果,且测试动作检测结果包括测试待测图像序列中存在测试模板动作的位置信息和位置信息的置信度。
47.上述方案,通过利用动作检测模型的特征提取网络分别对样本待测图像序列和样本模板图像序列进行特征提取,得到样本待测图像序列样本待测特征和样本模板图像序列的样本模板特征,并利用匹配模块对样本模板特征和样本待测特征进行匹配处理,得到样本匹配特征,再利用预测模块基于样本匹配特征进行预测,确定样本待测图像序列的样本动作检测结果,在此基础上,基于样本动作检测结果,调整动作检测模型的网络参数。在动作检测模型在训练过程中,利用第一子网络和第二子网络对样本待测图像序列和样本模板图像序列进行特征提取,并对提取到的特征进行匹配,进而预测得到样本检测结果,最后基于样本检测结果对模型进行调整,能够使训练好的动作检测模型泛化效果更好。
48.请参阅图6,图6是本技术动作检测装置一实施例的框架示意图。动作检测装置60包括提取模块61、匹配模块62和预测模块63。其中,提取模块61用于对待测图像序列进行特征提取,得到待处理特征;匹配模块62用于对模板图像序列的模板特征和待处理特征进行匹配处理,得到匹配特征;预测模块63用于利用匹配特征进行预测,确定待测图像序列的动作检测结果,动作检测结果包括待测图像序列是否存在模板图像序列对应的模板动作。
49.上述方案,一方面通过对基于待处理特征与模板特征得到的匹配特征进行预测,实现对待测图像序列是否存在模板图像序列中的模板动作的检测,相比于直接利用待测图像序列的图像特征进行预测,能够提高动作检测的准确性,而且由于直接利用待测图像序列的图像特征进行预测,预测网络只能预测已知模板动作,而本方案通过匹配特征确定待测图像序列是否存在模板图像序列中的模板动作,即使预测网络在预测之前未知模板图像
序列中的模板动作,也可实现其模板动作的检测,即实现对预测网络在预测之前未知的模板动作的检测,进而提高动作检测的适用性;另一方面,利用匹配特征进行预测,能够尽可能地提高动作检测的简单性和高效性。
50.此外,本技术方案的动作检测过程可以采用动作检测模型执行,由于本技术方案通过匹配特征确定待测图像序列是否存在模板图像序列中的模板动作,故即使该模板图像序列中的模板动作未在动作检测模型的训练过程中出现过,也能够直接利用当前动作检测模型实现该未知模板动作的检测,且无需重新训练,故提高动作检测的适用性,且提高动作检测的效率。
51.在一些公开实施例中,动作检测结果包括待测图像序列中存在模板动作的位置信息和位置信息的置信度。
52.在一些公开实施例中,匹配模块62包括第一融合子模块,融合子模块用于利用模板特征和待处理特征进行第一融合处理,得到相似度特征;匹配模块62包括特征执行子模块,特征执行子模块用于利用模板特征和待处理特征进行互相关处理,得到互相关特征;匹配模块62还包括第二融合子模块,第二融合子模用于对相似度特征和互相关特征进行第二融合处理,得到匹配特征。
53.因此,通过模板特征和待处理特征进行处理分别得到相似度特征和互相关特征,进而通过相似度特征和互相关特征得到匹配特征,可以进一步提高匹配特征的高效性,从而提高动作检测的准确性。
54.在一些公开实施例中,第一融合子模块包括降采样单元,降采样单元用于对模板特征进行降采样处理;第一融合子模块还包括融合单元,融合单元用于对降采样处理后的模板特征与待处理特征进行第一融合处理,得到相似度特征。
55.因此,通过对模板特征进行降采样处理,有助于减少对模板特征的计算量,进而提高动作检测方法的简单性和高效性。
56.在一些公开实施例中,降采样单元包括第一融化子单元,第一融化子单元用于对模板特征分别进行第一池化处理和第二池化处理,对应得到第一池化特征和第二池化特征;降采样单元包括第二融合子单元,第二融合子单元用于融合第一池化特征和第二池化特征,得到降采样处理后的模板特征。
57.因此,通过对模板特征进行池化处理,可以在保留主要特征的同时减少参数和计算量,防止过拟合,进而尽可能地提高动作检测的简单性和高效性。
58.在一些公开实施例中,模板特征和待处理特征、第一池化特征、第二池化特征、降采样处理后的模板特征的维度均为预设维度;第一融化子单元可以对第一池化特征和第二池化特征进行拼接,得到维度为预设维度的两倍的拼接特征;并对拼接特征进行降维处理,得到预设维度的降采样处理后的模板特征。
59.因此,通过对采样特征进行复制,进而节省了计算成本,有助于提高动作检测的高效性。
60.在一些公开实施例中,对待测图像序列进行特征提取,得到待处理特征;对模板图像序列的模板特征和待处理特征进行匹配处理,得到匹配特征;基于匹配特征进行预测,确定待测图像序列的动作检测结果的步骤,包括:利用动作检测模型的特征提取网络对待测图像序列进行特征提取,得到待处理特征;利用动作检测模型的匹配网络对模板图像序列
的模板特征和待处理特征进行匹配处理,得到匹配特征;利用动作检测模型的预测网络基于匹配特征进行预测,确定待测图像序列的动作检测结果。
61.在一些公开实施例中,模板特征是利用特征提取网络或模板特征提取网络对模板图像序列进行特征提取得到的,模板特征提取网络和特征提取网络的网络结构和参数相同。
62.因此,通过具有相同权重的特征提取网络提取得到待处理特征和模板特征,有助于提高类别不平衡时网络的鲁棒性,进而提高动作检测方法的使用场景。
63.在一些公开实施例中,在动作检测模型训练过程中,特征提取网络包括第一子网络和第二子网络,第一子网络和第二子网络的网络结构和参数相同,动作检测装置60还可以利用第一子网络对样本待测图像序列进行特征提取,得到样本待测特征;以及利用第二子网络对样本模板图像序列进行特征提取,得到样本模板特征;并利用匹配网络对样本模板特征和样本待测特征进行匹配处理,得到样本匹配特征;再利用预测网络基于样本匹配特征进行预测,确定样本待测图像序列的样本动作检测结果;在此基础上,基于样本动作检测结果,调整动作检测模型的网络参数;且动作检测模型训练完成后,将第一子网络和第二子网络中的至少一个作为训练完成后的动作检测模型中的特征提取网络。
64.因此,本技术方案的动作检测过程可以采用动作检测模型执行,由于本技术方案通过匹配特征确定待测图像序列是否存在模板图像序列中的模板动作,故即使该模板图像序列中的模板动作未在动作检测模型的训练过程中出现过,也能够直接利用当前动作检测模型实现该未知模板动作的检测,且无需重新训练,故提高动作检测的适用性,且提高动作检测的效率。
65.请参阅图7,图7是本技术动作检测模型的训练装置一实施例的框架示意图。动作检测模型的训练装置70包括提取模块71、匹配模块72、预测模块73和调整模块74。其中,提取模块71用于利用动作检测模型的特征提取网络分别对样本待测图像序列和样本模板图像序列进行特征提取,得到样本待测图像序列样本待测特征和样本模板图像序列的样本模板特征;匹配模块72用于利用匹配模块对样本模板特征和样本待测特征进行匹配处理,得到样本匹配特征;预测模块73用于利用预测模块基于样本匹配特征进行预测,确定样本待测图像序列的样本动作检测结果;调整模块74用于基于样本动作检测结果,调整动作检测模型的网络参数。
66.上述方案,动作检测模型在训练过程中,利用两个相同的特征提取网络对样本待测图像序列和样本模板图像序列进行特征提取,并对提取到的特征进行匹配,进而预测得到样本检测结果,最后基于样本检测结果对模型进行调整,能够使训练好的动作检测模型泛化效果更好。
67.在一些公开实施例中,动作检测模型包括特征提取网络,特征提取网络包括第一子网络和第二子网络,第一子网络和第二子网络的网络结构和参数相同;提取模块71包括第一提取子模块,第一提取子模块用于利用第一子网络对样本待测图像序列进行特征提取,得到样本待测特征;提取模块71还包括第二提取子模块,第二提取子模块用于利用第二子网络对样本模板图像序列进行特征提取,得到样本模板特征;且动作检测模型训练完成后,将第一子网络和第二子网络中的至少一个作为训练完成后的动作检测模型中的特征提取网络。
68.因此,通过利用网络结构和参数相同的第一子网络和第二子网络对样本待测图像序列和样本模板图像序列进行特征提取,并对提取到的特征进行匹配,进而预测得到样本检测结果,最后基于样本检测结果对模型进行调整,能够使训练好的动作检测模型泛化效果更好。
69.请参阅图8,图8是本技术电子设备一实施例的框架示意图。电子设备80包括相互耦接的存储器81和处理器82,存储器81中存储有程序指令,处理器82用于执行程序指令以实现上述任一动作检测方法实施例中的步骤或任一动作检测模型的训练方法实施例中的步骤。具体地,电子设备80可以包括但不限于:台式计算机、笔记本电脑、服务器、手机、平板电脑等等,在此不做限定。
70.具体而言,处理器82用于控制其自身以及存储器81以实现上述任一动作检测方法实施例中的步骤或任一动作检测模型的训练方法实施例中的步骤。处理器82还可以称为cpu(central processing unit,中央处理单元)。处理器82可能是一种集成电路芯片,具有信号的处理能力。处理器82还可以是通用处理器、数字信号处理器(digital signal processor, dsp)、专用集成电路(application specific integrated circuit, asic)、现场可编程门阵列(field-programmable gate array, fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器82可以由集成电路芯片共同实现。
71.上述方案,一方面由于先对待测图像序列进行特征提取,并通过模板特征和待处理特征得到匹配特征,有助于提高匹配过程中的准确性,另一方面,利用匹配特征进行预测,能够尽可能地提高动作检测的简单性和高效性。
72.此外,一方面通过对基于待处理特征与模板特征得到的匹配特征进行预测,实现对待测图像序列是否存在模板图像序列中的模板动作的检测,相比于直接利用待测图像序列的图像特征进行预测,能够提高动作检测的准确性,而且由于直接利用待测图像序列的图像特征进行预测,预测网络只能预测已知模板动作,而本方案通过匹配特征确定待测图像序列是否存在模板图像序列中的模板动作,即使预测网络在预测之前未知模板图像序列中的模板动作,也可实现其模板动作的检测,即实现对预测网络在预测之前未知的模板动作的检测,进而提高动作检测的适用性;另一方面,利用匹配特征进行预测,能够尽可能地提高动作检测的简单性和高效性。
73.此外,本技术方案的动作检测过程可以采用动作检测模型执行,由于本技术方案通过匹配特征确定待测图像序列是否存在模板图像序列中的模板动作,故即使该模板图像序列中的模板动作未在动作检测模型的训练过程中出现过,也能够直接利用当前动作检测模型实现该未知模板动作的检测,且无需重新训练,故提高动作检测的适用性,且提高动作检测的效率。
74.再者,本技术方案的动作检测过程采用动作检测模型执行时,在对动作检测模型训练过程中,还利用两个相同的特征提取网络对样本待测图像序列和样本模板图像序列进行特征提取,并对提取到的特征进行匹配,进而预测得到样本检测结果,最后基于样本检测结果对模型进行调整,能够使训练好的动作检测模型泛化效果更好。
75.请参阅图9,图9是本技术计算机可读存储介质一实施例的框架示意图。计算机可读存储介质90存储有能够被处理器运行的程序指令91,程序指令91用于实现上述任一动作
检测方法实施例中的步骤或任一动作检测模型的训练方法实施例中的步骤。
76.上述方案,一方面通过对基于待处理特征与模板特征得到的匹配特征进行预测,实现对待测图像序列是否存在模板图像序列中的模板动作的检测,相比于直接利用待测图像序列的图像特征进行预测,能够提高动作检测的准确性,而且由于直接利用待测图像序列的图像特征进行预测,预测网络只能预测已知模板动作,而本方案通过匹配特征确定待测图像序列是否存在模板图像序列中的模板动作,即使预测网络在预测之前未知模板图像序列中的模板动作,也可实现其模板动作的检测,即实现对预测网络在预测之前未知的模板动作的检测,进而提高动作检测的适用性;另一方面,利用匹配特征进行预测,能够尽可能地提高动作检测的简单性和高效性。
77.此外,本技术方案的动作检测过程可以采用动作检测模型执行,由于本技术方案通过匹配特征确定待测图像序列是否存在模板图像序列中的模板动作,故即使该模板图像序列中的模板动作未在动作检测模型的训练过程中出现过,也能够直接利用当前动作检测模型实现该未知模板动作的检测,且无需重新训练,故提高动作检测的适用性,且提高动作检测的效率。
78.再者,本技术方案的动作检测过程采用动作检测模型执行时,在对动作检测模型训练过程中,还利用两个相同的特征提取网络对样本待测图像序列和样本模板图像序列进行特征提取,并对提取到的特征进行匹配,进而预测得到样本检测结果,最后基于样本检测结果对模型进行调整,能够使训练好的动作检测模型泛化效果更好。
79.在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
80.上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
81.在本技术所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
82.作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
83.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
84.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现
出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本技术各个实施方式方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
85.若本技术技术方案涉及个人信息,应用本技术技术方案的产品在处理个人信息前,已明确告知个人信息处理规则,并取得个人自主同意。若本技术技术方案涉及敏感个人信息,应用本技术技术方案的产品在处理敏感个人信息前,已取得个人单独同意,并且同时满足“明示同意”的要求。例如,在摄像头等个人信息采集装置处,设置明确显著的标识告知已进入个人信息采集范围,将会对个人信息进行采集,若个人自愿进入采集范围即视为同意对其个人信息进行采集;或者在个人信息处理的装置上,利用明显的标识/信息告知个人信息处理规则的情况下,通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权;其中,个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1