一种视频识别方法、装置、存储介质及设备与流程

文档序号:31620557发布日期:2022-09-23 23:07阅读:61来源:国知局
一种视频识别方法、装置、存储介质及设备与流程

1.本技术涉及计算机技术领域,尤其涉及一种视频识别方法、装置、存储介质及设备。


背景技术:

2.目前在进行视频识别分类时,在很多场景下,只能获取到少量的标注数据进行识别,比如,对于医疗等正例标签数据收集困难的垂类等,同时视频内容平台上会积累大量的无标注数据。对此,如果仅利用少量标注数据训练的分类识别模型来识别出无标注数据中置信度较高的样本再做数据清洗以进行视频分类识别,会大幅度降低识别模型的泛化性,使得识别结果的正向收益较低,导致识别的效果较差。


技术实现要素:

3.本技术实施例的主要目的在于提供一种视频识别方法、装置、存储介质及设备,能够通过近邻检索的方式从无标注数据中更为简单且有效的查询到置信度较高的样本,并将置信度用于模型训练损失进行联合训练,从而能够大幅度提升视频识别效果。
4.本技术实施例提供了一种视频识别方法,包括:
5.获取待识别的目标视频;
6.从所述目标视频中提取所述目标视频的多模态特征和通用特征;
7.将所述目标视频的多模态特征和通用特征输入至预先构建的视频识别模型,识别得到所述目标视频的识别结果;
8.其中,所述视频识别模型是根据预先获取的标签视频数据和通过近邻检索的方式查询到的置信度高于预设阈值的伪标签视频数据,以及预先构建的目标损失函数训练得到的;所述目标损失函数是根据所述置信度确定的。
9.一种可能的实现方式中,所述视频识别模型的构建方式如下:
10.获取标签样本视频;并提取所述标签样本视频的样本多模态特征;
11.通过近邻检索的方式,根据所述标签样本视频的样本多模态特征,从无标签样本视频中查询到置信度高于预设阈值的伪标签样本视频;
12.提取所述标签样本视频和伪标签样本视频的样本通用特征;
13.根据所述伪标签样本视频的置信度,构建目标损失函数;
14.利用所述标签样本视频和伪标签样本视频对应的样本多模态特征、样本通用特征和所述目标损失函数,以及所述标签样本对应的视频识别标签对初始视频识别模型进行训练,生成所述视频识别模型。
15.一种可能的实现方式中,所述通过近邻检索的方式,根据所述标签样本视频的样本多模态特征,从无标签样本视频中查询到置信度高于预设阈值的伪标签样本视频,包括:
16.提取所述无标签样本视频的多模态特征;
17.计算所述标签样本视频的样本多模态特征与所述无标签样本视频的多模态特征
的相似度,作为所述无标签样本视频对应的置信度,并将高于预设相似度阈值的置信度对应的无标签样本视频作为伪标签样本视频。
18.一种可能的实现方式中,所述根据所述伪标签样本视频的置信度,构建目标损失函数,包括:
19.利用所述伪标签样本视频的置信度,对所述伪标签样本视频对应的损失进行加权求和,构建得到目标损失函数。
20.一种可能的实现方式中,所述方法还包括:
21.获取验证视频;
22.从所述验证视频中提取所述验证视频的验证多模态特征和验证通用特征;
23.将所述验证多模态特征和验证通用特征输入所述视频识别模型,获得所述验证视频的预测识别结果;
24.当所述验证视频的预测识别结果与所述验证验证视频对应的识别标记结果不一致时,将所述验证视频重新作为所述标签样本视频,对所述视频识别模型进行更新。
25.一种可能的实现方式中,所述多模态特征包括文本特征、图像特征、声学特征中的至少一项特征。
26.一种可能的实现方式中,所述目标损失函数是根据所述置信度确定的交叉熵损失函数。
27.本技术实施例还提供了一种视频识别装置,所述装置包括:
28.第一获取单元,用于获取待识别的目标视频;
29.第一提取单元,用于从所述目标视频中提取所述目标视频的多模态特征和通用特征;
30.识别单元,用于将所述目标视频的多模态特征和通用特征输入至预先构建的视频识别模型,识别得到所述目标视频的识别结果;
31.其中,所述视频识别模型是根据预先获取的标签视频数据和通过近邻检索的方式查询到的置信度高于预设阈值的伪标签视频数据,以及预先构建的目标损失函数训练得到的;所述目标损失函数是根据所述置信度确定的。
32.一种可能的实现方式中,所述装置还包括:
33.第二获取单元,用于获取标签样本视频;并提取所述标签样本视频的样本多模态特征;
34.查询单元,用于通过近邻检索的方式,根据所述标签样本视频的样本多模态特征,从无标签样本视频中查询到置信度高于预设阈值的伪标签样本视频;
35.第二提取单元,用于提取所述标签样本视频和伪标签样本视频的样本通用特征;
36.构建单元,用于根据所述伪标签样本视频的置信度,构建目标损失函数;
37.训练单元,用于利用所述标签样本视频和伪标签样本视频对应的样本多模态特征、样本通用特征和所述目标损失函数,以及所述标签样本对应的视频识别标签对初始视频识别模型进行训练,生成所述视频识别模型。
38.一种可能的实现方式中,所述查询单元包括:
39.提取子单元,用于提取所述无标签样本视频的多模态特征;
40.计算子单元,用于计算所述标签样本视频的样本多模态特征与所述无标签样本视
频的多模态特征的相似度,作为所述无标签样本视频对应的置信度,并将高于预设相似度阈值的置信度对应的无标签样本视频作为伪标签样本视频。
41.一种可能的实现方式中,所述构建单元具体用于:
42.利用所述伪标签样本视频的置信度,对所述伪标签样本视频对应的损失进行加权求和,构建得到目标损失函数。
43.一种可能的实现方式中,所述装置还包括:
44.第三获取单元,用于获取验证视频;
45.第三提取单元,用于从所述验证视频中提取所述验证视频的验证多模态特征和验证通用特征;
46.输入单元,用于将所述验证多模态特征和验证通用特征输入所述视频识别模型,获得所述验证视频的预测识别结果;
47.更新单元,用于当所述验证视频的预测识别结果与所述验证验证视频对应的识别标记结果不一致时,将所述验证视频重新作为所述标签样本视频,对所述视频识别模型进行更新。
48.一种可能的实现方式中,所述多模态特征包括文本特征、图像特征、声学特征中的至少一项特征。
49.一种可能的实现方式中,所述目标损失函数是根据所述置信度确定的交叉熵损失函数。
50.本技术实施例还提供了一种视频识别设备,包括:处理器、存储器、系统总线;
51.所述处理器以及所述存储器通过所述系统总线相连;
52.所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述视频识别方法中的任意一种实现方式。
53.本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述视频识别方法中的任意一种实现方式。
54.本技术实施例提供的一种视频识别方法、装置、存储介质及设备,首先获取待识别的目标视频,然后,从目标视频中提取目标视频的多模态特征和通用特征;接着,将目标视频的多模态特征和通用特征输入至预先构建的视频识别模型,识别得到目标视频的识别结果;其中,视频识别模型是根据预先获取的标签视频数据和通过近邻检索的方式查询到的置信度高于预设阈值的伪标签视频数据,以及预先构建的目标损失函数训练得到的;目标损失函数是根据置信度确定的。可见,由于本技术实施例是先通过近邻检索的方式更为简单、有效的查询到标签视频数据对应的置信度高于预设阈值的伪标签视频数据,然后再利用根据置信度构建的目标损失函数来训练视频识别模型,并通过该模型识别得到目标视频的识别结果,从而能够有效提高视频识别结果的准确性。
附图说明
55.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据
这些附图获得其他的附图。
56.图1为本技术实施例提供的一种视频识别方法的流程示意图;
57.图2为本技术实施例提供的视频识别模型的整体构建过程示意图;
58.图3为本技术实施例提供的一种视频识别装置的组成示意图。
具体实施方式
59.众所周知,视频标签识别是进行视频识别分类的关键步骤,也是视频内容平台进行视频处理的基础技术之一,其对于视频内容的监控、分析,以及视频内容的推荐、搜索等都有广泛的应用。
60.但在是在很多场景下,只能获取到少量的标注数据进行识别,比如,对于医疗等正例标签数据收集困难的垂类等,同时视频内容平台上也会积累大量的无标注数据。对此,如果仅利用少量标注数据训练的分类识别模型来识别出无标注数据中置信度较高的样本再做数据清洗以进行视频分类识别,会大幅度降低识别模型的泛化能力,使得视频识别结果的正向收益较低,导致视频的识别效果较差。
61.为解决上述缺陷,本技术提供了一种视频识别方法,首先获取待识别的目标视频,然后,从目标视频中提取目标视频的多模态特征和通用特征;接着,将目标视频的多模态特征和通用特征输入至预先构建的视频识别模型,识别得到目标视频的识别结果;其中,视频识别模型是根据预先获取的标签视频数据和通过近邻检索的方式查询到的置信度高于预设阈值的伪标签视频数据,以及预先构建的目标损失函数训练得到的;目标损失函数是根据置信度确定的。可见,由于本技术实施例是先通过近邻检索的方式更为简单、有效的查询到标签视频数据对应的置信度高于预设阈值的伪标签视频数据,然后再利用根据置信度构建的目标损失函数来训练视频识别模型,并通过该模型识别得到目标视频的识别结果,从而能够有效提高视频识别结果的准确性。
62.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
63.第一实施例
64.参见图1,为本实施例提供的一种视频识别方法的流程示意图,该方法包括以下步骤:
65.s101:获取待识别的目标视频。
66.在本实施例中,将采用本实施例进行识别分类的任一视频定义为目标视频。并且,本实施例对目标视频的获取方式也不做限定,目标视频可以根据实际需要,通过拍摄、下载等方式获得,例如,可以将利用路边安装的监控摄像头拍摄到的一段时间内道路上的行车录像视频保存为目标视频,或者可以将从短视频平台上下载的一段网络视频作为目标视频等。
67.需要说明的是,本实施例不限制目标视频的类型,比如,目标视频可以是由红(r)、绿(g)、蓝(b)三原色组成的彩色图像视频、也可以是灰度图像视频等。这样,在获取到待识别的目标视频后,可以通过执行后续步骤s102-s103,实现对该目标视频的精准识别分类。
68.s102:从目标视频中提取目标视频的多模态特征和通用特征。
69.在本实施例中,通过步骤s101获取到待识别的目标视频后,进一步的,可以利用现有或未来出现的特征提取方法,对所述待识别的目标视频分别进行多模态特征和通用特征的特征提取,得到目标视频对应的多模态特征(此处将其定义为feature-0)和通用特征(此处将其定义为feature-n),用以执行后续步骤s103,实现对该目标视频的精准识别分类。
70.其中,一种可选的实现方式是,目标视频的多模态特征可以包括但不限于文本特征、图像特征、声学特征等。目标视频的通用特征可以包括但不限于目标视频的时长、作者名称、作者年龄、发布城市等等。
71.具体来讲,在获取到待识别的目标视频后,可将其划分为各个目标图像,进而可以利用现有或未来出现的图像特征提取方法对其进行处理,比如,可以利用方向梯度直方图(convolutional neural networks,简称hog)特征提取和尺度不变特征变换(scale-invariant feature transform,简称sift)特征提取方法等,从目标图像中提取出能够表征其图像信息的特征,并将该特征定义为图像特征,该图像特征应携带目标视频中对应目标图像的全部图像信息。
72.并且,在获取到待识别的目标视频后,也可从中提取出语音数据,并对该语音数据进行分帧处理,得到对应的语音帧序列,然后再提取出每一语音帧的声学特征,其中,该声学特征指的是用于表征对应语音帧的声学信息的特征数据,比如,可以是梅尔倒谱系数(mel-scale frequency cepstral coefficients,简称mfcc)特征或感知线性预测(perceptual linear predictive,简称plp)特征等。
73.以及,在提取出待识别的目标视频包含的语音数据后,还可以将其转换为文本数据,并进一步可以利用现有或未来出现的分词方法,对文本数据进行分词处理,得到文本数据中的各个词语,然后,可以提取出每一词语对应的词语特征。对于每一词语而言,其词语特征可以包括该词语的语义信息。进而可以根据将各个词语特征拼接为文本数据对应的文本特征。
74.需要说明的是,本技术对目标视频的多模态特征和通用特征各自包含的子特征的融合处理方式不做限定,比如可以采用直接“拼接”的方式,也可以采用其他的融合处理方式等。
75.s103:将目标视频的多模态特征和通用特征输入至预先构建的视频识别模型,识别得到目标视频的识别结果;其中,视频识别模型是根据预先获取的标签视频数据和通过近邻检索的方式查询到的置信度高于预设阈值的伪标签视频数据,以及预先构建的目标损失函数训练得到的;目标损失函数是根据置信度确定的。
76.在本实施例中,通过步骤s102从目标视频中提取出多模态特征(feature-0)和通用特征(feature-n)后,进一步的,可以将二者输入至预先构建的视频识别模型,识别得到目标视频的识别结果。
77.其中,视频识别模型是根据预先获取的标签视频数据和通过近邻检索的方式查询到的置信度高于预设阈值的伪标签视频数据,以及预先构建的目标损失函数训练得到的;目标损失函数是根据置信度确定的,比如,目标损失函数可以是根据置信度确定的交叉熵损失函数。
78.具体来讲,通过步骤s102提取出目标视频的多模态特征(feature-0)和通用特征
(feature-n)后,可以将该二者输入视频识别模型,输出一个表征目标视频的领域分类的一组向量,向量中每一维度的值可以为区间[0,1]中的一个数值,且每一维度的值分别代表了该目标视频所述领域属于各个预设分类类型的概率值。此时,可将其中最大概率值对应的领域分类类型作为识别出的该目标视频所属的领域分类类型。
[0079]
举例说明:假设存在“美食、宠物、体育、美妆、生活、汽车、动漫”这7种预设的视频分类类型,且模型输出向量为s=[0.9,0.1,0.03,0.13,0.04,0.2,0.07],可见,第一维度的值0.9最高,因此,该维度对应的视频分类类型即为该目标视频所属的分类类型,即目标视频的分类为“美食”。
[0080]
或者,也可以预先设置视频分类的概率阈值,将输出概率大于该阈值的一个或多个分类类型均作为目标视频所属的分类类型。
[0081]
举例说明:基于上述举例,假设存在“美食、宠物、体育、美妆、生活、汽车、动漫”这7种预设的视频分类类型,且预先设置视频分类的概率阈值为0.6,通过视频识别模型得到的输出向量为s=[0.02,0.11,0.9,0.04,0.08,0.85,0.03],可见,第三维度的值0.9和第六维度的值0.85均超过了预先设置的视频分类的概率阈值,因此,可以将这两个维度对应的视频分类类型均作为该目标视频所属的分类类型,即目标视频既属于“体育”分类,也属于“汽车”分类。
[0082]
接下来,本实施例将对视频识别模型的构建过程进行介绍,具体可以包括以下步骤a1-a5:
[0083]
步骤a1:获取标签样本视频;并提取标签样本视频的样本多模态特征。
[0084]
在本实施例中,为了构建视频识别模型,需要预先进行大量的准备工作,首先,需要收集少量标签样本视频,比如,可以通过短视频平台下载的各个标签下的一系列短视频,进而可以将收集到的各个短视频分别作为标签样本视频,并提取出标签样本视频的样本多模态特征(如文本特征、图像特征、声学特征等),同时,预先通过人工标记出这些样本视频对应的标签的分类标签结果,用以训练视频识别模型。
[0085]
步骤a2:通过近邻检索的方式,根据标签样本视频的样本多模态特征,从无标签样本视频中查询到置信度高于预设阈值的伪标签样本视频。
[0086]
需要说明的是,在本实施例中,为了构建视频识别模型,不仅需要收集少量标签样本视频,还需要充分用少量标签样本视频从大量的无标签样本视频中找到置信度高于预设阈值(具体取值可根据实际情况设定,本技术对不进行限定)的预设数量视频,作为伪标签样本视频,并将伪标签样本视频的分类标签结果设定为其对应的样本视频的分类标签。再利用标签样本视频和伪标签样本视频联合训练视频识别模型,以提高模型的泛化能力和最终的识别效果。
[0087]
具体来讲,一种可选的实现方式是,首先可以提取出无标签样本视频的多模态特征(如文本特征、图像特征、声学特征等),然后计算出标签样本视频的样本多模态特征与每一无标签样本视频的多模态特征的相似度(如余弦相似度等),作为每一无标签样本视频对应的置信度,进而可以将高于预设相似度阈值(具体取值可根据实际情况设定,本技术对不进行限定,比如可以取值为0.8等)的相似度对应的无标签样本视频作为标签样本视频对应的伪标签样本视频。例如,可以利用标签样本视频甲的样本多模态特征检索最近邻的1个样本得到伪标签样本视频乙,二者相似度为0.85,则伪标签样本视频乙的置信度为0.85,且可
以设定二者的分类标签一致,即,均为标签样本视频甲的分类标签。
[0088]
步骤a3:提取标签样本视频和伪标签样本视频的样本通用特征。
[0089]
需要说明的是,在本实施例中,为了提高视频识别模型的识别效果,在确定出标签样本视频和伪标签样本视频后,进一步的,可以利用现有或未来出现的特征提取方法,对标签样本视频进而伪标签样本视频进行通用特征的特征提取,得到标签样本视频和伪标签样本视频各自对应的样本通用特征,用以执行后续步骤a5。
[0090]
步骤a4:根据伪标签样本视频的置信度,构建目标损失函数。
[0091]
需要说明的是,在本实施例中,为了提高视频识别模型的识别效果,在确定出伪标签样本视频的置信度后,进一步的,可以利用伪标签样本视频的置信度,对伪标签样本视频对应的损失进行加权求和,以构建得到目标损失函数,用以执行后续步骤a5。
[0092]
具体来讲,为了构建网络识别精度更高和网络性能更强的视频识别模型,本技术在充分考虑了伪标签样本视频中存在大量噪声后,提出了利用伪标签样本视频的置信度,对伪标签样本视频对应的损失进行加权求和,作为目标损失函数,用以执行后续步骤a5。其中,假设训练数据中包含有标签样本视频n个、伪标签样本视频m个,则目标函数的具体计算公式如下:
[0093][0094]
其中,loss表示目标函数;xi表示第i个标签样本视频;yi表示第i个标签样本视频的标签值;x'i表示第i个伪标签样本视频;y'i表示第i个伪标签样本视频的标签值;softlablei表示第i个伪标签样本视频对应的置信度;f()表示模型输入特征数据的映射;l()表示交叉熵损失函数。
[0095]
步骤a5:利用标签样本视频和伪标签样本视频对应的样本多模态特征、样本通用特征和目标损失函数,以及标签样本对应的视频识别标签对初始视频识别模型进行训练,生成视频识别模型。
[0096]
需要说明的是,在本实施例中,通过步骤a1-a3提取出标签样本视频和伪标签样本视频对应的样本多模态特征、样本通用特征后,进一步可以根据由上述公式中的目标函数对初始视频识别模型进行训练,并且在训练过程中,可以根据loss值的变化,对识别模型的模型参数进行不断更新,直至loss值满足要求,比如达到最小值且变化幅度很小(基本不变),则停止模型参数的更新,完成视频识别模型的训练。
[0097]
为便于理解,本技术还提供了如图2所示的视频识别模型的整体构建过程示意图,如图2所示,为了构建视频识别模型,首先需要获取少量标签样本视频,并提取标签样本视频的样本多模态特征(feature_0),然后,通过近邻检索的方式,利用该样本多模态特征(feature_0),从大量无标签样本视频构建的检索库中,查询到置信度高于预设阈值的大量伪标签样本视频,接着,提取出标签样本视频和伪标签样本视频的样本通用特征(feature_n),并根据伪标签样本视频的置信度,构建目标损失函数,进而可以利用标签样本视频和伪标签样本视频对应的样本多模态特征(feature_0)、样本通用特征(feature_n),以及目标损失函数,联合训练视频识别模型,并输出识别结果,且识别结果可以是以向量形式进行表征等。
[0098]
通过上述实施例,可以根据标签样本视频训练生成视频识别模型,进一步的,还可
以利用验证视频对生成的视频识别模型进行验证。具体验证过程可以包括下述步骤b1-b4:
[0099]
步骤b1:获取验证视频。
[0100]
在本实施例中,为了实现对视频识别模型进行验证,首先需要获取验证视频,其中,验证视频指的是可以用来进行视频识别模型验证的视频信息,在获取到这些验证视频后,可继续执行后续步骤b2。
[0101]
步骤b2:从验证视频中提取验证视频的验证多模态特征和验证通用特征。
[0102]
通过b1获取到验证视频后,并不能直接用于验证视频识别模型,而是需要提取验证视频的验证多模态特征和验证通用特征,用以执行后续步骤b3,具体实现过程在此不再赘述。
[0103]
步骤b3:将验证多模态特征和验证通用特征输入视频识别模型,获得验证视频的预测识别结果。
[0104]
通过步骤b2得到验证视频的验证多模态特征和验证通用特征后,进一步的,可以将验证多模态特征和验证通用特征输入视频识别模型,以获得验证视频的预测识别结果,用以执行后续步骤b4。
[0105]
步骤b4:当验证视频的预测识别结果与验证验证视频对应的识别标记结果不一致时,将验证视频重新作为标签样本视频,对视频识别模型进行更新。
[0106]
通过步骤b3获得验证视频的预测识别结果后,若该预测识别结果与验证验证视频对应的识别标记结果不一致,则可以将验证视频重新作为标签样本视频,对视频识别模型进行参数更新。
[0107]
通过上述实施例,可以利用验证视频对视频识别模型进行有效验证,并在预测结果与标记结果不一致时,及时调整更新视频识别模型,进而有助于提高识别模型的识别精度和准确性。
[0108]
综上,本实施例提供的一种视频识别方法,首先获取待识别的目标视频,然后,从目标视频中提取目标视频的多模态特征和通用特征;接着,将目标视频的多模态特征和通用特征输入至预先构建的视频识别模型,识别得到目标视频的识别结果;其中,视频识别模型是根据预先获取的标签视频数据和通过近邻检索的方式查询到的置信度高于预设阈值的伪标签视频数据,以及预先构建的目标损失函数训练得到的;目标损失函数是根据置信度确定的。可见,由于本技术实施例是先通过近邻检索的方式更为简单、有效的查询到标签视频数据对应的置信度高于预设阈值的伪标签视频数据,然后再利用根据置信度构建的目标损失函数来训练视频识别模型,并通过该模型识别得到目标视频的识别结果,从而能够有效提高视频识别结果的准确性。
[0109]
第二实施例
[0110]
本实施例将对一种视频识别装置进行介绍,相关内容请参见上述方法实施例。
[0111]
参见图3,为本实施例提供的一种视频识别装置的组成示意图,该装置300包括:
[0112]
第一获取单元301,用于获取待识别的目标视频;
[0113]
第一提取单元302,用于从所述目标视频中提取所述目标视频的多模态特征和通用特征;
[0114]
识别单元303,用于将所述目标视频的多模态特征和通用特征输入至预先构建的视频识别模型,识别得到所述目标视频的识别结果;
[0115]
其中,所述视频识别模型是根据预先获取的标签视频数据和通过近邻检索的方式查询到的置信度高于预设阈值的伪标签视频数据,以及预先构建的目标损失函数训练得到的;所述目标损失函数是根据所述置信度确定的。
[0116]
在本实施例的一种实现方式中,所述装置还包括:
[0117]
第二获取单元,用于获取标签样本视频;并提取所述标签样本视频的样本多模态特征;
[0118]
查询单元,用于通过近邻检索的方式,根据所述标签样本视频的样本多模态特征,从无标签样本视频中查询到置信度高于预设阈值的伪标签样本视频;
[0119]
第二提取单元,用于提取所述标签样本视频和伪标签样本视频的样本通用特征;
[0120]
构建单元,用于根据所述伪标签样本视频的置信度,构建目标损失函数;
[0121]
训练单元,用于利用所述标签样本视频和伪标签样本视频对应的样本多模态特征、样本通用特征和所述目标损失函数,以及所述标签样本对应的视频识别标签对初始视频识别模型进行训练,生成所述视频识别模型。
[0122]
在本实施例的一种实现方式中,所述查询单元包括:
[0123]
提取子单元,用于提取所述无标签样本视频的多模态特征;
[0124]
计算子单元,用于计算所述标签样本视频的样本多模态特征与所述无标签样本视频的多模态特征的相似度,作为所述无标签样本视频对应的置信度,并将高于预设相似度阈值的置信度对应的无标签样本视频作为伪标签样本视频。
[0125]
在本实施例的一种实现方式中,所述构建单元具体用于:
[0126]
利用所述伪标签样本视频的置信度,对所述伪标签样本视频对应的损失进行加权求和,构建得到目标损失函数。
[0127]
在本实施例的一种实现方式中,所述装置还包括:
[0128]
第三获取单元,用于获取验证视频;
[0129]
第三提取单元,用于从所述验证视频中提取所述验证视频的验证多模态特征和验证通用特征;
[0130]
输入单元,用于将所述验证多模态特征和验证通用特征输入所述视频识别模型,获得所述验证视频的预测识别结果;
[0131]
更新单元,用于当所述验证视频的预测识别结果与所述验证验证视频对应的识别标记结果不一致时,将所述验证视频重新作为所述标签样本视频,对所述视频识别模型进行更新。
[0132]
在本实施例的一种实现方式中,所述多模态特征包括文本特征、图像特征、声学特征中的至少一项特征。
[0133]
在本实施例的一种实现方式中,所述目标损失函数是根据所述置信度确定的交叉熵损失函数。
[0134]
进一步地,本技术实施例还提供了一种视频识别设备,包括:处理器、存储器、系统总线;
[0135]
所述处理器以及所述存储器通过所述系统总线相连;
[0136]
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述视频识别方法的任一种实现方法。
[0137]
进一步地,本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述视频识别方法的任一种实现方法。
[0138]
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本技术各个实施例或者实施例的某些部分所述的方法。
[0139]
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0140]
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0141]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1