本技术涉及人工智能,尤其涉及一种多媒体识别网络生成、多媒体搜索方法及装置。
背景技术:
1、随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用。例如结合人工智能技术中的深度学习来进行图像、视频等多媒体资源的类别识别。相关技术中,基于深度学习进行多媒体资源识别中往往只能依靠预先标注好的多媒体类别标签进行监督训练,由于深度学习网络只能依靠自身学习的多媒体类别损失来调整网络参数,往往无法有效保证网络的识别精度,进而也导致网络的训练效率低下等问题。因此,需要提供更高效可靠的方案。
技术实现思路
1、本技术提供了一种多媒体识别网络生成、多媒体搜索方法、装置、设备、存储介质及计算机程序产品,可以提升多媒体识别网络的训练速度和识别准确率,进而也可以提升后续多媒体搜索应用过程中,搜索召回的精准性和有效性。
2、一方面,本技术提供了一种多媒体识别网络生成方法,所述方法包括:
3、获取多个多媒体样本对应的多个预设类别标签、每个多媒体样本包含的至少一个样本图像和每个样本图像中人脸区域对应的人脸特征信息;所述每个多媒体样本对应一个预设类别标签;
4、对预设样本图像集中样本图像对应的人脸特征信息进行聚类处理,得到多种人脸类型对应的聚类特征信息,所述预设样本图像集包含于所述多个多媒体样本包含的样本图像,且所述预设样本图像集中的样本图像对应多媒体类别包括所述多个多媒体样本对应的多种多媒体类别;
5、对所述每个样本图像对应的人脸特征信息和所述多种人脸类型对应的聚类特征信息进行关联分析,确定所述每个样本图像对应的预设人脸类型标签;
6、将所述每个样本图像中人脸区域对应的人脸图像块输入待训练人脸识别网络进行人脸类型识别,得到预测人脸类型标签;
7、将所述每个多媒体样本中的所述每个样本图像输入待训练多媒体识别网络进行多媒体类别识别处理,得到所述每个多媒体样本对应的预测类别标签;
8、基于所述多个多媒体样本对应的多个预测类别标签、所述多个预设类别标签、所述预设人脸类型标签和所述预测人脸类型标签,对所述待训练人脸识别网络和所述待训练多媒体识别网络进行联合训练,得到训练好的多媒体识别网络。
9、另一方面提供了一种多媒体搜索方法,所述方法包括:
10、获取搜索信息和至少一个待搜索多媒体各自对应的目标类别标签;所述目标类别标签是通过将每个待搜索多媒体包含的至少一个图像,输入根据上述任一项所述的多媒体识别网络生成方法生成的多媒体识别网络进行多媒体类别识别处理得到的;所述至少一个图像包含人脸信息;
11、对所述搜索信息和所述目标类别标签对应的目标多媒体类别进行匹配处理,得到所述至少一个待搜索多媒体各自对应的匹配结果;
12、基于所述匹配结果,从所述至少一个待搜索多媒体中,确定与所述搜索信息匹配的目标搜索多媒体。
13、另一方面提供了一种多媒体识别网络生成装置,所述装置包括:
14、第一信息获取模块,被配置为执行获取多个多媒体样本对应的多个预设类别标签、每个多媒体样本包含的至少一个样本图像和每个样本图像中人脸区域对应的人脸特征信息;所述每个多媒体样本对应一个预设类别标签;
15、聚类处理模块,被配置为执行对预设样本图像集中样本图像对应的人脸特征信息进行聚类处理,得到多种人脸类型对应的聚类特征信息,所述预设样本图像集包含于所述多个多媒体样本包含的样本图像,且所述预设样本图像集中的样本图像对应多媒体类别包括所述多个多媒体样本对应的多种多媒体类别;
16、关联分析模块,被配置为执行对所述每个样本图像对应的人脸特征信息和所述多种人脸类型对应的聚类特征信息进行关联分析,确定所述每个样本图像对应的预设人脸类型标签;
17、人脸类型识别模块,被配置为执行将所述每个样本图像中人脸区域对应的人脸图像块输入待训练人脸识别网络进行人脸类型识别,得到预测人脸类型标签;
18、多媒体类别识别处理模块,被配置为执行将所述每个多媒体样本中的所述每个样本图像输入待训练多媒体识别网络进行多媒体类别识别处理,得到所述每个多媒体样本对应的预测类别标签;
19、联合训练模块,被配置为执行基于所述多个多媒体样本对应的多个预测类别标签、所述多个预设类别标签、所述预设人脸类型标签和所述预测人脸类型标签,对所述待训练人脸识别网络和所述待训练多媒体识别网络进行联合训练,得到训练好的多媒体识别网络。
20、另一方面提供了一种多媒体搜索装置,所述装置包括:
21、第二信息获取模块,被配置为执行获取搜索信息和至少一个待搜索多媒体各自对应的目标类别标签;所述目标类别标签是通过将每个待搜索多媒体包含的至少一个图像,输入根据上述任一项所述的多媒体识别网络生成方法生成的多媒体识别网络进行多媒体类别识别处理得到的;所述至少一个图像包含人脸信息;
22、匹配处理模块,被配置为执行对所述搜索信息和所述目标类别标签对应的目标多媒体类别进行匹配处理,得到所述至少一个待搜索多媒体各自对应的匹配结果;
23、目标搜索多媒体确定模块,被配置为执行基于所述匹配结果,从所述至少一个待搜索多媒体中,确定与所述搜索信息匹配的目标搜索多媒体。
24、另一方面提供了一种电子设备,包括:处理器;
25、用于存储所述处理器可执行指令的存储器;
26、其中,所述处理器被配置为执行所述指令,以实现上述任一项所述的多媒体识别网络生成方法或多媒体搜索方法。
27、另一方面提供了一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行上述任一多媒体识别网络生成方法或多媒体搜索方法。
28、另一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的多媒体识别网络生成方法或多媒体搜索方法。
29、本技术提供的多媒体识别网络生成方法、装置、设备、存储介质及计算机程序产品,具有如下技术效果:
30、本技术在多媒体搜索场景中,待搜索多媒体对应的目标类别标签是通过将每个待搜索多媒体包含的至少一个图像,输入多媒体识别网络进行多媒体类别识别处理得到的;该多媒体识别网络是基于多个多媒体样本对应的多个预设类别标签、多个多媒体样本对应的多个预测类别标签、多个多媒体样本包含的样本图像对应的预测人脸类型标签和多个多媒体样本包含的样本图像对应的预设人脸类型标签,对待训练人脸识别网络和待训练多媒体识别网络进行联合训练得到的多媒体识别网络,且预设人脸类型标签是基于每个样本图像对应的人脸特征信息和多种人脸类型对应的聚类特征信息进行关联分析得到的,可以有效保证待训练人脸识别网络学习到的人脸信息的准确性,进而可以有效提升待训练多媒体识别网络训练过程中,结合人脸信息进行学习多媒体的特征的有效性,更好的提升多媒体识别的准确性,进而也可以提升多媒体搜索过程中,搜索召回的精准性和有效性。