本说明书实施例涉及计算机,特别涉及特征生成方法。
背景技术:
1、图文数据处理模型作为一种多模态模型,可以用于处理多种不同类型的数据,比如文本、图像等。模态可以理解为不同的数据表示方式,比如文本和图像即为不同的模态。多模态模型可以将一种模态的输入转换为另一种模态的输出,能够应用于图像分类、图像检测分割、图文检索及图像生成等下游任务。
2、然而,目前的多模态模型的训练样本(即图像样本和文本样本)虽然数量较多,但是数据杂乱且没有组织结构,大部分数据都描述相同的语义内容,且难以获得模型训练需要的大量有效样本覆盖不同的语义内容,多样性不足,导致对多模态模型进行训练时,训练效率较差,训练出的多模态模型的性能也较差。
技术实现思路
1、有鉴于此,本说明书实施例提供了一种特征生成方法。本说明书一个或者多个实施例同时涉及一种特征生成装置,一种图文数据处理模型的训练方法,一种图文数据处理模型的训练装置,一种图文数据处理方法,一种图文数据处理装置,一种文本处理方法,一种文本处理装置,一种vr/ar设备,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
2、根据本说明书实施例的第一方面,提供了一种特征生成方法,包括:
3、确定图文样本对,其中,所述图文样本对包括图像样本以及所述图像样本对应的文本样本;
4、确定所述图像样本的初始图像特征,以及所述文本样本的初始文本特征;
5、将所述初始图像特征和至少两个随机第一特征输入第一特征生成器,获得至少两个目标文本特征,其中,所述第一特征生成器基于第一图文特征对训练得到;
6、将所述初始文本特征和至少两个随机第二特征输入第二特征生成器,获得至少两个目标图像特征,其中,所述第二特征生成器基于第二图文特征对训练得到。
7、根据本说明书实施例的第二方面,提供了一种特征生成装置,包括:
8、第一确定模块,被配置为确定图文样本对,其中,所述图文样本对包括图像样本以及所述图像样本对应的文本样本;
9、第二确定模块,被配置为确定所述图像样本的初始图像特征,以及所述文本样本的初始文本特征;
10、第一输入模块,被配置为将所述初始图像特征和至少两个随机第一特征输入第一特征生成器,获得至少两个目标文本特征,其中,所述第一特征生成器基于第一图文特征对训练得到;
11、第二输入模块,被配置为将所述初始文本特征和至少两个随机第二特征输入第二特征生成器,获得至少两个目标图像特征,其中,所述第二特征生成器基于第二图文特征对训练得到。
12、根据本说明书实施例的第三方面,提供了一种图文数据处理模型的训练方法,包括:
13、确定图文样本对,其中,所述图文样本对包括图像样本以及所述图像样本对应的文本样本;
14、确定所述图像样本的初始图像特征,以及所述文本样本的初始文本特征;
15、将所述图像样本和所述文本样本输入图文数据处理模型,获得预测图像特征和预测文本特征;
16、将所述初始图像特征和至少两个随机第一特征输入第一特征生成器,获得至少两个目标文本特征,其中,所述第一特征生成器基于第一图文特征对训练得到;
17、将所述初始文本特征和至少两个随机第二特征输入第二特征生成器,获得至少两个目标图像特征,其中,所述第二特征生成器基于第二图文特征对训练得到;
18、根据所述预测图像特征、所述至少两个目标图像特征、所述预测文本特征和所述至少两个目标文本特征,对所述图文数据处理模型进行训练,直至获得满足训练停止条件的图文数据处理模型。
19、根据本说明书实施例的第四方面,提供了一种图文数据处理模型的训练装置,包括:
20、第一确定模块,被配置为确定图文样本对,其中,所述图文样本对包括图像样本以及所述图像样本对应的文本样本;
21、第二确定模块,被配置为确定所述图像样本的初始图像特征,以及所述文本样本的初始文本特征;
22、第三确定模块,被配置为将所述图像样本和所述文本样本输入图文数据处理模型,获得预测图像特征和预测文本特征;
23、第一输入模块,被配置为将所述初始图像特征和至少两个随机第一特征输入第一特征生成器,获得至少两个目标文本特征,其中,所述第一特征生成器基于第一图文特征对训练得到;
24、第二输入模块,被配置为将所述初始文本特征和至少两个随机第二特征输入第二特征生成器,获得至少两个目标图像特征,其中,所述第二特征生成器基于第二图文特征对训练得到;
25、训练模块,被配置为根据所述预测图像特征、所述至少两个目标图像特征、所述预测文本特征和所述至少两个目标文本特征,对所述图文数据处理模型进行训练,直至获得满足训练停止条件的图文数据处理模型。
26、根据本说明书实施例的第五方面,提供了一种图文数据处理方法,包括:
27、确定待处理图文数据;
28、将所述待处理图文数据输入图文数据处理模型,获得所述待处理图文数据对应的图文特征,其中,所述图文数据处理模型为本说明书实施例提供的图文数据处理模型的训练方法所述的满足训练停止条件的图文数据处理模型;
29、根据所述图文特征,确定所述待处理图文数据对应的图文数据处理结果。
30、根据本说明书实施例的第六方面,提供了一种图文数据处理装置,包括:
31、第一确定模块,被配置为确定待处理图文数据;
32、输入模块,被配置为将所述待处理图文数据输入图文数据处理模型,获得所述待处理图文数据对应的图文特征,其中,所述图文数据处理模型为本说明书实施例提供的图文数据处理模型的训练方法所述的满足训练停止条件的图文数据处理模型;
33、第二确定模块,被配置为根据所述图文特征,确定所述待处理图文数据对应的图文数据处理结果。
34、根据本说明书实施例的第七方面,提供了一种文本处理方法,应用于云侧设备,包括:
35、接收端侧设备发送的文本处理请求,其中,所述文本处理请求携带有待处理文本;
36、将所述待处理文本输入图文数据处理模型,获得所述待处理文本对应的文本特征,其中,所述图文数据处理模型为本说明书实施例提供的图文数据处理模型的训练方法所述的满足训练停止条件的图文数据处理模型;
37、根据所述文本特征,确定所述文本特征对应的图像特征,并确定所述图像特征对应的图像;
38、将所述图像发送至所述端侧设备。
39、根据本说明书实施例的第八方面,提供了一种文本处理装置,应用于云侧设备,包括:
40、接收模块,被配置为接收端侧设备发送的文本处理请求,其中,所述文本处理请求携带有待处理文本;
41、输入模块,被配置为将所述待处理文本输入图文数据处理模型,获得所述待处理文本对应的文本特征,其中,所述图文数据处理模型为本说明书实施例提供的图文数据处理模型的训练方法所述的满足训练停止条件的图文数据处理模型;
42、确定模块,被配置为根据所述文本特征,确定所述文本特征对应的图像特征,并确定所述图像特征对应的图像;
43、发送模块,被配置为将所述图像发送至所述端侧设备。
44、根据本说明书实施例的第九方面,提供了一种计算设备,包括:
45、存储器和处理器;
46、所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述方法的步骤。
47、根据本说明书实施例的第十方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述方法的步骤。
48、根据本说明书实施例的第十一方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述方法的步骤。
49、根据本说明书实施例的第十二方面,提供了一种vr/ar设备,包括:
50、存储器和处理器;
51、所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述图文数据处理方法的步骤。
52、本说明书一个实施例提供了一种特征生成方法,确定图文样本对,其中,所述图文样本对包括图像样本以及所述图像样本对应的文本样本;确定所述图像样本的初始图像特征,以及所述文本样本的初始文本特征;将所述初始图像特征和至少两个随机第一特征输入第一特征生成器,获得至少两个目标文本特征,其中,所述第一特征生成器基于第一图文特征对训练得到;将所述初始文本特征和至少两个随机第二特征输入第二特征生成器,获得至少两个目标图像特征,其中,所述第二特征生成器基于第二图文特征对训练得到。
53、上述方法通过对图文样本对中的图像样本提取初始图像特征,并根据该初始图像特征和至少两个随机第一特征生成至少两个目标文本特征,以及对图文样本对中的文本样本提取初始文本特征,并根据该初始文本特征和至少两个随机第二特征生成至少两个目标图像特征,便于后续对图文数据处理模型进行训练时,将生成的至少两个目标文本特征和至少两个目标图像特征作为训练标签,实现了根据一个图文样本对生成多个训练标签,保证了图文数据处理模型的训练数据的多样性,扩充了模型训练时能够学习到的图文样本对(即原始训练数据)之外的语义内容,满足模型训练过程中需要大量有效样本覆盖不同的语义内容的需求,进而提升模型训练效率以及模型性能。