本发明涉及人工智能,特别涉及一种多模态的融合方法、装置、设备及介质。
背景技术:
1、目前,多模态学习已成为近年来不断研究的热点之一。模态指的是信息的来源或者形式,例如,一种信息可以通过视频、语音、图像、文字等多种形式进行表现,则每一种形式的表现都是该信息的一种模态。目前,在电子商务领域中,业内多模态特征融合一般是把多个模态的特征向量拼接在一起,然而这种方法会丢失许多的模态信息,导致融合的效果不理想。
技术实现思路
1、本发明的主要目的为提供一种多模态的融合方法、装置、设备及介质,旨在解决现有的多模态特征融合方法会丢失许多的模态信息,导致融合的效果不理想的问题。
2、本发明提供了一种多模态的融合方法,包括:
3、获取多个待融合的模态;
4、将各个所述待融合的模态经过编码器进行编码,得到各个所述待融合的模态对应的特征向量;
5、对所述特征向量进行预处理,得到各个所述特征向量的目标特征向量;其中预处理的方式为对所述特征向量进行增加或者减少维度;
6、根据各个所述目标特征向量对应的维度为每个所述目标特征向量设置多个权重矩阵;其中,所述权重矩阵的横列数量与所述目标特征向量的纵列数量相同,各个所述权重矩阵的纵列数量为预设值;
7、将各个所述目标特征向量与对应的多个所述权重矩阵相乘,得到各个所述目标特征向量分别对应的多个暂时向量,其中,所述暂时向量的数量与所述权重矩阵相同;
8、将各个所述目标特征向量对应的多个所述暂时向量进行逐元素相加,得到各个所述目标特征向量对应的且纵列数量为预设值的模态向量;
9、将所述模态向量进行融合操作,得到多个模态对应的总向量。
10、进一步地,所述对所述特征向量进行预处理,得到各个所述特征向量的目标特征向量的步骤,包括:
11、对所述特征向量的最后一个位置增加一个标量为1的维度,得到目标特征向量。
12、进一步地,所述将所述模态向量进行融合操作,得到多个模态对应的总向量的步骤,包括:
13、将各个模态向量进行向量内积操作,得到多个模态对应的总向量。
14、进一步地,所述将所述模态向量进行融合操作,得到多个模态对应的总向量的步骤,包括:
15、将各个模态向量进行向量拼接,得到拼接向量;
16、将所述拼接向量输入全连接层,在全连接层乘以n×m*m的权重,得到总向量;其中,n为模态向量的个数,m为所述预设值。
17、进一步地,所述将各个所述待融合的模态经过编码器进行编码,得到各个所述待融合的模态对应的特征向量的步骤,包括:
18、获取各个模态的表现形式;其中表现形式至少包括文本、图像、语音三种表现形式;
19、根据各个模态的表现形式设置对应的编码器;
20、利用对应的编码器对各个模态进行编码,得到各个模态对应的特征向量。
21、进一步地,所述将所述模态向量进行融合操作,得到多个模态对应的总向量的步骤之后,还包括:
22、获取多模态数据样本,其中所述多模态数据样本包括多个总向量以及对应的实际识别结果;
23、将各个总向量输入至预设的神经网络模型进行识别,得到预测识别结果;
24、根据实际识别结果和预测识别计算各个所述多模态数据样本的损失函数;
25、通过预设的参数调整策略,利用所述各个多模态数据样本的损失函数,对所述神经网络模型的参数进行更新和/或对生成的权重矩阵进行更新。
26、本发明还提供了一种多模态的融合装置,包括:
27、获取模块,用于获取多个待融合的模态;
28、编码模块,用于将各个所述待融合的模态经过编码器进行编码,得到各个所述待融合的模态对应的特征向量;
29、预处理模块,用于对所述特征向量进行预处理,得到各个所述特征向量的目标特征向量;其中预处理的方式为对所述特征向量进行增加或者减少维度;
30、设置模块,用于根据各个所述目标特征向量对应的维度为每个所述目标特征向量设置多个权重矩阵;其中,所述权重矩阵的横列数量与所述目标特征向量的纵列数量相同,各个所述权重矩阵的纵列数量为预设值;
31、相乘模块,用于将各个所述目标特征向量与对应的多个所述权重矩阵相乘,得到各个所述目标特征向量分别对应的多个暂时向量,其中,所述暂时向量的数量与所述权重矩阵相同;
32、相加模块,用于将各个所述目标特征向量对应的多个所述暂时向量进行逐元素相加,得到各个所述目标特征向量对应的且纵列数量为预设值的模态向量;
33、融合模块,用于将所述模态向量进行融合操作,得到多个模态对应的总向量。
34、进一步地,所述预处理模块,包括:
35、预处理子模块,用于对所述特征向量的最后一个位置增加一个标量为1的维度,得到目标特征向量。
36、本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
37、本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
38、本发明的有益效果:通过对多个模态进行编码,得到各个模态的特征向量,并进行预处理,得到各个模态对应的特征向量,根据各个目标特征向量对应的维度为每个目标特征向量设置多个权重矩阵,以获取暂时向量并进行逐元素相加,得到模态向量,并进行融合操作,得到多个模态对应的总向量,从而实现了保留更多的模态信息,使最终的总向量的融合效果更好。
1.一种多模态的融合方法,其特征在于,包括:
2.如权利要求1所述的多模态的融合方法,其特征在于,所述对所述特征向量进行预处理,得到各个所述特征向量的目标特征向量的步骤,包括:
3.如权利要求1所述的多模态的融合方法,其特征在于,所述将所述模态向量进行融合操作,得到多个模态对应的总向量的步骤,包括:
4.如权利要求1所述的多模态的融合方法,其特征在于,所述将所述模态向量进行融合操作,得到多个模态对应的总向量的步骤,包括:
5.如权利要求1所述的多模态的融合方法,其特征在于,所述将各个所述待融合的模态经过编码器进行编码,得到各个所述待融合的模态对应的特征向量的步骤,包括:
6.如权利要求1所述的多模态的融合方法,其特征在于,所述将所述模态向量进行融合操作,得到多个模态对应的总向量的步骤之后,还包括:
7.一种多模态的融合装置,其特征在于,包括:
8.如权利要求7所述的多模态的融合装置,其特征在于,所述预处理模块,包括:
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。