多模态的融合方法、装置、设备及介质与流程

文档序号：34367572发布日期：2023-06-04 23:09阅读：58来源：国知局

本发明涉及人工智能，特别涉及一种多模态的融合方法、装置、设备及介质。

背景技术：

1、目前，多模态学习已成为近年来不断研究的热点之一。模态指的是信息的来源或者形式，例如，一种信息可以通过视频、语音、图像、文字等多种形式进行表现，则每一种形式的表现都是该信息的一种模态。目前，在电子商务领域中，业内多模态特征融合一般是把多个模态的特征向量拼接在一起，然而这种方法会丢失许多的模态信息，导致融合的效果不理想。

技术实现思路

1、本发明的主要目的为提供一种多模态的融合方法、装置、设备及介质，旨在解决现有的多模态特征融合方法会丢失许多的模态信息，导致融合的效果不理想的问题。

2、本发明提供了一种多模态的融合方法，包括：

3、获取多个待融合的模态；

4、将各个所述待融合的模态经过编码器进行编码，得到各个所述待融合的模态对应的特征向量；

5、对所述特征向量进行预处理，得到各个所述特征向量的目标特征向量；其中预处理的方式为对所述特征向量进行增加或者减少维度；

6、根据各个所述目标特征向量对应的维度为每个所述目标特征向量设置多个权重矩阵；其中，所述权重矩阵的横列数量与所述目标特征向量的纵列数量相同，各个所述权重矩阵的纵列数量为预设值；

7、将各个所述目标特征向量与对应的多个所述权重矩阵相乘，得到各个所述目标特征向量分别对应的多个暂时向量，其中，所述暂时向量的数量与所述权重矩阵相同；

8、将各个所述目标特征向量对应的多个所述暂时向量进行逐元素相加，得到各个所述目标特征向量对应的且纵列数量为预设值的模态向量；

9、将所述模态向量进行融合操作，得到多个模态对应的总向量。

10、进一步地，所述对所述特征向量进行预处理，得到各个所述特征向量的目标特征向量的步骤，包括：

11、对所述特征向量的最后一个位置增加一个标量为1的维度，得到目标特征向量。

12、进一步地，所述将所述模态向量进行融合操作，得到多个模态对应的总向量的步骤，包括：

13、将各个模态向量进行向量内积操作，得到多个模态对应的总向量。

14、进一步地，所述将所述模态向量进行融合操作，得到多个模态对应的总向量的步骤，包括：

15、将各个模态向量进行向量拼接，得到拼接向量；

16、将所述拼接向量输入全连接层，在全连接层乘以n×m*m的权重，得到总向量；其中，n为模态向量的个数，m为所述预设值。

17、进一步地，所述将各个所述待融合的模态经过编码器进行编码，得到各个所述待融合的模态对应的特征向量的步骤，包括：

18、获取各个模态的表现形式；其中表现形式至少包括文本、图像、语音三种表现形式；

19、根据各个模态的表现形式设置对应的编码器；

20、利用对应的编码器对各个模态进行编码，得到各个模态对应的特征向量。

21、进一步地，所述将所述模态向量进行融合操作，得到多个模态对应的总向量的步骤之后，还包括：

22、获取多模态数据样本，其中所述多模态数据样本包括多个总向量以及对应的实际识别结果；

23、将各个总向量输入至预设的神经网络模型进行识别，得到预测识别结果；

24、根据实际识别结果和预测识别计算各个所述多模态数据样本的损失函数；

25、通过预设的参数调整策略，利用所述各个多模态数据样本的损失函数，对所述神经网络模型的参数进行更新和/或对生成的权重矩阵进行更新。

26、本发明还提供了一种多模态的融合装置，包括：

27、获取模块，用于获取多个待融合的模态；

28、编码模块，用于将各个所述待融合的模态经过编码器进行编码，得到各个所述待融合的模态对应的特征向量；

29、预处理模块，用于对所述特征向量进行预处理，得到各个所述特征向量的目标特征向量；其中预处理的方式为对所述特征向量进行增加或者减少维度；

30、设置模块，用于根据各个所述目标特征向量对应的维度为每个所述目标特征向量设置多个权重矩阵；其中，所述权重矩阵的横列数量与所述目标特征向量的纵列数量相同，各个所述权重矩阵的纵列数量为预设值；

31、相乘模块，用于将各个所述目标特征向量与对应的多个所述权重矩阵相乘，得到各个所述目标特征向量分别对应的多个暂时向量，其中，所述暂时向量的数量与所述权重矩阵相同；

32、相加模块，用于将各个所述目标特征向量对应的多个所述暂时向量进行逐元素相加，得到各个所述目标特征向量对应的且纵列数量为预设值的模态向量；

33、融合模块，用于将所述模态向量进行融合操作，得到多个模态对应的总向量。

34、进一步地，所述预处理模块，包括：

35、预处理子模块，用于对所述特征向量的最后一个位置增加一个标量为1的维度，得到目标特征向量。

36、本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

37、本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

38、本发明的有益效果：通过对多个模态进行编码，得到各个模态的特征向量，并进行预处理，得到各个模态对应的特征向量，根据各个目标特征向量对应的维度为每个目标特征向量设置多个权重矩阵，以获取暂时向量并进行逐元素相加，得到模态向量，并进行融合操作，得到多个模态对应的总向量，从而实现了保留更多的模态信息，使最终的总向量的融合效果更好。

技术特征：

1.一种多模态的融合方法，其特征在于，包括：

2.如权利要求1所述的多模态的融合方法，其特征在于，所述对所述特征向量进行预处理，得到各个所述特征向量的目标特征向量的步骤，包括：

3.如权利要求1所述的多模态的融合方法，其特征在于，所述将所述模态向量进行融合操作，得到多个模态对应的总向量的步骤，包括：

4.如权利要求1所述的多模态的融合方法，其特征在于，所述将所述模态向量进行融合操作，得到多个模态对应的总向量的步骤，包括：

5.如权利要求1所述的多模态的融合方法，其特征在于，所述将各个所述待融合的模态经过编码器进行编码，得到各个所述待融合的模态对应的特征向量的步骤，包括：

6.如权利要求1所述的多模态的融合方法，其特征在于，所述将所述模态向量进行融合操作，得到多个模态对应的总向量的步骤之后，还包括：

7.一种多模态的融合装置，其特征在于，包括：

8.如权利要求7所述的多模态的融合装置，其特征在于，所述预处理模块，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

技术总结
本发明涉及人工智能技术领域，提供了一种多模态的融合方法、装置、设备及介质，其中，方法包括：通过对多个模态进行编码，得到各个模态的特征向量，并进行预处理，得到各个模态对应的特征向量，根据各个目标特征向量对应的维度为每个目标特征向量设置多个权重矩阵，以获取暂时向量并进行逐元素相加，得到模态向量，并进行融合操作，得到多个模态对应的总向量，可以应用于电子商务，通过神经网络进行实现。本发明的有益效果：实现了保留更多的模态信息，使最终的总向量的融合效果更好。

技术研发人员：舒畅,陈又新
受保护的技术使用者：平安科技（深圳）有限公司
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：舒畅陈又新
技术所有人：平安科技（深圳）有限公司
我是此专利的发明人

上一篇：一种人体头部三维建模用数据采集装置的制作方法
上一篇：一种基于手足外科护理的患者用抬高机构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。