一种多模态数据处理方法和处理系统与流程

文档序号：38249981发布日期：2024-06-06 19:24阅读：31来源：国知局

本发明涉及数据处理，尤其涉及一种多模态数据处理方法和处理系统。

背景技术：

1、随着信息技术的飞速发展，多模态数据处理技术已成为人工智能领域的研究热点。多模态数据，如文本、图像、音频和视频等，广泛存在于我们的日常生活中，并且能够提供丰富的信息。

2、传统的多模态数据处理方法往往采用简单的特征拼接或加权融合的方式，这种方法忽略了不同模态数据之间的内在联系和差异性，导致处理效果不佳。此外，传统的方法还存在数据泄露的风险，因为不同层次的数据直接共享可能导致信息泄露，从而影响数据的安全性和隐私性。

3、因此，有必要提供一种多模态数据处理方法和处理系统解决上述技术问题。

技术实现思路

1、为解决上述技术问题，本发明提供一种多模态数据处理方法和处理系统，不仅能够有效地融合不同模态的数据，提高信息处理的准确性和效率，还能够保护数据的安全性和隐私性，具有重要的实际应用价值。

2、本发明提供的一种多模态数据处理方法，处理方法包括以下步骤：

3、获取待处理数据，并对所述待处理数据进行模态分类，得到至少一种模态类别的模态数据；

4、基于各模态数据的模态类别，将各模态数据对应输入预设的处理层进行特征提取，得到与各模态数据对应的特征表示，其中，每个所述处理层预定义有匹配于模态类别的处理模型；

5、利用预设的融合层合并各模态数据的特征表示，得到融合特征，其中，所述融合层预定义有通过设定方法训练的神经网络融合模型；

6、将所述融合特征输入到预先训练好的分类器进行分类，输出所述待处理数据的确定性标签，其中，所述分类器预定义有从融合特征到确定性标签之间的映射关系。

7、优选的，所述获取待处理数据，并对所述待处理数据进行模态分类，得到至少一种模态类别的模态数据，具体为：

8、利用预设的规则库对所述待处理数据进行模态分类，其中，所述规则库的分类依据包括文件属性规则、内容特征规则和标签映射规则中的一种或者多种组合。

9、优选的，所述基于各模态数据的模态类别，将各模态数据对应输入预设的处理层进行特征提取，得到与各模态数据对应的特征表示，其中，每个所述处理层预定义有匹配于模态类别的处理模型，包括：

10、根据各模态数据的模态类别，选定具有匹配的处理模型的处理层；

11、使用选定的所述处理层匹配的处理模型对各模态数据进行特征提取，得到局部特征和全局特征；

12、将各模态数据的所述局部特征投影到由所述全局特征定义的向量空间中；

13、计算各模态数据的局部特征与其在全局特征上投影的差值，得到正交分量；

14、对所有的正交分量与全局特征进行聚合处理，得到各模态数据的特征表示。

15、优选的，所述模态类别包括文本数据、音频数据、视频数据和图像数据。

16、优选的，所述处理层包括文本处理层、音频处理层、视频处理层和图片处理层，

17、对应于所述文本处理层、音频处理层、视频处理层和图片处理层的处理模型分别为nlp模型、rnn模型、3d- cnn模型和cnn模型。

18、优选的，所述利用预设的融合层合并各模态数据的特征表示，得到融合特征，其中，所述融合层预定义有通过设定方法训练的神经网络融合模型，包括：

19、构建预定义神经网络融合模型的融合层；

20、利用神经网络融合模型处理各模态数据对应的特征表示，得到预测结果以及置信度；

21、将置信度作为权重，对各模态数据的预测结果进行加权处理；

22、将所有加权后的预测结果合成，得到融合特征。

23、优选的，所述构建预定义神经网络融合模型的融合层为：

24、构建基于中期融合策略的初始融合层；

25、利用多模态数据集对构建的初始神经网络融合模型进行训练，得到神经网络融合模型；

26、将神经网络融合模型加载至初始融合层，得到融合层。

27、优选的，所述将所述融合特征输入到预先训练好的分类器进行分类，输出待处理数据的确定性标签，其中，所述分类器预定义有从融合特征到确定性标签之间的映射关系，包括：

28、构建基于机器学习的分类器，并使用分类数据集训练所述分类器，使之学习从融合特征到确定性标签之间的映射关系；

29、将所述融合特征作为输入，传递给基于机器学习的分类器进行分类，得到至少一个类别标签；

30、从至少一个类别标签中判定一个确定性标签。

31、本发明还提供了一种多模态数据处理系统，应用于一种多模态数据处理方法，处理系统包括：

32、模态类别获取模块，用于获取待处理数据，并对所述待处理数据进行模态分类，得到至少一种模态类别的模态数据；

33、特征提取模块，用于基于各模态数据的模态类别，将各模态数据对应输入预设的处理层进行特征提取，得到与各模态数据对应的特征表示，其中，每个所述处理层预定义有匹配于模态类别的处理模型；

34、融合模块，用于利用预设的融合层合并各模态数据的特征表示，得到融合特征，其中，所述融合层预定义有通过设定方法训练的神经网络融合模型；

35、分类模块，用于将所述融合特征输入到预先训练好的分类器进行分类，输出所述待处理数据的确定性标签，其中，所述分类器预定义有从融合特征到确定性标签之间的映射关系。

36、与相关技术相比较，本发明提供的一种多模态数据处理方法和处理系统具有如下有益效果：

37、本发明通过获取待处理数据，并对所述待处理数据进行模态分类，得到至少一种模态类别的模态数据；基于各模态数据的模态类别，将各模态数据对应输入预设的处理层进行特征提取，得到与各模态数据对应的特征表示，其中，每个所述处理层预定义有匹配于模态类别的处理模型；利用预设的融合层合并各模态数据的特征表示，得到融合特征，其中，所述融合层预定义有通过设定方法训练的神经网络融合模型；将所述融合特征输入到预先训练好的分类器进行分类，输出所述待处理数据的确定性标签，其中，所述分类器预定义有从融合特征到确定性标签之间的映射关系，本发明将多模态数据分为不同的层次，每个层次上的处理模型都是独立训练的，多模态数据不会在不同的层次间直接共享，从而减少了数据泄露的风险，不同层次的特征表示被合并，形成融合特征，既保留了各模态数据的特性，又充分利用了它们之间的内在联系。

技术特征：

1.一种多模态数据处理方法，其特征在于，处理方法包括以下步骤：

2.根据权利要求1所述的一种多模态数据处理方法，其特征在于，所述获取待处理数据，并对所述待处理数据进行模态分类，得到至少一种模态类别的模态数据，具体为：

3.根据权利要求2所述的一种多模态数据处理方法，其特征在于，所述基于各模态数据的模态类别，将各模态数据对应输入预设的处理层进行特征提取，得到与各模态数据对应的特征表示，其中，每个所述处理层预定义有匹配于模态类别的处理模型，包括：

4.根据权利要求3所述的一种多模态数据处理方法，其特征在于，所述模态类别包括文本数据、音频数据、视频数据和图像数据。

5.根据权利要求4所述的一种多模态数据处理方法，其特征在于，所述处理层包括文本处理层、音频处理层、视频处理层和图片处理层，

6.根据权利要求5所述的一种多模态数据处理方法，其特征在于，所述利用预设的融合层合并各模态数据的特征表示，得到融合特征，其中，所述融合层预定义有通过设定方法训练的神经网络融合模型，包括：

7.根据权利要求6所述的一种多模态数据处理方法，其特征在于，所述构建预定义神经网络融合模型的融合层为：

8.根据权利要求7所述的一种多模态数据处理方法，其特征在于，所述将所述融合特征输入到预先训练好的分类器进行分类，输出待处理数据的确定性标签，其中，所述分类器预定义有从融合特征到确定性标签之间的映射关系，包括：

9.一种多模态数据处理系统，应用于上述权利要求1至8任意一项所述的一种多模态数据处理方法，其特征在于，处理系统包括：

技术总结
本发明提供一种多模态数据处理方法和处理系统，属于数据处理技术领域，通过获取待处理数据，并对待处理数据进行模态分类，得到至少一种模态类别的模态数据；基于各模态数据的模态类别，将各模态数据对应输入预设的处理层进行特征提取，得到特征表示；利用预设的融合层合并各模态数据的特征表示，得到融合特征；将融合特征输入到预先训练好的分类器进行分类，输出待处理数据的确定性标签，本发明将多模态数据分为不同的层次，每个层次上的处理模型都是独立训练的，多模态数据不会在不同的层次间直接共享，减少了数据泄露的风险，不同层次的特征表示被合并，形成融合特征，既保留了各模态数据的特性，又充分利用了它们之间的内在联系。

技术研发人员：李万豪,李万灿,刘佳,巫家敏,李万博,窦军华,杨瞿瑞,王胡兵,张永刚,袁小龙
受保护的技术使用者：成都梵辰科技有限公司
技术研发日：
技术公布日：2024/6/5

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李万豪,李万灿,刘佳,巫家敏,李万博,窦军华,杨瞿瑞,王胡兵,张永刚,袁小龙
技术所有人：成都梵辰科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。