一种多模态识别模型的训练方法及识别方法与流程

文档序号：37586125发布日期：2024-04-18 12:13阅读：33来源：国知局

本发明涉及人工智能，可应用于金融领域，尤其是一种多模态识别模型的训练方法及识别方法。

背景技术：

1、近年来，银行业务中的智能监控系统受到了广泛重视和关注。例如对重要客户在网点中停留轨迹的热点图的分析，能够进一步确定客户对于各领域(例如理财、贵金属等)的兴趣程度，进而后续为客户提供定制化数据服务提供数据支持。因此，使用人工智能进行客户的识别具有重要的意义。

2、但目前的识别方法受到很多环境因素的影响，比如摄像机拍摄的位置、角度、高度都有所不同，使用检测算法检测出来的人物与整张图片的比例、位置都不同，导致了识别较为困难。因此，目前的行人重识别算法在公开数据集上的准确率和常规的单模态行人重识别算法的准确率还有着较大的差距。

技术实现思路

1、针对现有技术的上述问题，本说明书的目的在于，提供一种多模态识别模型的训练方法及识别方法，以解决现有技术中行人重识别算法在公开数据集上的准确率和常规的单模态行人重识别算法的准确率还有着较大的差距的问题。

2、为了解决上述技术问题，本说明书的具体技术方案如下：

3、一方面，本说明书提供一种多模态识别模型的训练方法，包括：

4、将可见光图像数据和红外光图像数据导入至各自的特征提取层进行特征提取得到特征数据矩阵；

5、对所述可见光图像数据和红外光图像数据的特征数据矩阵进行形态转换；

6、对形态转换后的数据进行相似度计算，得到两个相似度矩阵；

7、将所述相似度矩阵依次输入至融合模块，其中融合模块包括细粒度分支层、粗粒度分支层、融合单元及激活层，所述细粒度分支层用于对所述相似度矩阵进行多次卷积后得到局部特征矩阵，所述粗粒度分支层用于对所述相似度矩阵进行全局池化以及全连接处理后得到全局特征矩阵；所述融合单元用于将所述局部特征矩阵与所述全局特征矩阵进行归一化后相乘，通过所述激活层得到两个次级输出矩阵；

8、将各图像数据的次级输出矩阵输出到运算模块中，得到每个可见光图像数据的第一输出矩阵，以及红外光图像数据的第二输出矩阵，所述运算模块用于进行乘积运算以及累加运算；

9、将所述第一输出矩阵导入至可见光图像锚点损失函数中得到第一损失参数，将所述第二输出矩阵导入至红外光图像锚点损失函数中得到第二损失参数；

10、根据交叉熵损失参数、所述第一损失参数以及所述第二损失参数计算损失值，并根据损失值以及反向传播方法调整所述特征提取层中的参数；

11、重复上述过程，直至循环至训练阈值后，得到最终的特征提取层，由特征提取层及输出层构成多模态识别模型，其中，所述输出层的输出为可见光图像数据与红外光图像数据中是否为同一人。

12、作为本说明书的一个实施例，各类图像对应的特征提取层均包括五层，每类数据的特征提取层的前三层的参数为独立参数，每类数据的特征提取层的后两层的参数为共享参数。

13、作为本说明书的一个实施例，所述细粒度分支层包括第一卷积层、激活层和第二卷积层；

14、所述第一卷积层获取相似度矩阵进行单位卷积运算，得到第一单位特征矩阵；

15、所述激活层获取所述第一单位特征矩阵进行线性单元修正后传递给所述第二卷积层；

16、所述第二卷积层获取修正后的所述第一单位特征矩阵进行单位卷积运算，得到所述局部特征矩阵。

17、作为本说明书的一个实施例，所述粗粒度分支层包括全局平均池化层、激活层和全连接层；

18、所述全局平均池化层获取所述相似度矩阵进行特征融合，得到融合矩阵；

19、所述激活层获取所述融合矩阵后传递给所述全连接层；

20、所述全连接层将所述融合矩阵进行全连接处理得到所述全局特征矩阵。

21、作为本说明书的一个实施例，所述将各图像数据的次级输出矩阵输出到运算模块中，得到每个可见光图像数据的第一输出矩阵，以及红外光图像数据的第二输出矩阵，所述运算模块用于进行乘积运算以及累加运算，进一步包括：

22、每个所述次级输出矩阵与对应的所述特征数据矩阵相乘后得到乘积矩阵；

23、将与所述可见光图像数据对应的所述乘积矩阵以及其所述特征数据矩阵相加后得到第一输出矩阵；

24、将与所述红外光图像数据对应的所述乘积矩阵以及其所述特征数据矩阵相加后得到第二输出矩阵。

25、作为本说明书的一个实施例，所述将所述第一输出矩阵导入至可见光图像锚点损失函数中得到第一损失参数，进一步包括：

26、根据如下公式，计算所述第一损失参数l1：

27、

28、其中，p为样本人员数量，k表示与锚点相同身份相同模态的样本总数，表示第i个身份的可见光样本通过深度模型所获取到的特征映射，表示身份标签为i与锚点可见光模态的特征映射中心，i为第i个身份，j为第j个身份，表示身份标签为i与锚点可见光模态的特征映射中心，μ是所有与锚点相同模态的正样本到类中心的平均距离，为与,之间的最大方差，为与之间的最小方差，β为边界参数。

29、作为本说明书的一个实施例，所述第二输出矩阵导入至红外光图像锚点损失函数中得到第二损失参数，进一步包括：

30、根据如下公式，计算所述第二损失参数l2：

31、

32、其中，p为样本人员数量，k表示与锚点相同身份相同模态的样本总数，表示第i个身份的红外光样本通过深度模型所获取到的特征映射，表示身份标签为i与锚点红外光模态的特征映射中心，i为第i个身份，j为第j个身份，表示身份标签为i与锚点红外光模态的特征映射中心，μ是所有与锚点相同模态的正样本到类中心的平均距离，为与,之间的最大方差，为与之间的最小方差，β为边界参数。

33、作为本说明书的一个实施例，所述根据交叉熵损失参数、所述第一损失参数以及所述第二损失参数计算损失值，进一步包括：

34、根据如下公式计算交叉熵损失函数lid

35、

36、根据如下公式计算损失值ltotal

37、ltotal＝λ1l1+λ2l2+lid

38、其中λ1、λ2为调节损失的超参数，l1为第一损失参数，l2为第二损失参数，lid为交叉熵损参数，pi,k为i种身份中与锚点相同身份相同模态的样本总数所占比例，yi为第i次训练结果。

39、另一方面，本说明书还提供了一种识别方法，所述识别方法利用如上述技术方案提供的多模态识别模型的训练方法训练得到的多模态识别模型，所述识别方法包括：

40、获取若干待预测样本，其中，每个待预测样本均包括目标用户的可见光图像数据和红外光图像数据以及被测图像；

41、将待预测样本中的额可见光图像数据及被测图像，红外光图像数据及被测图像分别输入至多模态识别模型中，得到识别结果；

42、判断识别结果是否相同，若相同，则将可见光图像数据及红外光图像数据的标签赋予给被测图像。

43、另一方面，本说明书还提供了一种多模态识别模型的训练装置，包括：

44、特征提取单元，用于将可见光图像数据和红外光图像数据导入至各自的特征提取层进行特征提取得到特征数据矩阵；

45、形态转换单元，用于对所述可见光图像数据和红外光图像数据的特征数据矩阵进行形态转换；

46、相似度提取单元，用于对形态转换后的数据进行相似度计算，得到两个相似度矩阵；

47、融合单元，用于将各图像数据的相似度矩阵依次输入至融合模块，其中融合模块包括细粒度分支层、粗粒度分支层、融合单元及激活层，所述细粒度分支层用于对所述相似度矩阵并进行多次卷积后得到局部特征矩阵，所述粗粒度分支层用于对所述相似度矩阵进行全局池化以及全连接处理后得到全局特征矩阵；所述融合单元用于将所述局部特征矩阵与所述全局特征矩阵进行归一化后相乘，通过所述激活层得到两个次级输出矩阵；

48、输出矩阵单元，用于将各图像数据的次级输出矩阵输出到运算模块中，得到每个可见光图像数据的第一输出矩阵，以及红外光图像数据的第二输出矩阵，所述运算模块用于进行乘积运算以及累加运算；

49、损失参数单元，用于将所述第一输出矩阵导入至可见光图像锚点损失函数中得到第一损失参数，将所述第二输出矩阵导入至红外光图像锚点损失函数中得到第二损失参数；

50、损失调整单元，用于根据交叉熵损失参数、所述第一损失参数以及所述第二损失参数计算损失值，并根据损失值以及反向传播方法调整所述特征提取层中的参数；

51、迭代单元，用于重复上述过程，直至循环至训练阈值后，得到多模态识别模型，其中，所述多模态识别模型还包括输出层。

52、另一方面，本说明书还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现任意一项所述的多模态识别模型的训练方法。

53、另一方面，本说明书还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现任意一项所述的多模态识别模型的训练方法。

54、采用上述技术方案，通过将可见光图像数据和红外光图像数据导入至各自的特征提取层进行特征提取得到特征数据矩阵，可以实现确定每种模态数据的特征数据矩阵；通过对所述可见光图像数据和红外光图像数据的特征数据矩阵进行形态转换，得到各图像数据的相似度矩阵，可以实现不同模态数据之间差异程度的度量；通过将各图像数据的相似度矩阵依次输入至融合模块，其中融合模块包括细粒度分支层、粗粒度分支层、融合单元及激活层，所述细粒度分支层用于对所述相似度矩阵并进行多次卷积后得到局部特征矩阵，所述粗粒度分支层用于对所述相似度矩阵进行全局池化以及全连接处理后得到全局特征矩阵；所述融合单元用于将所述局部特征矩阵与所述全局特征矩阵进行归一化后相乘，通过所述激活层得到两个次级输出矩阵，可以使用多种分支结构提取不同模态数据的注意力图；通过将各图像数据的次级输出矩阵输出到运算模块中，得到每个可见光图像数据的第一输出矩阵，以及红外光图像数据的第二输出矩阵，所述运算模块用于进行乘积运算以及累加运算，可以分别得到不同模态数据的输出矩阵；通过将所述第一输出矩阵导入至可见光图像锚点损失函数中得到第一损失参数，将所述第二输出矩阵导入至红外光图像锚点损失函数中得到第二损失参数，可以得到每种模态数据的损失参数；通过根据交叉熵损失参数、所述第一损失参数以及所述第二损失参数计算损失值，并根据损失值以及反向传播方法调整所述特征提取层中的参数，可以确定多种模态下计算得到的次级输出矩阵与中心锚点间的差值；重复上述过程，直至循环至训练阈值后，得到多模态识别模型，其中，所述多模态识别模型还包括输出层，可以得到多模态下识别精确度较高的多模态识别模型。

55、为让本说明书的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马尔延拓
技术所有人：中国工商银行股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。